Was sind unstrukturierte Daten? – Definition und Bedeutung

Themen

Diese Seite teilen

In der modernen Welt der Big Data sind die meisten Daten unstrukturiert. Dies ist naheliegend, denn unstrukturierte Daten können praktisch alles umfassen: Medien, Bilder, Audiomaterialien, Sensordaten, Textdaten und vieles mehr. Unstrukturiert bedeutet einfach, dass es sich um Datensätze (meist große Dateisammlungen) handelt, die nicht in einem strukturierten Datenbankformat gespeichert sind. Unstrukturierte Daten haben sehr wohl eine interne Struktur – diese ist jedoch nicht durch Datenmodelle vorgegeben. Die unstrukturierten Daten können von Menschen oder Maschinen generiert worden sein und in einem textlichen oder nicht textlichen Format vorliegen.

Unstrukturierte Daten und strukturierte Daten

Unstrukturierte Daten kann man sich vorstellen als Daten, die nicht aktiv in einem transaktionalen System gemanagt werden. Ein Beispiel sind Daten außerhalb eines relationalen Datenbankmanagementsystems (RDBMS). Strukturierte Daten kann man sich dagegen vorstellen als Datensätze (oder Transaktionen) in einer Datenbankumgebung. Ein Beispiel sind Zeilen in einer Tabelle innerhalb einer SQL-Datenbank.

Strukturierte oder unstrukturierte Daten – keine der beiden Kategorien ist per se besser als die andere. Bei beiden gibt es Tools, mit denen Anwender Zugriff auf Informationen erhalten. Unstrukturierte Daten sind einfach nur zufällig in größerer Menge vorhanden als strukturierte Daten.

Einige Beispiele für unstrukturierte Daten:

Rich Media. Medien- und Unterhaltungsdaten, Überwachungsdaten, Geodaten, Audiodaten, Wetterdaten.
Dokumentsammlungen. Rechnungen, Protokolle, E-Mails, Produktivitätsapplikationen.
Internet of Things (IoT). Sensordaten, Ticker-Daten.
Analytics. Machine Learning, künstliche Intelligenz (KI).

Bis zum Aufkommen von objektbasiertem Storage waren die meisten ;– wenn nicht sogar alle – dieser unstrukturierten Daten in dateibasierten Systemen gespeichert.

Herausforderungen bei der Arbeit mit unstrukturierten Daten

Wenn es um das Bewältigen der Herausforderungen bei unstrukturierten Daten geht, ist die folgende Frage wichtig: Vor welchen Problemen stehen Unternehmen im Zusammenhang mit herkömmlichen Ansätzen des Managements unstrukturierter Daten?

Skalierung

In vielen Unternehmen sind unstrukturierte Datensätze mit Dutzenden oder Hunderten Milliarden Elementen gang und gäbe. Diese Elemente, Objekte oder Dateien können in einer Größe von wenigen Byte (z. B. beim Temperaturmesswert eines Produktionsgeräts) bis hin zu mehreren Terabyte (z. B. bei einem Kinofilm in voller Länge mit 8K-Auflösung) vorliegen. Das Management einer solchen Menge ist mit herkömmlichen Dateimethoden schnell nicht mehr nur schwierig, sondern schier unmöglich – allein dafür, bei Servern, Filesystemen, Arrays und so weiter ein gewisses Gleichgewicht aufrechtzuerhalten, braucht man immer mehr Ressourcen.

Collaboration

Die riesigen unstrukturierten Datensätze liefern zunehmend Nutzen, wenn sie gemeinsam verwendet werden (beispielsweise bei Forschenden in mehreren Krankenhäusern mit einer übergreifenden großen Datenbank zu Genomsequenzen). Bei herkömmlichen Ansätzen machte eine gemeinsame Nutzung großer Mengen unstrukturierter Daten – verteilt über verschiedene Standorte, Unternehmenseinheiten und so weiter – eine extrem teure Replikation und Governance erforderlich.

Objektspeicher: Management umfangreicher unstrukturierter Daten

Herunterladen

Überwindung dieser Herausforderungen durch Einsatz von Objektspeicher

Die heutigen Objektspeicherlösungen werden den Herausforderungen der Skalierung und Collaboration gerecht, indem sie einen geografisch verteilten aktiven Namespace bereitstellen. Dieser Namespace ermöglicht es Anwendern an beliebigen Standorten, ein Objekt oder eine Datei über einen einfachen GET-Befehl abzurufen (ohne dabei Rechenzentrum, Server, Filesystem oder Director angeben zu müssen). Auf ähnliche Weise ist es mit PUT-Befehlen möglich, Daten aufzunehmen, sodass an allen Standorten problemlos Zugriff darauf besteht.

Die Einfachheit und Skalierbarkeit eines globalen Single Namespace in Kombination mit einem einfachen zustandslosen Datenmanagementprotokoll (beispielsweise Amazon S3 und Swift) unterstützen Unternehmen dabei, eine skalierbare und zusammenarbeitsfördernde Umgebung bereitzustellen, die nicht auf einzelne Standorte, Organisationen und Applikationen beschränkt ist.

NetApp und Objekt-Storage

Mit der NetApp^® StorageGRID^® Technologie für sicheren und langlebigen Objektspeicher in Private und Public Clouds können Sie unstrukturierte Daten jeder Größenordnung speichern und managen. StorageGRID ermöglicht das Aufbauen eines massiven (standortübergreifenden) Single Namespace – zudem können Sie in diese Daten auch eine spezifische Information-Lifecycle-Richtlinie integrieren. Dank der in StorageGRID integrierten Richtlinien-Engine haben Sie die Sicherheit, dass Ihre Daten wie folgt verfügbar sind:

am richtigen geografischen Standort
mit dem richtigen Maß an Performance
auf der richtigen Stufe von Datenaufbewahrungszeit und Sicherung
zum richtigen Zeitpunkt und angepasst an sich weiterentwickelnde Geschäftsanforderungen mit automatischen Veränderungen im Laufe der Zeit