Menü

Was sind unstrukturierte Daten?

7 rosafarbene Würfel in 2 Reihen mit einem weißen Würfel auf rosa Hintergrund

In der modernen Welt der Big Data sind die meisten Daten unstrukturiert. Dies ist nahe liegend, denn unstrukturierte Daten können alles sein: Medien, Bilder, Audio, Sensordaten, Textdaten und vieles mehr. Unstrukturiert bedeutet einfach, dass es sich um Datasets (meist große Dateisammlungen) handelt, die nicht in einem strukturierten Datenbankformat gespeichert sind. Unstrukturierte Daten haben sehr wohl eine interne Struktur, die jedoch nicht durch Datenmodelle vorgegeben ist. Diese Daten können von Menschen oder Maschinen generiert worden sein und in einem textlichen oder nicht textlichen Format vorliegen.

Whitepaper lesen

Objekt-Storage: Management umfangreicher unstrukturierter Daten

Unstrukturierte Daten können als Daten bezeichnet werden, die nicht aktiv in einem Transaktionssystem gemanagt werden, z. B. Daten, die nicht in einem RDBMS (Relational Database Management System) gespeichert sind. Strukturierte Daten können als Datensätze (oder Transaktionen) in einer Datenbankumgebung bezeichnet werden, z. B. Zeilen in einer Tabelle einer SQL-Datenbank.

Es gibt keine Präferenz, ob Daten strukturiert oder unstrukturiert sind. Beide verfügen über Tools, mit denen Benutzer auf Informationen zugreifen können. Unstrukturierte Daten sind in der Überfülle, als strukturierte Daten sind.

Beispiele für unstrukturierte Daten sind:

Bis zur Einführung von objektbasiertem Storagewurden die meisten, wenn nicht sogar alle unstrukturierten Daten in dateibasierten Systemen gespeichert.

Welche Herausforderungen gibt es bei der Arbeit mit unstrukturierten Daten?

Die Art und Weise, wie man mit den Herausforderungen unstrukturierter Daten umgehen kann, ist die Frage: Was stehen Unternehmen mit herkömmlichen Ansätzen für das Management unstrukturierter Daten vor?

Skalierung

In vielen Unternehmen kommt es häufig vor, dass unstrukturierte Datensätze im Umfang von zehn oder Hunderten Milliarden von Elementen auftreten. Bei diesen Elementen, Objekten oder Dateien kann es sich um ein paar Bytes (z. B. ein Temperaturmesswert von einem Produktionslinieninstrument) bis hin zu Terabyte (z. B. ein vollständiges 8K-Auflösungsbild) handelt. Das Management dieser Skalierung mit herkömmlichen Dateiansätzen geht schnell von schwierig auf unmöglich über, da immer mehr Ressourcen benötigt werden, um lediglich ein "Gleichgewicht" von Servern, Dateisystemen, Arrays usw. aufrechtzuerhalten.

Collaboration

Diese riesigen unstrukturierten Datensätze liefern zunehmend Mehrwert, wenn sie gemeinsam genutzt werden (z. B. Forscher in mehreren Krankenhäusern, die über eine große Anzahl genomischer Sequenzen verfügen). Bei herkömmlichen Ansätzen war die Möglichkeit, riesige Mengen unstrukturierter Daten über geografische Standorte, Unternehmenseinheiten usw. hinweg gemeinsam zu nutzen, äußerst kostspielig. Dies erforderte eine Replizierung und Governance.

Bewältigung dieser Herausforderungen durch den Einsatz von Objekt-Storage

Heute Objekt-Storage-Lösungen erfüllen die Herausforderungen der Skalierung und Zusammenarbeit durch die Bereitstellung eines geografisch verteilten aktiven Namespace. Mit diesem Namespace kann ein Benutzer an jedem Speicherort ein Objekt oder eine Datei mit einem einfachen GET-Befehl von einem beliebigen Speicherort abrufen (ohne ein Datacenter, einen Server, ein Dateisystem oder einen Director angeben zu müssen). Ebenso ermöglichen PUT-Befehle das Einnehmen von Daten, sodass alle Standorte problemlos darauf zugreifen können.

Die Einfachheit und Skalierbarkeit eines einzelnen globalen Namespace in Kombination mit einem einfachen statuslosen Datenverwaltungsprotokoll (z. B. Amazon S3 und Swift) unterstützen Unternehmen bei der Bereitstellung einer skalierbaren und kollaborativen Umgebung über geografische, Unternehmens- und Applikationsgrenzen hinweg.

NetApp und Objekt-Storage

Sie können unstrukturierte Daten in großem Umfang speichern und managen, indem Sie die NetAppStorageGRIDTechnologie für sicheren, dauerhaften Objekt-Storage für Private und Public Clouds verwenden. Mit StorageGRID können Sie einen riesigen (standortübergreifenden) Namespace erstellen und eine einzigartige Information Lifecycle Policy in diese Daten integrieren. Mit der integrierten Policy Engine von StorageGRID können Sie sicher sein, dass Ihre Daten verfügbar sind:

  • Am richtigen geografischen Standort
  • Auf dem richtigen Performance-Niveau
  • Auf dem richtigen Maß an Haltbarkeit und Schutz
  • Zur richtigen Zeit und im Laufe der Zeit automatisch wie Geschäftliche Anforderungen entwickeln sich weiter

Weiterlesen

Drift chat loading