Menu

Cosa sono i dati non strutturati?

Argomenti

Condivi questa pagina

Nel mondo moderno dei big data, i dati non strutturati sono i più abbondanti. La proliferazione è tale perché i dati non strutturati possono essere qualsiasi cosa: supporti, immagini, audio, dati dei sensori, dati di testo, e molto altro ancora. Non strutturato significa semplicemente che i set di dati (tipiche raccolte di file di grandi dimensioni) non sono memorizzati in un formato di database strutturato. I dati non strutturati hanno una struttura interna, ma non sono predefiniti attraverso modelli di dati. Potrebbe essere generato da un utente umano o da una macchina generata in un formato testuale o non testuale.

Dati non strutturati rispetto a dati strutturati

I dati non strutturati possono essere considerati dati non gestiti attivamente in un sistema transazionale, ad esempio i dati che non risiedono in un sistema di gestione di database relazionali (RDBMS). I dati strutturati possono essere considerati come record (o transazioni) in un ambiente di database; ad esempio, righe in una tabella di un database SQL.

Non esiste alcuna preferenza se i dati sono strutturati o non strutturati. Entrambi dispongono di strumenti che consentono agli utenti di accedere alle informazioni. I dati non strutturati sembrano semplicemente essere in maggiore abbondanza rispetto a quelli strutturati.

Esempi di dati non strutturati:

Fino all'avvento dello storage basato su oggetti, la maggior parte, se non tutti, di questi dati non strutturati era memorizzata in sistemi basati su file.

Quali sono le sfide presenti nel lavoro con i dati non strutturati?

Il modo di pensare a come affrontare le sfide legate ai dati non strutturati è chiedersi: Cosa devono affrontare le aziende con gli approcci tradizionali alla gestione dei dati non strutturati?

Scala

È comune in molte imprese avere a che fare con set di dati non strutturati alla portata di decine o centinaia di miliardi di elementi. Questi elementi, oggetti o file possono essere di qualsiasi tipo, da pochi byte (ad esempio, una lettura della temperatura da uno strumento della linea di produzione) a terabyte di dimensioni (ad esempio, un'immagine in movimento con risoluzione 8K full-length). La gestione di questa scala con i tradizionali approcci ai file passa rapidamente dal difficile all'impossibile, poiché occorrono sempre più risorse solo per mantenere un "equilibrio" di server, file system, array e così via.

Collaborazione

Questi enormi set di dati non strutturati offrono valore non appena vengono condivisi (ad esempio, ricercatori di diversi ospedali che condividono un'enorme banca comune di sequenze genomiche). Con gli approcci tradizionali, la capacità di condividere enormi set di dati non strutturati tra aree geografiche, entità aziendali e così via ha richiesto una replica e una governance estremamente costose.

Storage a oggetti: gestisci i dati non strutturati con una scalabilità estrema

Superare queste sfide con lo storage a oggetti

Le odierne soluzioni di storage a oggetti soddisfano le sfide di scalabilità e collaborazione fornendo un namespace attivo geodistribuito. Il namespace consente a un utente in qualsiasi posizione di recuperare un oggetto o un file da qualsiasi posizione con un semplice comando GET (senza specificare data center, server, file system o director). Analogamente, i comandi PUT consentono l'acquisizione dei dati per agevolare l'accesso a tutte le posizioni.

La semplicità e la scalabilità di un singolo namespace globale combinate con un semplice protocollo di gestione dei dati stateless (ad esempio, Amazon S3 e Swift) consentono alle organizzazioni di fornire un ambiente scalabile e collaborativo oltre i confini geografici, organizzativi e applicativi.

NetApp e lo storage a oggetti

Archivia e gestisci dati non strutturati su vasta scala utilizzando NetApp® StorageGRID®, una soluzione di storage a oggetti sicura e durevole per il cloud privato e pubblico. StorageGRID consente di creare un namespace singolo esteso (in più posizioni) e integrare una policy univoca per il ciclo di vita delle informazioni in tali dati. Con il motore di policy integrato di StorageGRID i dati saranno sempre disponibili:

  • Nella giusta posizione geografica
  • Al giusto livello di performance
  • Al giusto livello di durata e protezione
  • Al momento giusto e con un cambiamento automatico nel tempo, in base all'evoluzione delle esigenze aziendali
Drift chat loading