Nel mondo moderno dei big data, i dati non strutturati sono i più abbondanti. La proliferazione è tale perché i dati non strutturati possono essere qualsiasi cosa: supporti, immagini, audio, dati dei sensori, dati di testo, e molto altro ancora. Non strutturato significa semplicemente che i set di dati (tipiche raccolte di file di grandi dimensioni) non sono memorizzati in un formato di database strutturato. I dati non strutturati hanno una struttura interna, ma non sono predefiniti attraverso modelli di dati. Potrebbe essere generato da un utente umano o da una macchina generata in un formato testuale o non testuale.
Dati non strutturati rispetto a dati strutturati
I dati non strutturati possono essere considerati dati non gestiti attivamente in un sistema transazionale, ad esempio i dati che non risiedono in un sistema di gestione di database relazionali (RDBMS). I dati strutturati possono essere considerati come record (o transazioni) in un ambiente di database; ad esempio, righe in una tabella di un database SQL.
Non esiste alcuna preferenza se i dati sono strutturati o non strutturati. Entrambi dispongono di strumenti che consentono agli utenti di accedere alle informazioni. I dati non strutturati sembrano semplicemente essere in maggiore abbondanza rispetto a quelli strutturati.
Esempi di dati non strutturati:
Fino all'avvento dello storage basato su oggetti, la maggior parte, se non tutti, di questi dati non strutturati era memorizzata in sistemi basati su file.
Quali sono le sfide presenti nel lavoro con i dati non strutturati?
Il modo di pensare a come affrontare le sfide legate ai dati non strutturati è chiedersi: Cosa devono affrontare le aziende con gli approcci tradizionali alla gestione dei dati non strutturati?
ScalaÈ comune in molte imprese avere a che fare con set di dati non strutturati alla portata di decine o centinaia di miliardi di elementi. Questi elementi, oggetti o file possono essere di qualsiasi tipo, da pochi byte (ad esempio, una lettura della temperatura da uno strumento della linea di produzione) a terabyte di dimensioni (ad esempio, un'immagine in movimento con risoluzione 8K full-length). La gestione di questa scala con i tradizionali approcci ai file passa rapidamente dal difficile all'impossibile, poiché occorrono sempre più risorse solo per mantenere un "equilibrio" di server, file system, array e così via.
CollaborazioneQuesti enormi set di dati non strutturati offrono valore non appena vengono condivisi (ad esempio, ricercatori di diversi ospedali che condividono un'enorme banca comune di sequenze genomiche). Con gli approcci tradizionali, la capacità di condividere enormi set di dati non strutturati tra aree geografiche, entità aziendali e così via ha richiesto una replica e una governance estremamente costose.