No mundo moderno do Big Data, os dados não estruturados são os mais abundantes. É tão prolífico porque os dados não estruturados podem ser qualquer coisa: Mídia, imagem, áudio, dados de sensor, dados de texto, e muito mais. Não estruturados significa simplesmente que são conjuntos de dados (grandes coleções de arquivos típicos) que não são armazenados em um formato de banco de dados estruturado. Os dados não estruturados têm uma estrutura interna, mas não são predefinidos por meio de modelos de dados. Pode ser gerado por humanos, ou gerado por máquina em um formato textual ou não textual.
Dados não estruturados versus dados estruturados
Os dados não estruturados podem ser considerados como dados que não são gerenciados ativamente em um sistema transacional; por exemplo, dados que não residem em um sistema de gerenciamento de banco de dados relacional (RDBMS). Os dados estruturados podem ser considerados como Registros (ou transações) em um ambiente de banco de dados; por exemplo, linhas em uma tabela de um banco de dados SQL.
Não há preferência quanto à estrutura ou não dos dados. Ambos têm ferramentas que permitem aos usuários acessar informações. Os dados não estruturados simplesmente ficam mais abundantes do que os dados estruturados.
Exemplos de dados não estruturados são:
Até o advento do storage baseado em objeto, a maioria, se não todos, desses dados não estruturados era armazenada em sistemas baseados em arquivo.
Quais são os desafios que o trabalho com dados não estruturados apresenta?
A maneira de pensar sobre como lidar com os desafios dos dados não estruturados é perguntar: O que as empresas enfrentam com abordagens tradicionais para o gerenciamento de dados não estruturados?
EscalaEm muitas empresas, é comum encontrar conjuntos de dados não estruturados na escala de dezenas ou centenas de bilhões de itens. Esses itens, objetos ou arquivos podem ser de alguns bytes (por exemplo, uma leitura de temperatura de um instrumento de linha de produção) a terabytes de tamanho (por exemplo, uma imagem em movimento de resolução 8KK completa). O gerenciamento dessa escala com abordagens de arquivos tradicionais passa rapidamente de difícil para impossível, à medida que mais e mais recursos são necessários apenas para manter um "equilíbrio" de servidores, sistemas de arquivos, arrays etc.
ColaboraçãoCada vez mais, esses conjuntos de dados não estruturados massivos agregam valor à medida que são compartilhados (por exemplo, pesquisadores em vários hospitais que compartilham um enorme banco comum de sequências genômicas). Com abordagens tradicionais, a capacidade de compartilhar conjuntos massivos de dados não estruturados de diferentes regiões geográficas, entidades corporativas etc., exigiu replicação e governança extremamente caras.