Dans le monde moderne du Big Data, les données non structurées sont les plus abondantes. À tel point qu'on trouve les données non structurées sous de multiples formes : média, image, audio, données de capteur, données de texte, et bien plus encore. La notion de « non structurées » désigne le fait qu'il s'agit de jeux de données (grands ensembles de fichiers typiques) stockés sans format de base de données structurée. Les données non structurées disposent d'une structure interne, mais elles ne sont pas prédéfinies par des modèles de données. Elles peuvent être générées par des humains, mais aussi par une machine, dans un format textuel ou non textuel.
Données non structurées et données structurées
Les données non structurées correspondent aux données qui ne sont pas activement gérées dans un système transactionnel. Il peut d'agir, par exemple, des données qui ne résident pas dans un système de gestion de base de données relationnelle (SGBDR). Les données structurées sont les « enregistrements » (ou transactions) dans un environnement de base de données, comme les lignes dans une table de base de données SQL.
Le caractère structuré ou non structuré des données n'a pas d'importance. Dans les deux cas, des outils permettent d'accéder aux informations. Il existe simplement davantage de données non structurées que de données structurées.
Voici quelques exemples de données non structurées :
- Contenu de média enrichi. Données de contenus multimédias et de divertissement, données de surveillance, données géospatiales, données audio et données météorologiques
- Collections de documents. Factures, dossiers, e-mails, applications de productivité
- Internet des objets (IoT). Données de capteur, données de téléscripteur
- Analytique. Machine learning, intelligence artificielle (IA)
Jusqu'à la création du stockage objet, la plupart de ces données non structurées (voire la totalité) étaient stockées dans des systèmes basés sur des fichiers.
Quels sont les défis liés à l'utilisation des données non structurées ?
Pour comprendre les défis posés par les données non structurées, il faut envisager la question sous cet angle : quelles difficultés les entreprises rencontrent-elles avec les approches classiques de gestion des données non structurées ?
ÉvolutionDe nombreuses entreprises possèdent des datasets non structurés de plusieurs dizaines ou centaines de milliards d'éléments. Ces éléments, objets ou fichiers peuvent représenter quelques octets (une mesure de température provenant d'un instrument placé sur une ligne de production, par exemple) à plusieurs téraoctets (comme un film d'animation complet en résolution 8K). À de telles échelles, la gestion des données au moyen d'approches classiques basées sur des fichiers se révèle rapidement complexe, voire impossible. Le seul fait de maintenir un « équilibre » entre des serveurs, systèmes de fichiers et baies mobilise un nombre croissant de ressources.
CollaborationDe plus en plus, ces immenses volumes de données non structurées sont une source de valeur quand ils sont partagés (mise en commun d'une vaste banque de séquences génomiques entre des chercheurs de différents hôpitaux, par exemple). Avec des approches classiques, ce partage massif entre des zones géographiques, des entreprises ou autres entités exige des efforts considérables en termes de réplications de données et de gouvernance.
.png?width=117&format=pjpg&disable=upscale)