Que sont les données non structurées ? – Définition et signification

Dans le monde moderne du Big Data, les données non structurées sont les plus abondantes. À tel point qu'on trouve les données non structurées sous de multiples formes : média, image, audio, données de capteur, données de texte, et bien plus encore. La notion de « non structurées » désigne le fait qu'il s'agit de jeux de données (grands ensembles de fichiers typiques) stockés sans format de base de données structurée. Les données non structurées disposent d'une structure interne, mais elles ne sont pas prédéfinies par des modèles de données. Elles peuvent être générées par des humains, mais aussi par une machine, dans un format textuel ou non textuel.

Données non structurées et données structurées

Les données non structurées correspondent aux données qui ne sont pas activement gérées dans un système transactionnel. Il peut d'agir, par exemple, des données qui ne résident pas dans un système de gestion de base de données relationnelle (SGBDR). Les données structurées sont les « enregistrements » (ou transactions) dans un environnement de base de données, comme les lignes dans une table de base de données SQL.

Le caractère structuré ou non structuré des données n'a pas d'importance. Dans les deux cas, des outils permettent d'accéder aux informations. Il existe simplement davantage de données non structurées que de données structurées.

Voici quelques exemples de données non structurées :

Contenu de média enrichi. Données de contenus multimédias et de divertissement, données de surveillance, données géospatiales, données audio et données météorologiques
Collections de documents. Factures, dossiers, e-mails, applications de productivité
Internet des objets (IoT). Données de capteur, données de téléscripteur
Analytique. Machine learning, intelligence artificielle (IA)

Jusqu'à la création du stockage objet, la plupart de ces données non structurées (voire la totalité) étaient stockées dans des systèmes basés sur des fichiers.

Quels sont les défis liés à l'utilisation des données non structurées ?

Pour comprendre les défis posés par les données non structurées, il faut envisager la question sous cet angle : quelles difficultés les entreprises rencontrent-elles avec les approches classiques de gestion des données non structurées ?

Évolution

De nombreuses entreprises possèdent des datasets non structurés de plusieurs dizaines ou centaines de milliards d'éléments. Ces éléments, objets ou fichiers peuvent représenter quelques octets (une mesure de température provenant d'un instrument placé sur une ligne de production, par exemple) à plusieurs téraoctets (comme un film d'animation complet en résolution 8K). À de telles échelles, la gestion des données au moyen d'approches classiques basées sur des fichiers se révèle rapidement complexe, voire impossible. Le seul fait de maintenir un « équilibre » entre des serveurs, systèmes de fichiers et baies mobilise un nombre croissant de ressources.

Collaboration

De plus en plus, ces immenses volumes de données non structurées sont une source de valeur quand ils sont partagés (mise en commun d'une vaste banque de séquences génomiques entre des chercheurs de différents hôpitaux, par exemple). Avec des approches classiques, ce partage massif entre des zones géographiques, des entreprises ou autres entités exige des efforts considérables en termes de réplications de données et de gouvernance.

Défis relevés grâce au stockage objet

Les solutions de stockage objet modernes répondent aux défis d'évolutivité et de collaboration en fournissant un namespace actif réparti géographiquement. Ce namespace permet à un utilisateur, où qu'il se trouve, de récupérer un objet ou un fichier à partir de n'importe quel emplacement à l'aide d'une simple commande GET (sans avoir à spécifier un data center, un serveur, un système de fichiers ou un directeur). De même, il est possible d'utiliser les commandes PUT pour exécuter une ingestion des données et ainsi rendre ces dernières plus facilement accessibles à tous les emplacements.

La simplicité et l'évolutivité d'un namespace global unique, combinées à un protocole simple de gestion des données sans état (Amazon S3 et Swift, par exemple), permettent aux entreprises de créer un environnement collaboratif et évolutif indépendamment du lieu, de l'entité et des limites des applications.

NetApp et le stockage objet

Avec la technologie NetApp^®StorageGRID^®, vous pouvez stocker et gérer les données non structurées à grande échelle pour un stockage objet sécurisé et durable dans les clouds privés et publics. StorageGRID vous permet de créer un namespace global (multisite) et d'intégrer une règle unique dans ces données pour la gestion du cycle de vie des informations. Le moteur de règles intégré StorageGRID assure la disponibilité de vos données :

Dans le bon emplacement géographique

Au bon niveau de performance

Au niveau approprié de durabilité et de protection

Au bon moment, avec une adaptation automatique au fil du temps en fonction de l'évolution des besoins de votre entreprise

Partager cette page

Données non structurées et données structurées

Quels sont les défis liés à l'utilisation des données non structurées ?

Stockage objet : gérez les données non structurées à très grande échelle

Défis relevés grâce au stockage objet

NetApp et le stockage objet