Menu

Que sont les données non structurées ?

7 cubes roses disposés sur 2 rangées avec un cube blanc non aligné sur un fond rose

Dans le monde moderne du Big Data, les données non structurées sont les plus abondantes. On les trouve sous de multiples formes : média, image, audio, données de capteur, données de texte, et bien plus encore. La notion de « non structurées » désigne le fait qu'il s'agit de jeux de données (grands ensembles de fichiers typiques) stockés sans format de base de données structurée. Les données non structurées disposent d'une structure interne, mais elles ne sont pas prédéfinies par des modèles de données. Elles peuvent être générées par des humains, par une machine dans un format textuel ou non textuel.

Télécharger le livre blanc

Stockage objet : Gérer les données non structurées à très grande échelle

Les données non structurées peuvent être définies comme des données qui ne sont pas gérées activement dans un système transactionnel, par exemple des données qui ne résident pas dans un système de gestion de bases de données relationnelles (RDBMS). Les données structurées peuvent être des enregistrements (ou des transactions) dans un environnement de base de données ; par exemple, des lignes dans une table d'une base de données SQL.

Peu importe que les données soient structurées ou non. Les deux disposent d'outils permettant aux utilisateurs d'accéder aux informations. Les données non structurées sont simplement plus nombreuses que les données structurées.

Voici quelques exemples de données non structurées :

Jusqu'à l'avènement du stockage objets, la plupart, sinon la totalité, de ces données non structurées étaient stockées dans des systèmes basés sur des fichiers.

Quels défis les données non structurées présentent-elles ?

Pour savoir comment relever les défis des données non structurées, il faut se demander à quoi les entreprises sont confrontées avec les approches classiques de gestion des données non structurées.

Évolutivité

Dans de nombreuses entreprises, il est courant de rencontrer des datasets non structurés à l'échelle de dizaines ou de centaines de milliards d'éléments. Ces éléments, objets ou fichiers peuvent être de quelques octets (par exemple, une lecture de température d'un instrument de production) à des téraoctets (par exemple, un film de résolution 8K). Avec des approches de fichiers classiques, la gestion de cette échelle déjà difficile devient rapidement impossible, car de plus en plus de ressources sont nécessaires juste pour maintenir un « équilibre » des serveurs, des systèmes de fichiers, des baies, etc.

Collaboration

De plus en plus, ces jeux de données non structurés massifs apportent de la valeur lorsqu'ils sont partagés (par exemple, les chercheurs de plusieurs hôpitaux qui partagent une banque massive commune de séquences génomiques). Avec les approches classiques, le partage d'ensembles massifs de données non structurées entre les régions géographiques, les entités d'entreprise, etc., a nécessité une réplication et une gouvernance extrêmement coûteuses.

Relever ces défis en utilisant le stockage objet

Aujourd'hui les solutions de stockage objets répondent aux défis de l'évolutivité et de la collaboration en fournissant un espace de noms actif réparti géographiquement. Ce namespace permet à un utilisateur à n'importe quel emplacement de récupérer un objet ou un fichier à partir de n'importe quel emplacement avec une simple commande GET (sans avoir à spécifier un data center, un serveur, un système de fichiers ou un directeur). De même, les commandes PUT permettent d'ingérer les données afin que tous les emplacements puissent facilement y accéder.

La simplicité et l'évolutivité d'un namespace global unique associé à un simple protocole de gestion des données sans état (Amazon S3 et Swift, par exemple) aident les entreprises à offrir un environnement évolutif et collaboratif à travers la zone géographique, l'organisation et les applications.

NetApp et le stockage objet

Vous pouvez stocker et gérer des données non structurées à grande échelle grâce à la technologie NetApp ® StorageGRID ® pour un stockage objet sécurisé et durable pour les clouds privés et publics. Avec StorageGRID, vous pouvez créer un namespace unique massif (multilocation) et intégrer une stratégie unique de cycle de vie des informations dans ces données. Avec le moteur de règles intégré StorageGRID, vous pouvez être certain que vos données sont disponibles :

  • Dans le bon emplacement géographique
  • Au bon niveau de performance
  • Au bon niveau de durabilité et de protection
  • Au bon moment et en évoluant automatiquement selon les besoins de l'entreprise

Pour aller plus loin