NetApp Tech OnTap Logo NetApp
NetApp Tech OnTap
     
StorageGRID Webscale : stockage objet continu pour l'entreprise et le cloud
Ingo Fuchs
Responsable senior, Solutions clouds

Outre les performances, de nombreux facteurs sont à prendre en compte en matière de stockage des données, notamment :

  • Le nombre de fichiers : comment gérer efficacement les données lorsque le nombre de fichiers dans l'environnement de stockage passe de plusieurs millions à plusieurs milliards ?
  • L'emplacement de stockage : comment s'assurer que les données se trouvent à l'endroit approprié, en particulier les données sensibles ?
  • La durabilité : comment être sûr que les données stockées à long terme demeurent lisibles lorsqu'elles sont peu, voire jamais utilisées ?
  • La conformité : comment veiller à ce que les exigences aussi bien en matière de gouvernance que de réglementations soient respectées ?
  • La conservation : comment conserver les données sur plusieurs générations de matériel de stockage ?
  • Le coût : enfin, comment s'assurer que les données sont stockées sur le support le plus rentable tout au long de leur cycle de vie ?

Jusqu'à présent, il était difficile de répondre efficacement à chacune de ces problématiques, et plus encore à toutes à la fois. C'est pourtant le défi qu'est parvenu à relever NetApp avec StorageGRID® Webscale.

StorageGRID Webscale est une solution logicielle de stockage objet extrêmement évolutive pour les archives volumineuses, les référentiels médias et les entrepôts de données en ligne.

Cet article vous propose de découvrir quelques concepts liés au stockage objet, ainsi que des fonctionnalités de StorageGRID Webscale et des cas d'utilisation.

Pourquoi adopter une solution de stockage objet et pourquoi maintenant ?

Le stockage objet diffère légèrement du stockage basé sur des blocs ou des fichiers que vous connaissez déjà. En effet, il organise les données dans des conteneurs de taille variable appelés « objets ». Ces objets sont stockés dans un espace de nom plat, capable de couvrir plusieurs emplacements. Chaque objet inclut à la fois des données (séquence non interprétée d'octets) et des métadonnées (ID unique et ensemble extensible d'attributs décrivant l'objet). Le stockage objet fonctionne de la même manière qu'un service de voiturier : vous présentez votre ticket au voiturier afin que celui-ci vous restitue votre véhicule, sans vous préoccuper de savoir où il était stationné.

Figure 1. Le stockage objet offre des conteneurs flexibles et des métadonnées extensibles qui permettent de gérer efficacement des milliards de fichiers.

Avec cette approche, les données peuvent être référencées et interrogées à partir de n'importe quel attribut. Et contrairement au système de voiturier basé sur des tickets papier qui peuvent facilement être égarés, le stockage objet offre plusieurs moyens d'accéder aux données adéquates, avec différents niveaux de complexité et de sécurité. Les balises d'identification permettent d'indexer des fichiers dont le nombre dépasse largement celui pouvant être contenu dans un système de fichiers, ce qui fait du stockage objet la solution idéale pour le stockage d'entreprise réparti sur plusieurs zones et englobant plusieurs milliards de fichiers.

Trois tendances alimentent l'intérêt pour le stockage objet :

  • L'augmentation constante du nombre de données non structurées requiert l'adoption d'une nouvelle approche en matière de stockage et de protection des données. La gestion des données basée sur les objets facilite le placement intelligent des données en vue de satisfaire à diverses exigences en termes de performance, de durabilité, de disponibilité, d'emplacement et de longévité.
  • Les entreprises sont de plus en plus à même de prendre en charge la création et la consommation décentralisées de leurs données. Le modèle « data center principal plus data center de reprise après incident » est remplacé par une approche multisite dans laquelle les utilisateurs, les charges de travail et les données sont rapprochés.
  • Le cloud hybride offre de nouvelles options permettant d'équilibrer les coûts et les performances, et les équipes informatiques étudient comment exploiter au mieux le stockage sur site et le stockage basé sur le cloud.

Présentation de StorageGRID Webscale

StorageGRID Webscale est une plateforme de stockage de grande qualité qui offre des avantages significatifs par rapport aux autres approches en matière de stockage objet. Son architecture logicielle unique prend en charge plusieurs milliards d'objets et des dizaines de pétaoctets de stockage couvrant plusieurs emplacements au sein d'un même espace de nom.

Conçu pour prendre en charge le cloud hybride, StorageGRID Webscale fournit une disponibilité en continu des données et un support natif éprouvé pour les applications clouds avec les API S3 et CDMI. Un moteur de règles dynamiques permet d'optimiser la disponibilité, les performances et le coût de chaque objet de données stocké, assurant ainsi une granularité nettement supérieure.

StorageGRID Webscale tire parti de dix années d'expérience dans le déploiement de stockage objet en production avec notre produit StorageGRID initial. NetApp est ainsi en mesure d'offrir les avantages suivants :

  • Structure de règles la plus avancée de l'industrie pour la gestion du cycle de vie des données
  • Placement des objets répartis à divers endroits avec sélection du site géographique
  • Niveau de durabilité des données inégalé
  • Utilisation de la bande comme niveau actif (avec possibilité de récupérer des objets individuels à partir de la bande)

Tableau 1. Principales caractéristiques de StorageGRID Webscale.

Principales caractéristiques de StorageGRID Webscale
100 milliards d'objets par espace de nom Protection intégrée des données
70 Po par espace de nom Objets pouvant aller jusqu'à 5 To
Jusqu'à 16 data centers Fonctionnalités complètes d'audit et de création de rapports (compatibles avec Splunk)
Mises à niveau sans interruption Baie E-Series pour la densité, les performances et la disponibilité
Emplacement et niveau de stockage sélectionnés en fonction des règles Évolutivité horizontale
Contrôle d'intégrité et autorétablissement Conservation à long terme
API RESTful S3 et CDMI natives 

Moteur de règles dynamique

StorageGRID Webscale offre le meilleur niveau de granularité et de flexibilité du marché. Contrairement aux autres solutions qui gèrent les données en fonction des conteneurs, ce qui limite les possibilités, StorageGRID Webscale intègre un moteur de règles dynamiques qui permet de définir les règles en fonction de nombreux critères, notamment :

  • La disponibilité des ressources et latence
  • Les exigences de conservation des données
  • Les exigences en matière d'emplacement géographique
  • Le coût du réseau (facteur ayant un impact sur le coût de la liaison réseau)

StorageGRID Webscale peut évaluer les objets d'après divers critères tels que les métadonnées personnalisées de l'utilisateur et de l'application, la méthode d'entrée, la taille, ou l'heure du dernier accès, puis appliquer des règles qui définissent :

  • L'emplacement géographique d'un objet
  • Le type de stockage d'un objet (SSD, HDD, ou bande)
  • Le nombre de copies réalisées pour un objet
  • La conservation, y compris les modifications apportées au fil du temps à l'emplacement, au niveau de stockage, au nombre de copies et aux règles de suppression (le cas échéant).

Les métadonnées d'un objet incluent les emplacements de stockage et le nombre de copies de cet objet. Elles peuvent également contenir des champs personnalisés, et des champs nouveaux peuvent y être ajoutés en fonction des besoins. Les métadonnées sont distribuées dans l'ensemble de l'environnement StorageGRID Webscale pour améliorer l'évolutivité et la résilience, et pour accélérer la récupération.

Figure 2. Avantages du moteur de règles StorageGRID Webscale et des métadonnées extensibles.

Contrôle de la conformité aux règles : le moteur de règles StorageGRID Webscale est véritablement unique dans le sens où non seulement il exécute les règles à l'entrée des objets, mais en plus il vérifie régulièrement la conformité à ces règles et il entreprend les actions correctives adéquates. Il est par exemple possible de définir une règle stipulant que trois copies des objets d'un type particulier doivent être préservées à tout moment. Si une panne vient à altérer l'une des copies d'un objet soumis à cette règle, une nouvelle copie est alors automatiquement créée afin de garantir la conformité de l'objet à cette règle.

Application rétroactive des règles : les modifications apportées aux règles peuvent être appliquées rétroactivement. Supposons par exemple que vous avez défini une règle spécifiant qu'une copie des données stockées doit être conservée aux États-Unis, une autre en Allemagne et une autre au Japon, mais que, suite à une modification de la législation, vous n'êtes plus autorisé à stocker les données de ce type au Japon. Dans une telle situation, il vous suffit de modifier la règle pour que StorageGRID Webscale déplace automatiquement les données à l'endroit souhaité. Cette opération, qui normalement serait une tâche de gestion de données extrêmement laborieuse, est ainsi possible en quelques clics seulement.

Durabilité des données et disponibilité

La solution StorageGRID Webscale inclut une architecture avec tolérance aux pannes qui prend en charge la continuité de l'activité, les mises à niveau, ainsi que les mises à jour de l'infrastructure. Elle répond à la perte de nœuds individuels et de sites entiers afin d'assurer l'accès ininterrompu aux données. L'équilibrage de la charge répartit automatiquement les charges de travail pendant les activités normales et en cas de pannes afin d'assurer les meilleures performances en toutes circonstances. NetApp AutoSupport envoie des notifications automatiques à vos administrateurs et à NetApp en cas de problème.

Double allocation et copies multiples : lors de leur entrée, les objets sont immédiatement protégés par la fonctionnalité de double allocation (réalisation de deux copies en local), et tous les objets sont répliqués sur plusieurs sites. Toutes les copies des objets sont actives et peuvent servir à des fins de récupération.

Intégrité des données : Plusieurs couches sont imbriquées pour protéger l'intégrité des données, dont des authentifications, des hachages et des checksums. Une empreinte numérique est créée pour chaque objet à son entrée, puis vérifiée lors de la récupération, réplication ou migration de cet objet, et lorsque celui-ci est au repos. Les objets suspects sont automatiquement remplacés : si l'objet que vous tentez de récupérer échoue à un test, il est automatiquement récupéré à partir d'un autre emplacement et une nouvelle copie, transparente aussi bien pour l'utilisateur que pour l'administrateur, est créée.

Vérifications régulières de l'état : StorageGRID Webscale réalise des vérifications de l'état des données, qui, en vertu d'une règle définie, ne doivent autrement pas être utilisées à intervalles réguliers, afin d'assurer leur intégrité. En d'autres termes, vous avez la certitude que les données que vous stockez pendant de longues périodes seront encore lisibles lorsque vous en aurez besoin.

Prise en charge de l'API pour objets RESTful S3

L'API pour objets RESTful S3 utilisée par Amazon Web Services est l'API standard en matière de stockage objet. Grâce à la compatibilité avec les API S3, StorageGRID Webscale peut automatiquement prendre en charge les applications créées pour S3. Vous pouvez déplacer des applications écrites pour des fournisseurs de cloud public sur site, et vous pouvez développer des applications exécutables aussi bien dans des clouds privés que publics.

La solution StorageGRID Webscale prend en charge le contenu S3 (ID de compte, compartiments, préfixes de clé, etc.), ainsi que les métadonnées S3, et elle permet la journalisation, la surveillance et la création de rapports pour les audits.

Architecture et déploiement de StorageGRID Webscale

L'architecture logique simple de StorageGRID Webscale prend en charge une architecture physique capable d'évoluer aussi bien verticalement qu'au horizontalement. Cette architecture logique est illustrée dans la Figure 3. Les objets sont stockés et récupérés à l'aide d'API RESTful. Comme mentionné auparavant, la puissance de cette architecture réside dans le placement des données piloté par les règles et le référentiel de stockage en mode objet distribué sans influence d'emplacement.

Figure 3. StorageGRID Webscale inclut une architecture logique simple qui peut se superposer à la gestion des données au niveau objet sur de nombreux équipements de stockage.

L'architecture physique utilise quatre types de nœuds :

  • Des nœuds d'administration qui assurent les services de gestion tels que la configuration, la surveillance, l'audit et la journalisation.
  • Des nœuds de stockage qui gèrent le stockage objet, y compris la réplication.
  • Des nœuds de passerelle d'API (facultatifs) qui fournissent une interface d'équilibrage de la charge depuis laquelle les applications se connectent à StorageGRID Webscale à l'aide d'API standard.
  • Des nœuds d'archivage (facultatifs) qui offrent une interface pour l'archivage des supports tels que les bandes.

Vous pouvez faire évoluer l'architecture horizontalement en utilisant plusieurs nœuds de chaque type (dans chaque data center) pour assurer une évolutivité massive. Les nœuds StorageGRID Webscale s'exécutent en tant que serveurs virtuels VMware sur le stockage en mode bloc, qui peut prendre la forme d'une baie NetApp E-Series ou tierce. Chaque serveur virtuel utilise 8 vCPU et 24 Go de RAM. Par ailleurs, vous pouvez utiliser des SSD et une connectivité 10GbE pour améliorer les performances des serveurs virtuels.

Figure 4. L'architecture physique de StorageGRID Webscale repose sur quatre types de nœuds. Les nœuds permettant de traiter un déploiement unique peuvent être répartis entre jusqu'à 16 data centers.

Exécution de StorageGRID Webscale sur une baie E-Series

StorageGRID Webscale est un produit logiciel qui s'exécute sur une infrastructure virtuelle VMware dotée d'un stockage en mode bloc. Pour obtenir des résultats optimaux, nous vous conseillons de déployer StorageGRID Webscale sur un stockage de grande qualité éprouvé tel qu'une baie NetApp E-Series. Si vous faites l'acquisition de votre infrastructure dans un magasin discount local, c'est à ce magasin que vous devrez vous adresser pour toute assistance en dehors des heures de bureau. En plus d'être hautement résiliente, avec plus de 750 000 unités déployées, la baie E-Series est prise en charge par les meilleurs services d'assistance.

Elle offre les performances et la résilience nécessaires pour les cas d'utilisation de StorageGRID Webscale grâce à plusieurs fonctionnalités dont des pools de disques dynamiques (DDP) qui assurent le codage d'effacement au niveau du nœud. Les DDP répartissent uniformément les données, les informations de parité et la capacité disponible sur l'ensemble des disques, ce qui simplifie la configuration, élimine les points sensibles et optimise l'utilisation. L'espace libre est réparti entre les disques, il n'est donc pas nécessaire de prévoir des disques de secours dédiés inactifs. Vous bénéficiez de la performance maximale de tous les disques du système. Les DDP minimisent l'impact d'une panne disque sur les performances et peuvent rétablir le fonctionnement optimal du système 8 fois plus vite qu'un RAID traditionnel.

Utilisation

Pour NetApp, StorageGRID Webscale convient parfaitement aux référentiels de données, archives de données et référentiels multimédias en ligne. Les exigences varient pour chaque cas d'utilisation, mais StorageGRID Webscale s'adapte de façon à répondre à chacune d'entre elles.

Référentiels de données en ligne

Les référentiels de données en ligne contiennent des objets peu volumineux, mais nombreux, ainsi que des charges de transaction extrêmement élevées. Du fait qu'un seul référentiel réparti entre plusieurs sites est capable de gérer jusqu'à 100 milliards d'objets et que les API S3 et CDMI sont prises en charges, StorageGRID Webscale est idéal pour ce cas d'utilisation.

Archives de données

Les entreprises sont de plus en plus nombreuses à stocker d'énormes quantités de données pendant des périodes prolongées afin de satisfaire à la fois aux exigences réglementaires et aux exigences en matière de gouvernance d'entreprise. Le coût et la gestion sont les principales préoccupations liées aux archives de données. Une latence d'accès élevée est tolérée en contrepartie d'un coût réduit. StorageGRID Webscale gère ce cas d'utilisation grâce à l'intégration de bandes, la durabilité des données éprouvée et la gestion flexible et basée sur des règles.

Référentiels multimédias

Les référentiels multimédias contiennent des objets volumineux (de 250 Mo ou plus) et requièrent la répartition géographique des objets, l'intégrité des données, ainsi qu'un faible temps avant réception du premier octet. Avec ses caractéristiques de durabilité et de répartition géographique, StorageGRID Webscale est en mesure de répondre à ces exigences. Il prend également en charge les « lectures à un point spécifique », afin, par exemple, de diffuser une vidéo en continu à partir de n'importe quel point dans le temps sans avoir à la télécharger dans sa totalité.

Conclusion

StorageGRID Webscale repose sur une base solide, dérivée de notre solution StorageGRID initiale, ce qui en fait un produit mature capable de satisfaire à vos besoins en matière de stockage objet. Il offre des fonctionnalités de stockage objet inédites, y compris le placement des objets répartis à divers endroits avec sélection du site géographique, la durabilité éprouvée des données avec des vérifications régulières de l'état et la conformité rétroactive aux règles.

Combinées, les fonctionnalités de StorageGRID Webscale simplifient considérablement la gestion des données, archives et référentiels multimédias en ligne. De plus, elles permettent de concevoir le stockage objet pour une utilisation continue en production pendant plusieurs dizaines d'années. Et tous ces avantages sont offerts par une entreprise de renom dotée d'un service d'assistance de grande qualité.

Le cloud joue un rôle de plus en plus prépondérant. NetApp double sa mise sur le stockage objet et se positionne comme une entreprise leader, avec de nombreuses évolutions futures. Pour découvrir les développements à venir, soyez attentif aux communications Tech OnTap.

Ingo Fuchs, Responsable senior, Solutions clouds

Ingo Fuchs est Responsable senior chargé du stockage objet, de la collaboration cloud et de la mobilité chez NetApp. Il travaille sur des enjeux variés, notamment l'évolution de référentiels de contenu vers des environnements de stockage en exaoctets et la sécurisation de l'accès aux données d'entreprise à partir des périphériques mobiles. Ingo Fuchs cumule plus de 20 ans d'expérience dans le secteur du stockage. Il a, par le passé, travaillé pour IBM et pour EDS (entreprise qui a ensuite été acquise par HP). Il a dirigé des projets dans des domaines variés couvrant l'infrastructure serveur, la haute disponibilité, les réseaux de stockage (SAN) ou encore les systèmes de stockage NAS pour la sauvegarde et l'archivage et il a publié plusieurs ouvrages consacrés au stockage.

Tech OnTap
S'inscrire dès maintenant
Tech OnTap propose chaque mois des informations techniques, mais également des meilleures pratiques, des conseils et des outils, des interviews d'ingénieurs, des démonstrations, des évaluations et bien plus encore.

Pour vous inscrire dès aujourd'hui, consultez Tech OnTap dans la communauté NetApp.

Novembre 2014

Explore
Explore
Explore
 
TRUSTe
Nous contacter   |   Choisir un partenaire   |   Commentaires   |   Offres d'emploi  |   Abonnements   |   Déclaration de confidentialité   |   © 2014 NetApp