NetApp Tech OnTap Logo NetApp
NetApp Tech OnTap
     
Retour aux notions de base : la déduplication

Ce mois-ci, Tech OnTap est heureux de vous présenter le deuxième numéro de la rubrique Retour aux notions de base, une suite d'articles traitant des notions de base des technologies NetApp les plus connues afin de vous aider à mieux les comprendre et les exploiter.

En 2007, NetApp a introduit la technologie de déduplication qui a significativement réduit les besoins en stockage. La déduplication NetApp renforce l'efficacité en localisant les blocs de données identiques pour les remplacer par des références à un même bloc partagé après vérification au niveau de l'octet. Cette technique réduit les besoins de stockage en éliminant les blocs de données redondants qui résident dans le même volume ou LUN.

La déduplication NetApp fait partie intégrante de l'environnement d'exploitation NetApp Data ONTAP® et du système de fichiers WAFL®, qui gère toutes les données stockées dans des systèmes NetApp. La déduplication fonctionne « en arrière-plan », quelles que soient les applications exécutées ou la méthode d'accès aux données utilisée, et sa charge supplémentaire est minime.

La question qui se pose généralement est : « Combien d'espace la déduplication permet-elle d'économiser ? ». Nous répondrons à cette question en détail mais, en règle générale, cela dépend du jeu de données et de la quantité de doublons qu'il contient. Par exemple, l'intérêt de la déduplication NetApp dans un environnement mixte, comprenant à la fois des données commerciales et techniques, est démontré par les avantages qu'en a retirés la société Polysius Corporation, spécialisée dans la conception et l'amélioration de cimenteries à Atlanta.

Chez Polysius, les besoins en stockage de production pouvaient croître de 30 % par an. En appliquant la déduplication aux fichiers AutoCAD, aux documents Microsoft® Office et aux autres données non structurées, Polysius a pu récupérer 47 % de son espace de stockage. Certains volumes ont même bénéficié de réductions pouvant atteindre 70 %. En conséquence, la société a pu reporter les achats de stockage supplémentaire et doubler la période de conservation des données de sauvegarde sur disque. Pour plus d'informations, consultez le témoignage de réussite de Polysius.

La déduplication NetApp présente des avantages significatifs :

  • Elle fonctionne avec tous les types de stockage, NetApp ou tiers, primaire, secondaire et d'archivage.
  • Elle n'est pas liée aux applications.
  • Elle n'est pas liée aux protocoles.
  • La charge supplémentaire est minimale.
  • Elle fonctionne avec les systèmes de stockage FAS et V-Series de NetApp.
  • Elle permet une validation octet par octet.
  • Elle peut s'appliquer aux nouvelles données ou aux données déjà stockées dans des volumes et des LUN.
  • Elle peut être exécutée pendant les heures creuses.
  • Elle s'intègre aux autres technologies d'efficacité du stockage NetApp.
  • Les économies induites par la déduplication peuvent être transmises lors de l'utilisation de SnapMirror® ou de Flash Cache.
  • Les outils d'évaluation sont simples.
  • Elle est gratuite.

Ce chapitre, Retour aux notions de base, présente la mise en œuvre de la déduplication NetApp, les cas d'utilisation les plus courants et les diverses pratiques d'implémentation de la déduplication, entre autres.

Mise en œuvre de la déduplication dans Data ONTAP

À la base, la déduplication NetApp s'appuie sur une technique informatique qui a fait ses preuves : le comptage de références. Jusque-là, Data ONTAP spécifiait uniquement si un bloc était libre ou utilisé. Avec la déduplication, il conserve également la trace du nombre d'utilisations. Grâce à la déduplication, un même bloc peut être référencé jusqu'à 255 fois pour des configurations NAS et SAN. Les fichiers « ignorent » qu'ils utilisent des blocs partagés. La tenue des comptes dans le système WAFL est transparente.

Gamme FAS6200

Figure 1) Fonctionnement de la déduplication NetApp

Comment Data ONTAP décide-t-il que deux blocs peuvent être partagés ? Pour chaque bloc, il calcule une « empreinte », c'est-à-dire un hachage des données du bloc. Deux blocs présentant la même empreinte sont des candidats au partage.

Lorsque la déduplication NetApp est activée, le système calcule la base de données des empreintes de tous les blocs utilisés dans le volume (processus appelé « collecte »). Dès que cette configuration initiale est terminée, les données sont prêtes pour la déduplication.

Pour éviter tout ralentissement des opérations ordinaires, la recherche des doublons s'effectue en tant que traitement par lots distinct. Au fur et à mesure de l'écriture des données pendant l'utilisation normale, WAFL crée un catalogue des empreintes de ces données. Le catalogue s'accroît jusqu'à ce qu'une déduplication soit déclenchée par l'un des événements suivants, définis par l'administrateur système :

  • Une commande de démarrage de la déduplication est envoyée manuellement.
  • Un processus de déduplication planifié s'exécute.
  • 20 % de nouvelles données ont été écrites dans le volume.
  • Lorsqu'un transfert SnapVault® est terminé.

Une fois le processus de déduplication démarré, une opération de tri commence, les empreintes des blocs modifiés étant utilisées comme clé. Cette liste triée fusionne ensuite avec le fichier de la base de données des empreintes. Chaque fois que la même empreinte apparaît dans les deux listes, deux blocs potentiellement identiques peuvent être réduits en un seul. Dans ce cas, Data ONTAP peut abandonner l'un des blocs et le remplacer par une référence à l'autre bloc. Comme le système de fichiers subit des modifications en permanence, cette étape n'est bien sûr effectuée que si les deux blocs sont réellement encore utilisés et contiennent les mêmes données. Pour s'assurer que les deux blocs sont réellement identiques, nous effectuons une comparaison octet par octet après l'identification des blocs candidats.

Pour réduire le coût de la déduplication NetApp, sa mise en œuvre tire parti de certaines fonctionnalités particulières de WAFL. Par exemple, chaque bloc de données sur disque est protégé par une somme de contrôle.

NetApp utilise cette somme de contrôle comme base de l'empreinte. Cette somme devant être calculée dans tous les cas, nous l'obtenons « gratuitement » : le système ne subit aucune charge supplémentaire. Et comme WAFL n'écrase jamais un bloc de données utilisé, les empreintes restent valides jusqu'à ce que le bloc soit libéré. L'intégration étroite de la déduplication NetApp à WAFL se traduit également par une journalisation efficace des modifications. Le résultat est que la déduplication peut être exploitée avec un large éventail de charges de travail et pas uniquement pour les sauvegardes, comme cela a été le cas dans d'autres mises en œuvre de la déduplication.

Cas d'utilisation

Depuis l'introduction de la déduplication, NetApp a pu mesurer ses avantages en environnements réels. Les cas d'utilisation les plus courants sont VMware® et VDI, les données home directory et les services de fichiers. Microsoft SharePoint® et Exchange 2010 reprennent également du terrain.

La plupart des articles Tech OnTap se sont principalement intéressés aux avantages spécifiques de la déduplication dans les environnements VMware et VDI. Par nature, ces environnements présentent de très nombreux fichiers en double du fait de l'utilisation par chaque machine virtuelle de systèmes d'exploitation quasi identiques. Le tableau suivant résume les résultats obtenus pour divers environnements.

Tableau 1) Économies d'espace généralement obtenues grâce à la déduplication

Type de jeux de données Type d'applications Déduplication uniquement

Services de fichiers/Infrastructure IT

30 %

Serveurs virtuels et postes de travail

70 %

Base de données

Oracle® OLTP

0 %

Oracle DW

15 %

SQL Server®

20 %

Messagerie, collaboration

Exchange 2003/2007

3 %

Exchange 2010

15 %

Données d'ingénierie

30 %

Géosismique

3 %

Données d'archivage

25 %

Données de sauvegarde

95 %


Un environnement VMware ou VDI typique pouvant contenir de nombreux ordinateurs virtuels dans lesquels le même système d'exploitation et les mêmes applications sont installés, il en résulte un gros volume de données en double.

Lorsque 100 ordinateurs virtuels exécutent le même système d'exploitation et nécessitent chacun 10 à 20 Go de stockage, le stockage dédié à des copies quasiment identiques atteint 1 à 2 To. L'application de la déduplication NetApp permet d'éliminer la plupart de ces redondances.

De façon générale, pour X ordinateurs virtuels affectés à un volume de stockage, la déduplication permet de réduire d'environ 1/X la quantité de stockage du système d'exploitation généralement nécessaire dans un environnement non dédupliqué. Il est bien évident que vos propres résultats réels dépendront du nombre d'ordinateurs virtuels installés dans un volume et de leur caractère similaire.

En pratique, les clients réalisent généralement une économie d'espace d'au moins 50 % dans les environnements ESX VI3, mais cela peut aller jusqu'à 90 % pour certains. Cela concerne la déduplication de l'environnement de stockage VMware dans son intégralité, y compris les données des applications et pas uniquement des systèmes d'exploitation. Dans les environnements VDI, les clients réalisent généralement une économie d'espace pouvant atteindre 90 %.

NetApp a également étudié les avantages de la déduplication pour les référentiels des données de fichiers non structurées, créés par les applications scientifiques et d'ingénierie courantes, notamment par les logiciels Siemens Teamcenter PLM, IBM Rational ClearCase SCM et Schlumberger Petrel pour l'analyse des données sismiques.

Le logiciel Teamcenter utilise une base de données de métadonnées relativement petite combinée à un vaste « coffre » dans lequel sont stockés les fichiers de conception d'ingénierie. Chaque fois qu'un ingénieur enregistre une conception dans Teamcenter, une copie complète de ce fichier est enregistrée dans le coffre, même lorsque la modification apportée n'est que mineure.

NetApp a travaillé en étroite collaboration avec Siemens PLM afin d'évaluer l'intérêt de la déduplication dans un environnement Teamcenter. Pour ce faire, nous avons exploité l'outil de test des performances et de l'évolutivité de Siemens, qui simule la création de multiples révisions de nombreux fichiers de conception, comme cela se produit lors d'une utilisation normale. La déduplication du coffre qui en résulte a permis de réaliser une économie d'espace de 57 %. Dans la pratique, les résultats peuvent être encore supérieurs. En effet, le nombre de révisions de fichier est généralement supérieur à celui utilisé dans la simulation. (Il est conseillé d'être prudent lorsque l'on utilise des outils de simulation pour mesurer les économies potentielles de la déduplication. La plupart du temps, les données simulées créeront artificiellement de grandes quantités de doublons puisque l'objectif consiste à tester les performances et non les modèles de données.)

Comme Teamcenter, IBM Rational ClearCase (l'une des principales solutions de gestion des configurations logicielles) combine une base de données de métadonnées et une vaste « base d'objets avec gestion des versions », ou VOB, dans laquelle les fichiers sont stockés. La déduplication se révèle encore plus utile avec ClearCase lorsqu'une copie de la base VOB est nécessaire. Les résultats préliminaires obtenus en laboratoire prévoient des économies d'au moins 40 % via la déduplication dans un environnement ClearCase où les fichiers sont stockés dans leur intégralité.

Schlumberger Petrel est utilisé pour l'interprétation des données sismiques, la visualisation des réservoirs et les flux de travail de simulation. Ce logiciel crée des répertoires projets contenant un nombre colossal de fichiers. Au fur et à mesure que les utilisateurs créent, diffusent et archivent les données, des objets de données dupliqués sont stockés dans plusieurs dispositifs de stockage. NetApp a pu observer une économie d'espace d'environ 48 % en appliquant la déduplication à ces répertoires.

Utilisation de la déduplication NetApp

Les conditions de base qui doivent être réunies pour l'exécution de la déduplication NetApp sont résumées dans le Tableau 2.

Tableau 2) Conditions de base requises pour la déduplication NetApp

Conditions requises Déduplication

Matériel

NearStore® R200
Gamme FAS2000
Gamme FAS3000
Gamme FAS3100
Gamme FAS3200
Gamme FAS6000
Gamme FAS6200
Gamme IBM N5000 series
Gamme IBM N7000 series
Remarque : depuis la version Data ONTAP 7.3, les systèmes V-Series correspondant aux systèmes NetApp FAS et les systèmes IBM N series Gateway répertoriés ci-dessus sont également pris en charge.

Version minimale Data ONTAP requise

Data ONTAP 7.2.5.1
(7-Mode uniquement pour 8.0.X)

Licences requises

A-SIS
Licence NearStore (requise pour les systèmes Data ONTAP antérieurs à la version 8.0)

Type de volume pris en charge

FlexVol® uniquement, pas les volumes traditionnels

Taille maximale de volume

Dans le cas de Data ONTAP 8.0.1, la limite est de 16 To pour toutes les plateformes destinées à la déduplication. La « Taille maximale de volume flexible » sur les versions précédentes de Data ONTAP dépendra du modèle NetApp et est disponible dans l'article TR-3505.

Protocoles pris en charge

Tous

En plus de ces conditions requises, la prise en compte de quelques pratiques d'excellence permettra d'optimiser l'utilisation de la déduplication. Cette section récapitule les meilleures pratiques les plus importantes et donne des informations sur la combinaison de la déduplication avec d'autres technologies NetApp courantes. Pour plus d'informations, consultez l'article TR-3505 : Guide de déploiement et de mise en œuvre de la déduplication NetApp.

  • Nous vous conseillons de mesurer l'impact de la déduplication sur les performances, ainsi que les conditions de dimensionnement dans un environnement de test avant le déploiement, en particulier lorsque les applications n'ont pas encore été testées par NetApp, telles que celles indiquées dans le Tableau 1.
  • La déduplication consomme des ressources système et peut altérer la disposition des données sur le disque. Du fait du modèle d'E/S de l'application et de l'impact de la déduplication sur la disposition des données, les performances d'E/S en lecture et écriture peuvent varier. Les économies d'espace et l'impact sur les performances varient en fonction de l'application et du contenu des données.
  • Si votre application ne crée de nouvelles données qu'en petite quantité, n'exécutez la déduplication que rarement. En effet, une telle exécution ne serait que peu avantageuse. La fréquence d'exécution de la déduplication dépend du taux de modifications apportées aux données dans le volume flexible.
  • La consommation des ressources système augmente en fonction du nombre de processus de déduplication que vous exécutez simultanément. La meilleure option consiste à choisir l'une des procédures suivantes :
    • Échelonnez les processus de déduplication planifiés pour les volumes flexibles, afin qu'ils s'exécutent à différents jours de la semaine, réduisant ainsi l'exécution éventuelle d'un trop grand nombre de sessions simultanées.
    • Utilisez le mode automatique, afin que la déduplication s'exécute uniquement lorsque la quantité de nouvelles données écrites dans chaque volume flexible est assez importante. (Cet échelonnement devient naturel lorsque la déduplication s'exécute dans des environnements plus petits.)
    • Exécutez les processus de déduplication manuellement.
    • Exécutez la déduplication durant la nuit afin de réduire la quantité de nouvelles données à dédupliquer et accélérer le processus.
  • La création d'une copie Snapshot® avant la fin du processus de déduplication amoindrit les économies d'espace réalisées. Si possible, exécutez le processus de déduplication avant la création des copies Snapshot et assurez-vous que le processus est terminé avant de créer une copie Snapshot.
  • Afin de garantir l'exécution appropriée de la déduplication, vous devez garder de l'espace libre pour les métadonnées de la déduplication. Dans le cas d'un système Data ONTAP antérieur à la version 7.3, pour chaque volume flexible, 6 % de l'espace total des données doit être libre. Dans le cas d'un système Data ONTAP versions 7.3 ou ultérieures, l'agrégat doit disposer d'un espace libre correspondant à 4 % (empreinte + journaux de modifications) de l'espace total des données utiles pour tous les volumes flexibles dédupliqués, et 2 % de l'espace total des données utiles doit être libre dans chaque volume flexible. Vous retrouverez ces informations plus en détail dans l'article TR-3505, à la section 5.3.3.

Déduplication et autres technologies NetApp

La déduplication est conçue pour fonctionner avec les autres technologies NetApp. Dans la plupart des cas, ces technologies bénéficient alors d'un avantage supplémentaire :

  • Flash Cache. Flash Cache assure une mise en cache intelligente qui accélère les opérations d'E/S. La déduplication NetApp accroît la probabilité d'un accès au cache. Lorsqu'un bloc dédupliqué est en Flash Cache, la probabilité qu'il soit à nouveau demandé est donc bien supérieure. Cet effet est appelé amplification du cache et se révèle particulièrement bénéfique avec la virtualisation des postes de travail et des serveurs.
  • Volume SnapMirror. Lorsque vous répliquez un volume dédupliqué avec Volume SnapMirror, le volume cible hérite automatiquement de l'état dédupliqué du volume source. L'impact de cette opération pour VMware a été décrit dans un article précédent. L'interaction de la déduplication avec toutes les formes de SnapMirror et SnapVault a également été décrite dans un article récent.
  • FlexClone. La technologie FlexClone® réplique instantanément les volumes et les jeux de données en copies virtuelles transparentes. Lors de la création d'un volume FlexClone :
    • Si la duplication est activée pour le volume FlexClone parent, le nouveau volume hérite des économies réalisées.
    • Le volume cloné hérite de la configuration de déduplication du volume parent, comme la planification de déduplication.
    • Depuis Data ONTAP 7.3, les fichiers de métadonnées de la déduplication (les fichiers de base de données des empreintes et les fichiers journaux des modifications) ne sont pas clonés, car ils sont situés en dehors du volume dans l'agrégat. La déduplication doit avoir commencé au niveau du volume cloné pour que la déduplication complète se poursuive.
  • Compression. La compression des données NetApp, introduite dans Data ONTAP 8.0.1, vient avantageusement compléter la déduplication. Les économies d'espace potentielles et les différents cas d'utilisation ont été décrits dans un article Tech OnTap précédent.
  • Provisionnement fin. Pour optimiser les économies d'espace, la déduplication est également combinée au provisionnement fin NetApp. Dans le cas de volumes NAS, la configuration est très simple. Dans le cas des LUN, vous pouvez réaliser une économie d'espace maximale en utilisant les paramètres suivants (pour plus d'informations, consultez l'article TR-3505, à la section 6.4.18) :
    • LUN space reservation value = off
    • Volume fractional reserve value = toute valeur comprise entre 0 et 100
    • Volume guarantee = none
    • Snap reserve = 0 %
    • Autodelete = on
    • Autosize = on
    • Try_first = volume_grow

Conclusion

La déduplication est un outil majeur pour renforcer l'efficacité du stockage. Elle peut être exploitée seule ou associée à d'autres solutions d'efficacité du stockage, telles que le provisionnement fin NetApp, FlexClone, etc. Pour plus d'informations sur la déduplication, assurez-vous de consulter l'article TR-3505 : Guide du déploiement et de l'implémentation de la déduplication NetApp pour FAS et V-Series. Ce guide, fréquemment mis à jour, couvre un large éventail de sujets, notamment :

  • Configuration et exploitation
  • Dimensionnement pour des performances optimales et une gestion efficace de l'espace
  • Utilisation avec d'autres technologies NetApp
  • Meilleures pratiques, y compris dans le cas d'une utilisation avec des applications spécifiques dont VMware, Microsoft Exchange, SQL Server et SharePoint, Lotus Domino, Oracle, etc.
  • Dépannage
 Vous avez des commentaires sur la déduplication ?

Posez vos questions, échangez des idées et partagez vos points de vue directement en ligne via les communautés NetApp.

Carlos Alvarez
Responsable Ingénieur marketing et technique
NetApp


Carlos travaille avec NetApp depuis 2008. Il est spécialiste de l'efficacité de stockage et a une grande expérience de la déduplication, de la compression des données et du provisionnement fin. Il propose fréquemment ses conseils quant à l'intégration la plus efficace et la mieux adaptée des technologies d'efficacité du stockage NetApp® dans les configurations des clients. Avec plus de 20 ans d'expérience dans ce secteur, Carlos s'est vu confier la création de nombreux guides de mise en œuvre, de livres blancs techniques, d'architectures de référence, de meilleures pratiques et de guides de solutions.


Tech OnTap
S'inscrire dès maintenant
Tech OnTap propose chaque mois des informations techniques, mais également des meilleures pratiques, des conseils et outils, des interviews d'ingénieurs, des démonstrations, des évaluations et bien plus encore.

Pour vous inscrire dès aujourd'hui, consultez Tech OnTap dans la communauté NetApp.

Explorer
Explorer
Déduplication dans Tech OnTap
Vous voulez en savoir plus sur la déduplication ? Ces articles antérieurs, issus de Tech OnTap, pourraient vous intéresser :


Autres articles Retour aux notions de base
Le premier article Retour aux notions de base couvrait le provisionnement fin NetApp® . Consultez cet article pour découvrir sa mise en œuvre, les meilleures pratiques, etc.

Explorer
 
TRUSTe
Nous contacter   |   Choisir un partenaire   |   Commentaires   |   Offres d'emploi  |   Abonnements   |   Déclaration de confidentialité   |   © 2011 NetApp