Menu

Qu'est-ce que la déduplication des données ?

cubes
Sujets

La déduplication des données est un processus qui élimine les copies excessives et réduit considérablement les besoins en capacité de stockage.

La déduplication peut être exécutée en tant que processus en ligne car les données sont écrites dans le système de stockage et/ou en tant que processus d'arrière-plan pour éliminer les doublons après l'écriture des données sur le disque.

Chez NetApp, la déduplication est une technologie sans perte de données exécutée à la fois en tant que processus en ligne et en tant que processus en arrière-plan pour optimiser les économies. Il est exécuté de manière opportuniste comme un processus en ligne de sorte qu'il n'interfère pas avec les opérations client, et il est exécuté de manière globale en arrière-plan pour optimiser les économies. La déduplication est activée par défaut et le système l'exécute automatiquement sur tous les volumes et agrégats sans intervention manuelle.

La surcharge de performances est minimale pour les opérations de déduplication, car elle s'exécute dans un domaine d'efficacité dédié distinct du domaine de lecture/écriture client. Elle s'exécute en coulisse, quelle que soit l 'application exécutée ou l'accès aux données (NAS ou SAN ).

Les économies liées à la déduplication sont maintenues au fur et à mesure que les données se déplacent - lorsque les données sont répliquées sur un site de reprise après incident, lorsqu 'elles sont sauvegardées dans une base, ou lorsqu'elles se déplacent entre sur site, dans un cloud hybride et/ou dans un cloud public.

Comment fonctionne la déduplication ?

La déduplication fonctionne au niveau des blocs de 4 Ko dans un volume FlexVol® entier et parmi tous les volumes de l'agrégat, ce qui élimine les blocs de données dupliqués et ne stocke que des blocs de données uniques.

La technologie de déduplication repose sur les empreintes digitales - signatures numériques uniques pour tous les blocs de données de 4 Ko.

Lorsque des données sont écrites sur le système, le moteur de déduplication en ligne analyse les blocs entrants, crée une empreinte et stocke l'empreinte dans un hash store (structure de données en mémoire).

Une fois l'empreinte calculée, une recherche est effectuée dans le hash store. Lors d'une correspondance d'empreinte dans le hash store, le bloc de données correspondant à l'empreinte dupliquée (bloc de donateurs) est recherché dans la mémoire cache :

  • Si elle est trouvée, une comparaison octet par octet est effectuée entre le bloc de données actuel (bloc destinataire) et le bloc donateur pour vérifier la correspondance exacte. Lors de la vérification, le bloc destinataire est partagé avec le bloc donneur correspondant sans écrire le bloc destinataire sur le disque. Seules les métadonnées sont mises à jour pour suivre les détails du partage.
  • Si le bloc de donateurs n'est pas trouvé dans la mémoire cache, le bloc de donateurs est préextrait du disque dans le cache pour effectuer une comparaison octet par octet afin de s'assurer qu'il correspond exactement. Lors de la vérification, le bloc destinataire est marqué comme dupliqué sans écriture réelle sur le disque. Les métadonnées sont mises à jour pour suivre les détails du partage.

Le moteur de déduplication en arrière-plan fonctionne de la même manière. Il analyse tous les blocs de données de l'agrégat et élimine les doublons en comparant les empreintes des blocs et en faisant une comparaison octet par octet pour éliminer les faux positifs. Cette procédure garantit également l'absence de perte de données lors de l'opération de déduplication.

Avantages de la déduplication NetApp

La déduplication NetApp ® présente des avantages importants :

  • Fonctionne sur le stockage primaire, secondaire et d'archivage NetApp ou tiers
  • Indépendant de l'application
  • Indépendant du protocole
  • Surcharge minimale
  • Fonctionne sur les systèmes AFF,FAS et NetAppSystèmes de stockage E-Series
  • Validation octet par octet
  • Peut être appliqué aux nouvelles données ou aux données précédemment Stockées dans des volumes et des LUN
  • Une exécution pendant les heures de pointe
  • Intégré à d'autres technologies d'efficacité du stockage NetApp
  • Les économies résultant de la déduplication peuvent être héritées lors de l'utilisation de la technologie de réplication NetApp SnapMirror ® ou de la mise en cache intelligente Flash Cache ™
  • Gratuité

Cas d'utilisation de la déduplication

La déduplication est utile quel que soit le type de charge de travail. L'avantage maximal est constaté dans les environnements virtuels où plusieurs machines virtuelles sont utilisées pour les déploiements de test/développement et d'applications.

L'infrastructure de postes de travail virtuels (VDI) est un autre très bon candidat pour la déduplication, car les données dupliquées entre les postes de travail sont très élevées.

Certaines bases de données relationnelles telles qu'Oracle et SQL ne bénéficient pas beaucoup de la déduplication, car elles disposent souvent d'une clé unique pour chaque enregistrement de base de données, ce qui empêche le moteur de déduplication de les identifier en tant que doublons.

Configuration de la déduplication

La déduplication est automatiquement activée sur tous les nouveaux volumes et agrégats des systèmes AFF. Sur d'autres systèmes, la déduplication peut être activée par volume et/ou par agrégat.

Une fois activé, le système exécute automatiquement les opérations en ligne et en arrière-plan pour optimiser les économies.