NetApp Tech OnTap
     

Compression des données pour le stockage NetApp

L'efficacité est indispensable à l'infrastructure IT flexible. En tant que leader dans le domaine de l'efficacité du stockage, NetApp met tout en œuvre pour vous offrir les dernières innovations en termes d'efficacité, telles que Snapshot® et les technologies connexes, le provisionnement fin, FlexClone®, la déduplication pour le stockage primaire, etc.

Certes, les technologies de compression de données existent depuis longtemps, mais il a fallu relever des défis importants pour les systèmes de stockage à grande échelle, notamment en termes d'impact sur les performances. Jusqu'à récemment, la compression pour les périphériques tels que les lecteurs de bandes et les VTL était presque toujours assurée par le biais d'un matériel dédié, ce qui entraînait des coûts et une complexité supplémentaires. NetApp offre aujourd'hui la possibilité de procéder à une compression transparente des données à la volée, tout en limitant l'impact sur les ressources informatiques. Nous pouvons ainsi inclure l'avantage de la compression dans Data ONTAP® sans frais supplémentaires, pour une utilisation sur les systèmes de stockage NetApp® existants qui migrent vers Data ONTAP 8.0.1 (ou une version ultérieure).

Dans cet article, vous découvrirez en quoi consiste la compression des données NetApp et comment elle fonctionne. Nous vous présenterons certains des cas d'utilisation les plus fréquents, ainsi que les gains d'espace mesurés pour chacun d'eux. Nous vous expliquerons également comment utiliser la compression des données conjointement avec d'autres technologies NetApp et comment NetApp déploie cette nouvelle fonctionnalité pour garantir son succès.

Qu'est-ce que la compression des données NetApp ?


La compression des données NetApp est une option gratuite incluse dans Data ONTAP 8.0.1, sous la forme d'une solution logicielle pour la compression transparente des données à la volée. Aucune modification des applications n'est nécessaire pour utiliser la compression des données NetApp.

La compression des données NetApp permet de réduire la capacité physique requise pour stocker les données sur les systèmes de stockage, en compressant les données dans un volume flexible (FlexVol®) sur le stockage primaire, secondaire et d'archivage. Cette fonctionnalité compresse les fichiers standard, les disques locaux virtuels et les LUN. Notez que, dans cet article, le terme « fichiers » s'applique également aux disques locaux virtuels et aux LUN.

La fonctionnalité de compression des données NetApp ne compresse pas un fichier entier sous la forme d'un unique flux d'octets contigus. Le coût d'une telle action serait prohibitif dans le cadre de la mise en œuvre de lectures de petite taille à partir d'une partie d'un fichier. En effet, il faudrait alors que le fichier entier soit lu à partir du disque et décompressé avant la mise en œuvre de la demande de lecture. Cela serait particulièrement compliqué sur les fichiers volumineux. Pour éviter ce problème, la fonctionnalité de compression des données NetApp compresse un petit groupe de blocs consécutifs simultanément. Cet élément de conception clé permet d'optimiser l'efficacité de la compression. Lorsqu'une demande de lecture arrive, il vous suffit de lire et de décompresser un petit groupe de blocs, et non le fichier entier. Cela permet d'optimiser les lectures et offre une plus grande flexibilité en termes de taille des fichiers compressés.

L'algorithme de compression NetApp divise un fichier en blocs de données de 32 Ko, appelés « groupes de compression ». Chacun d'entre eux contient des données ne provenant que d'un seul fichier.

Écriture des données. Les demandes d'écriture sont traitées au niveau du groupe de compression. Suite à la formation d'un groupe, et tandis que les données sont encore en mémoire, un test est effectué pour déterminer si elles sont compressibles. Si elles ne sont pas compressibles, elles sont simplement transmises au disque. Si le test indique que les données sont compressibles, le groupe dans son ensemble est compressé. Cela permet d'optimiser les économies réalisées tout en réduisant la consommation de ressources.

Les données compressées contiennent moins de blocs à écrire sur le disque. Cette fonctionnalité permet donc de réduire le nombre d'E/S d'écritures requises pour chaque opération d'écriture compressée. Cela permet non seulement de réduire l'encombrement des données sur le disque, mais aussi de diminuer le temps requis pour traiter les demandes d'écriture sur disque et pour effectuer les sauvegardes.

Avant toute compression, la capacité de compression des groupes de compression est testée. Qu'ils soient compressés ou non (selon les résultats du test), ces blocs sont ensuite vidés sur le disque.

Figure 1) Avant toute compression, la capacité de compression des groupes de compression est testée. Qu'ils soient compressés ou non (selon les résultats du test), ces blocs sont ensuite vidés sur le disque.

Lecture des données. Lorsqu'une demande de lecture arrive pour des données compressées, Data ONTAP ne lit que les groupes de compression contenant les données requises, et non le fichier entier. Cela permet de réduire la quantité d'E/S requises pour traiter la demande, ce qui entraîne un coût minime.

Performances de compression


La compression des données NetApp est conçue pour fonctionner de façon indépendante ou avec la déduplication NetApp, afin d'optimiser les économies réalisées. La déduplication NetApp peut être programmée au moment le plus opportun, tandis que la compression des données NetApp est exécutée sous la forme d'un processus à la volée lors de l'écriture des données sur le disque. Lorsque les deux fonctionnalités sont activées sur le même volume, les données sont d'abord compressées, puis dédupliquées. Il n'est pas nécessaire de décompresser les données pour effectuer une déduplication. Les blocs compressés ou décompressés dupliqués sont simplement supprimés d'un volume de données.

La compression des données tire parti des caractéristiques internes de Data ONTAP pour optimiser son efficacité. Cette fonctionnalité minimise l'impact sur les performances, mais ne l'élimine pas complètement. Il convient d'évaluer la tolérance des charges de travail aux ressources nécessaires à la compression des données. L'impact réel peut dépendre d'un certain nombre de facteurs parmi les suivants :

  • Le type d'application
  • La capacité de compression du jeu de données
  • Le mode d'accès aux données (par exemple, un accès séquentiel ou aléatoire, la taille et le modèle des E/S)
  • La taille moyenne des fichiers
  • Le taux de variation
  • Le nombre de volumes pour lesquels la compression est activée sur le système
  • La plateforme matérielle, à savoir la mémoire/le processeur disponibles dans le système
  • La charge sur le système
  • La vitesse et le type de disque
  • Le nombre de piles de disques de l'agrégat

Nous avons élaboré des meilleures pratiques afin de vous aider à dimensionner et à réaliser d'autres tâches pour optimiser votre installation. Compte tenu des nombreux facteurs pouvant jouer un rôle, le test de votre environnement constitue le meilleur moyen de déterminer si la compression des données peut s'appliquer à votre situation. Dans les sections suivantes, nous vous présentons les économies que vous pourriez réaliser avec différents jeux de données d'application, ainsi que différents cas d'utilisation fréquents.

Gains d'espace grâce à la déduplication et à la compression des données


La compression des données NetApp offre un gain d'espace immédiat grâce à la compression à la volée. La déduplication NetApp est exécutée régulièrement (post-traitement) pour offrir des gains d'espace supplémentaires. La compression et la déduplication fonctionnent ensemble, mais notez que les économies réalisées ne correspondent pas forcément à la somme des économies générées lorsque chacune des technologies est utilisée individuellement sur un jeu de données.

Pour certains types de données, la compression n'augmente pas les économies par rapport à la déduplication utilisée seule, mais l'inverse est vrai dans certains cas. Dans d'autres cas encore, les économies les plus importantes réalisées en termes de stockage sont générées par l'utilisation combinée de la compression et de la déduplication. Le tableau ci-dessous contient des exemples illustrant ces points.

Tableau 1) Combinaisons offrant les meilleurs gains d'espace pour différents types de données.

Type de jeux de données Application Combinaison offrant les meilleurs gains Gains d'espace généralement obtenus
Home Directories Compression et déduplication 65 %
Serveurs virtuels et postes de travail Déduplication uniquement 70 %
Base de données Compression uniquement 65 %
E-mail Exchange 2003/2007 Compression uniquement 35 %
Exchange 2010 Compression et déduplication 40 %
Données d'ingénierie Développement de logiciels Compression et déduplication 75 %
Géosismique Compression uniquement 75 %

Ces exemples de gains d'espace sont fréquents, mais tous les jeux de données ne sont pas identiques. Vous devez tester vos données afin d'évaluer les économies que vous êtes susceptibles de réaliser. NetApp reste à votre disposition pour vous aider à effectuer cette évaluation.

Cas d'utilisation courants


Comme je l'ai déjà indiqué, la compression peut permettre de réaliser d'importantes économies en termes de stockage, aux dépens de certaines performances. Il est important d'évaluer les deux aspects afin d'identifier les parties de votre environnement de stockage dans lesquelles la compression des données serait judicieuse.

Les sauvegardes de bases de données (et les sauvegardes en général) constituent une cible idéale pour la compression des données. Les bases de données sont généralement très volumineuses et nombreux sont les utilisateurs qui échangeraient un léger impact sur les performances de stockage des sauvegardes contre plus de 65 % d'économies en termes de capacité.

Les services de fichiers constituent un autre cas d'utilisation possible. Nous avons testé une charge de travail de services de fichiers sur un système occupé à 50 % environ, avec un ensemble de données compressible à 50 %. Nous n'avons observé qu'une baisse de 10 % du débit. Dans un environnement de services de fichiers enregistrant un temps de réponse de 2 millisecondes pour les fichiers, cela se traduirait par une augmentation de 0,2 ms seulement, soit un temps de réponse de 2,2 millisecondes. Pour un gain d'espace de 65 %, cette légère réduction des performances vous paraît probablement acceptable. Il est possible de réaliser des économies encore plus importantes grâce à la réplication des données à l'aide de la technologie NetApp Volume SnapMirror®, qui vous permet d'économiser de l'espace et de la bande passante réseau sur le système de stockage secondaire. Notez que, dans ce cas, ce dernier hérite de la compression du système de stockage primaire et aucun traitement supplémentaire n'est donc nécessaire. Dans cet exemple, vous obtiendriez les avantages suivants :

  • 65 % d'économies en termes de capacité de stockage sur le système de stockage primaire
  • 65 % de données en moins envoyées sur le réseau pour la réplication
  • 65 % d'augmentation de la vitesse de réplication
  • 65 % d'économies en termes de capacité de stockage sur le système de stockage secondaire

Il existe de nombreux autres cas d'utilisation pour lesquels la compression est judicieuse, et nous disposons d'un certain nombre d'outils et de guides qui vous aideront à identifier le cas d'utilisation le mieux adapté à votre environnement.

Utilisation de la compression des données avec d'autres technologies NetApp


Comme vous l'avez constaté, la compression des données NetApp fonctionne en complément de la déduplication NetApp. Cette section porte sur l'utilisation de la compression des données conjointement avec quelques autres technologies NetApp de premier plan.

Volume SnapMirror. Volume SnapMirror fonctionne au niveau du bloc physique. Lorsque la déduplication et/ou la compression sont activées sur le volume source, les gains d'espace engendrés par la déduplication et la compression sont maintenus lors du transfert et sur le volume de destination. Cela permet de réduire considérablement la quantité de bande passante réseau requise lors de la réplication, ainsi que le temps nécessaire au transfert SnapMirror. Voici quelques recommandations d'ordre général à prendre en considération :

  • Le système source et le système de destination doivent tous deux utiliser une version identique de Data ONTAP.
  • La compression et la déduplication ne sont gérées que sur le système source. Sur le système de destination, le volume flexible hérite des caractéristiques d'efficacité et des économies en termes de stockage.
  • Les blocs partagés sont transférés une seule fois. La déduplication réduit donc également la bande passante réseau.
  • La compression est maintenue tout au long du transfert, ce qui permet de réduire la quantité de données transférées, et donc l'utilisation de la bande passante réseau.
  • La compression des liens SnapMirror n'est pas nécessaire, car les données ont déjà été compressées avec la fonctionnalité de compression des données NetApp.

La diminution de la bande passante réseau et du temps de transfert SnapMirror est directement proportionnelle à l'espace économisé. Par exemple, si vous pouviez économiser 50 % en termes de capacité de disque, vous pourriez diviser par deux le temps de transfert SnapMirror ainsi que la quantité de données à transférer.

Qtree SnapMirror et SnapVault®. Qtree SnapMirror et SnapVault sont tous deux exécutés au niveau du bloc logique. Les systèmes de stockage source et de destination procèdent à la déduplication et à la compression des données de façon indépendante. Cela vous permet de compresser et/ou dupliquer vos sauvegardes Qtree SnapMirror et/ou SnapVault, même lorsque les données source ne sont pas compressées ou dupliquées.

Clonage. La technologie NetApp FlexClone crée instantanément des copies virtuelles de fichiers ou de volumes de données. Notez que ces copies ne consomment de l'espace de stockage supplémentaire que lorsque des changements sont apportés aux clones. FlexClone prend en charge la déduplication et la compression.

Premiers pas avec la compression des données NetApp


La compression des données NetApp fonctionne sur tous les systèmes FAS et V-Series utilisant Data ONTAP 8.0.1 (ou une version ultérieure). La compression des données est activée au niveau du volume. En d'autres termes, vous choisissez les volumes sur lesquels vous souhaitez l'activer. Si vous savez qu'un volume contient des données non compressibles, vous ne devez pas activer la compression sur ce dernier. La taille d'un volume peut atteindre 16 To et le volume doit être contenu dans un agrégat 64 bits (fonctionnalité introduite dans Data ONTAP 8). Pour plus d'informations sur Data ONTAP 8, consultez l'article s'y rapportant dans ce numéro de Tech ONTAP.

Pour commencer à utiliser la compression des données, il vous suffit d'installer la licence gratuite sur votre système de stockage, puis de l'activer sur les volumes de votre choix. C'est aussi simple que cela.

Programme de compression des données pour les premiers utilisateurs. De la même manière que pour la déduplication, il y a déjà plusieurs années, NetApp propose un accès anticipé à notre technologie de compression des données. Si vous demandez la licence relative à la compression, nous évaluerons votre environnement et vous proposerons des recommandations sous la forme de meilleures pratiques.

Conclusion

La compression des données NetApp s'inscrit dans la tradition de NetApp, qui consiste à enrichir Data ONTAP en termes d'efficacité du stockage, et ce sans coût supplémentaire. Cette technologie permet de réduire considérablement les besoins en stockage pour des jeux de données cibles compressibles, et elle fonctionne conjointement avec la déduplication et d'autres technologies proposées par NetApp.

La puissance et le potentiel de la compression sont extrêmement avantageux lorsqu'elle est utilisée avec d'autres technologies NetApp favorisant l'efficacité du stockage. Choisir des technologies et des fonctionnalités d'efficacité dans un portefeuille intégré vous donne la possibilité de gérer au mieux, et avec une grande flexibilité, le rapport entre les besoins technologiques et commerciaux.

Communauté NetApp
 Vous avez des remarques à propos de la compression des données ?

Posez vos questions, échangez des idées et partagez vos points de vue directement en ligne via les communautés NetApp.

Sandra Moulton

Sandra Moulton
Ingénieur marketing et technique
NetApp

Depuis son arrivée chez NetApp, il y a un peu plus d'un an, Sandra s'est presque exclusivement consacrée à l'efficacité du stockage, en se spécialisant dans la déduplication et la compression des données. Elle a été chargée d'élaborer des livres blancs, des guides de meilleures pratiques et des architectures de référence pour ces technologies stratégiques. Sandra bénéficie de plus de 20 ans d'expérience dans le secteur, et elle a notamment occupé des fonctions similaires dans d'autres entreprises majeures de la Silicon Valley.

 
Explorer