NetApp Tech OnTap NetApp
NetApp Tech OnTap
     
Retour aux notions de base : la compression des données

Cet article est le sixième volet d'une série intitulée « Retour aux notions de base », qui présente les fondamentaux des principales technologies NetApp®.

Les technologies de compression des données existent depuis longtemps, mais elles constituent des défis importants pour les systèmes de stockage à grande échelle, notamment en termes d'impact sur les performances. Jusqu'à récemment, la compression pour les périphériques, tels que les lecteurs de bandes et les VTL, était presque toujours assurée par le biais d'un matériel dédié, ce qui entraînait des coûts et une complexité supplémentaires.

NetApp offre la possibilité de procéder à une compression transparente des données à la volée et post-traitement, tout en limitant l'impact sur les ressources informatiques. Nous pouvons ainsi bénéficier des avantages de la compression intégrée à l'architecture Data ONTAP® sur les systèmes de stockage NetApp existants, sans coûts supplémentaires. L'intégration de la fonction de compression à Data ONTAP 8.0.1 a donné lieu à des retours très positifs. La licence a été accordée pour de nombreux systèmes dans des secteurs divers et variés. 40 % de ces systèmes utilisent la compression sur le stockage primaire et 60 %, pour la sauvegarde et l'archivage.

La compression des données NetApp offre des avantages considérables dont les suivants :

  • Elle est compatible avec les principales technologies d'efficacité du stockage NetApp. Combinée à d'autres technologies d'efficacité, telles que le provisionnement fin et la déduplication, la compression réduit nettement le volume total de stockage nécessaire, limitant ainsi les dépenses d'investissement et d'exploitation. En fonction de l'application concernée, l'espace total ainsi gagné peut atteindre 87 %, rien que pour la compression. En y associant d'autres technologies d'efficacité, ce gain peut être encore plus important.
  • Son impact sur les performances est minime. Alors que toutes les technologies de compression altèrent les performances, NetApp a pris soin de réduire au maximum cet impact tout en optimisant le gain d'espace.
  • Elle n'entraîne pas de frais de licence logicielle. Data ONTAP 8.1 est doté de la fonctionnalité de compression des données NetApp en standard. Aucune licence n'est requise, vous n'engagez donc aucun frais supplémentaire en matériel ou logiciels lorsque vous utilisez la compression.
  • Elle fonctionne pour le stockage primaire comme le stockage secondaire. Vous pouvez activer la compression sur les volumes de stockage primaire, sur les volumes de stockage secondaire, ou les deux.
  • Elle ne nécessite pas de changer d'application. La compression ne dépend d'aucune application en particulier, vous pouvez donc l'utiliser avec différentes applications sans changement de code.
  • La réplication et DataMotion permettent un gain d'espace. Lorsque vous répliquez un volume compressé avec SnapMirror ou que vous déplacez un volume avec DataMotion™, les blocs sont copiés sous leur forme compressée. Cela permet d'économiser de la bande passante et du temps lors du transfert des données ainsi que de l'espace sur le stockage cible. Il n'est donc pas nécessaire de recourir à des ressources supplémentaires du processeur pour compresser de nouveau les mêmes blocs.

Ce chapitre de la série « Retour aux notions de base » traite de la mise en œuvre de la technologie de compression des données NetApp, de ses performances, de ses cas d'utilisation, du choix entre la compression à la volée et post-traitement, et des meilleures pratiques.

Mise en œuvre de la compression dans Data ONTAP

La compression des données NetApp réduit la capacité physique requise pour stocker les données sur les systèmes de stockage, en compressant les données dans un volume flexible (volume FlexVol®) sur le stockage primaire, secondaire et d'archivage. Cette fonctionnalité compresse les fichiers standard, les disques locaux virtuels et les LUN. Notez que, dans cet article, le terme « fichiers » s'applique également aux disques locaux virtuels et aux LUN.

La fonctionnalité de compression des données NetApp ne compresse pas un fichier entier sous la forme d'un unique flux d'octets contigus. Le coût d'une telle action serait prohibitif dans le cadre de la mise en œuvre de lectures de petite taille à partir d'une partie d'un fichier. En effet, il faudrait alors que le fichier entier soit lu à partir du disque et décompressé avant la mise en œuvre de la demande de lecture. Cela serait particulièrement compliqué sur les fichiers volumineux. Pour éviter ce problème, la fonctionnalité de compression des données NetApp compresse un petit groupe de blocs consécutifs simultanément. Cet élément de conception clé permet d'optimiser l'efficacité de la compression. Lorsqu'une demande de lecture arrive, il vous suffit de lire et de décompresser un petit groupe de blocs, et non le fichier entier. Cette approche optimise les petites lectures et les remplacements, et permet une meilleure évolutivité de la taille des fichiers compressés.

L'algorithme de compression NetApp divise un fichier en segments de données appelés « groupes de compression ». Ces groupes ont une taille maximale de 32 Ko. Par exemple, un fichier de 60 Ko se divise en deux groupes de compression : le premier de 32 Ko et le second de 28 Ko. Chaque groupe de compression contient des données d'un seul fichier. Les fichiers de 8 Ko et moins ne sont pas soumis à la compression.

Écriture des données. Les demandes d'écriture sont traitées au niveau du groupe de compression. Une fois le groupe formé, un test est réalisé pour voir si les données sont compressibles. Si l'économie n'est pas d'au moins 25 %, le groupe n'est pas compressé. Les données font l'objet d'une compression uniquement lorsque le résultat du test est positif. Cela permet d'optimiser les économies réalisées tout en réduisant la surconsommation de ressources.

Comme les données compressées contiennent moins de blocs à écrire sur le disque, il est possible de réduire le nombre d'opérations d'écriture d'E/S requises pour chaque opération d'écriture compressée. Non seulement l'empreinte des données sur le disque est réduite, mais le temps nécessaire aux sauvegardes diminue.

Responsabilités de l'administrateur VMware et de l'administrateur du stockage lors de l'utilisation du plug-in VSC vCenter

Figure 1) Les fichiers sont divisés en segments de données, appelés groupes de compression, et sont testés pour connaître leur capacité de compression. Chaque groupe de compression est transféré sur le disque au format compressé ou non selon les résultats du test.

Lecture des données. Lorsqu'une demande de lecture arrive pour des données compressées, Data ONTAP ne lit que les groupes de compression contenant les données requises, et non le fichier entier. Il est ainsi possible de réduire la quantité d'E/S requises pour traiter la requête, la surconsommation de ressources système et les temps de lecture.

Compression à la volée. Lorsque la compression de données NetApp est configurée pour se dérouler à la volée, les données sont d'abord compressées dans la mémoire avant d'être écrites sur le disque. Cette configuration permet de réduire considérablement le nombre d'opérations d'écriture d'E/S sur un volume. Néanmoins, elle risque d'altérer les performances d'écriture. Il est donc déconseillé d'utiliser la compression à la volée pour les applications dont les performances sont stratégiques sans effectuer un test au préalable.

Pour une vitesse de traitement optimal, la compression à la volée compresse la plupart des nouvelles écritures, mais reporte à la compression post-traitement suivante certaines opérations de compression consommant une quantité de ressources importantes, telles que les remplacements de groupes de compression partiels.

Compression post-traitement. Ce type de compression concerne à la fois les données récemment écrites et les données qui se trouvaient sur le disque avant la compression. Elle suit la même procédure que la déduplication NetApp. Si la compression est activée, elle est effectuée avant la déduplication. Il n'est pas nécessaire de décompresser les données pour effectuer une déduplication. Les blocs compressés ou décompressés dupliqués sont simplement supprimés d'un volume de données.

Si les compression à la volée et post-traitement sont toutes deux activées, la compression post-traitement s'exécute uniquement pour les blocs non compressés. Il s'agit entre autres des blocs ignorés par la compression à la volée, tels que les remplacements de groupes de compression partiels.

Performances de la compression et gain d'espace

La compression des données tire parti des caractéristiques internes de Data ONTAP pour optimiser son efficacité. Cette fonctionnalité réduit l'impact sur les performances, mais ne l'élimine pas complètement. Cet impact varie en fonction de plusieurs facteurs, comme le type de données, les schémas d'accès aux données, la plateforme matérielle, le volume de ressources système disponibles, etc. Il est recommandé d'évaluer l'impact en environnement de test avant de mettre en œuvre la compression sur des volumes de production.

Lors du test de compression post-traitement sur un FAS6080, on a observé une vitesse de compression de 140 Mo/s pour un seul processus et une vitesse maximale de 210 Mo/s avec plusieurs processus en parallèle. Pour les charges de travail, telles que les services de fichiers, les systèmes dont le taux d'utilisation du processeur n'excédait pas les 50 % ont enregistré une amélioration d'environ 20 % du temps de traitement pour les jeux de données compressibles à 50 %. Pour les systèmes avec un taux d'utilisation du processeur de plus de 50 %, l'impact peut être plus important.

Le gain d'espace obtenu pour différentes charges de travail grâce à la compression et à la déduplication est indiqué à la figure 2.

Responsabilités de l'administrateur VMware et de l'administrateur du stockage lors de l'utilisation du plug-in VSC vCenter.

Figure 2) Économies de stockage types résultant de la compression, de la déduplication, ou des deux.

Cas d'utilisation

Comme nous l'avons vu précédemment, le choix entre la compression et la déduplication implique de comparer les bénéfices en termes de gain d'espace par rapport à l'impact potentiel sur les performances. Il est important d'évaluer les deux aspects afin d'identifier les cas où la compression des données est la plus avantageuse pour votre environnement de stockage.

Les sauvegardes de bases de données (et les sauvegardes en général) constituent une cible idéale pour la compression des données. Les bases de données sont généralement très volumineuses et nombreux sont les utilisateurs qui échangeraient un certain impact sur les performances de stockage des sauvegardes contre plus de 65 % d'économies en termes de capacité. Prenons un exemple : avec la compression à la volée activée, un test de sauvegarde simultanée de quatre volumes Oracle a permis un gain d'espace de 70 % avec une augmentation de 35 % de la vitesse du processeur sans aucune répercussion sur la fenêtre de sauvegarde. En admettant que les ressources du processeur soient suffisantes sur le stockage cible, notre choix se porterait probablement sur l'activation de la compression, car le gain est considérable. Lors du dimensionnement de nouveaux systèmes stockage pour la sauvegarde, il est conseillé de vérifier la disponibilité des ressources du processeur pour la compression.

Les services de fichiers constituent un autre cas d'utilisation possible. Nous avons testé une charge de travail de services de fichiers sur un système occupé à 50 % environ, avec un ensemble de données compressible à 50 %. Nous n'avons observé qu'une baisse de 5 % du débit. Dans un environnement de services de fichiers enregistrant un temps de réponse de 1 milliseconde pour les fichiers, cela se traduirait par une augmentation de 0,05 ms seulement, soit un temps de réponse de 1,05 milliseconde. Pour un gain d'espace de 65 %, cette légère réduction des performances vous paraît probablement acceptable. Il est possible de réaliser des économies encore plus importantes grâce à la réplication des données à l'aide de la technologie NetApp Volume SnapMirror®, qui vous permet d'économiser de l'espace et de la bande passante réseau sur le système de stockage secondaire. Notez que, dans ce cas, ce dernier hérite de la compression du système de stockage primaire et aucun traitement supplémentaire n'est donc nécessaire. Dans cet exemple, vous obtiendriez les avantages suivants :

  • 65 % d'économies en termes de capacité de stockage sur le système de stockage primaire
  • 65 % de données en moins envoyées sur le réseau pour la réplication
  • 65 % d'augmentation de la vitesse de réplication
  • 65 % d'économies en termes de capacité de stockage sur le système de stockage secondaire

Il existe de nombreux autres cas d'utilisation pour lesquels la compression est judicieuse, et nous disposons d'un certain nombre d'outils et de guides qui vous aideront à identifier le cas d'utilisation le mieux adapté à votre environnement. Pour le stockage primaire, envisagez la compression dans les cas d'utilisation suivants :

  • Services de fichiers
  • Géosismique
  • Test et développement

Pour le stockage de sauvegarde/d'archivage, envisagez la compression dans les cas d'utilisation suivants :

  • Services de fichiers
  • Géosismique
  • Serveurs virtuels
  • Oracle OLTP
  • Entrepôt de données Oracle
  • Microsoft® Exchange 2010

Utilisation de la compression

La compression des données NetApp fonctionne sur tous les systèmes FAS et V-Series exécutant Data ONTAP 8.1 (ou une version ultérieure). La compression des données est activée au niveau du volume. En d'autres termes, vous choisissez les volumes sur lesquels vous souhaitez l'activer. Si vous savez qu'un volume contient des données non compressibles, vous ne devez pas activer la compression sur ce dernier. La compression des données allant de paire avec la déduplication, cette dernière doit être activée en premier sur le volume. La spécification, selon laquelle un volume doit être inclus dans un agrégat de 64 bits, a été intégrée à la version Data ONTAP 8.0. Avec la version Data ONTAP 8.1, il n'existe plus de restrictions sur la taille du volume, en dehors de celles imposées par la plateforme FAS ou V-Series que vous utilisez. Vous pouvez activer et gérer la compression depuis les outils de ligne de commande ou NetApp System Manager 2.0.

Avant d'activer la compression, NetApp conseille de procéder à un test afin de vérifier que vous possédez les ressources requises et que vous avez pensé à toutes les conséquences possibles. Le degré d'impact dépend notamment des facteurs suivants :

  • Le type d'application
  • La capacité de compression du jeu de données
  • Le mode d'accès aux données (par exemple, un accès séquentiel ou aléatoire, la taille et le modèle des E/S)
  • La taille moyenne des fichiers
  • Le taux de variation
  • Le nombre de volumes sur lesquels la compression est activée
  • La plateforme matérielle, à savoir la quantité de mémoire ou le nombre de processeurs disponibles dans le système
  • La charge sur le système
  • La vitesse et le type de disque
  • Le nombre de piles de disques de l'agrégat

Les règles générales suivantes s'appliquent :

  • Les performances de compression sont fonction du type de plateforme matérielle.
  • Un nombre de cœurs plus important offre une vitesse supérieure.
  • Des cœurs plus rapides se traduisent par un impact moindre sur la vitesse.
  • Plus les données sont compressibles, moins l'impact sur les performances est important.

Compression à la volée ou post-traitement

Lors de la configuration de la compression, vous avez la possibilité de choisir entre la compression à la volée immédiate associée à une compression post-traitement périodique et la compression post-traitement seule. La compression à la volée peut offrir un gain d'espace immédiat, un nombre d'E/S inférieur sur le disque et des copies Snapshot™ plus petites. Lors de la compression post-traitement, les blocs non compressés sont d'abord écrits, puis lus et enfin compressés. Ce type de compression est par conséquent à privilégier si vous ne souhaitez pas altérer les performances pour les nouvelles écritures ni utiliser des ressources supplémentaires du processeur pendant les heures d'utilisation intense.

La compression à la volée est plus utile dans les situations où les performances ne sont pas stratégiques. Vous pouvez alors accepter un certain impact sur les performances d'écriture et conserver les ressources du processeur pour les périodes d'activité intense. Le tableau 1 présente des considérations sur la compression à la volée et la compression post-traitement.

Objectif Recommandation
Réduire l'espace occupé par les copies Snapshot. La compression à la volée réduit l'espace utilisé par les copies Snapshot.
Diminuer l'utilisation de l'espace disque pour les destinations qtree SnapMirror ou SnapVault®. La compression à la volée offre des avantages immédiats avec un impact minime sur les fenêtres de sauvegarde. De plus, elle occupe moins d'espace dans la réserve Snapshot.
Réduire les E/S de disque. La compression à la volée fait baisser le nombre de nouveaux blocs écrits sur le disque.
Éviter l'impact sur les performances pour les nouvelles écritures. Lors de la compression post-traitement, les nouvelles données sont écrites non compressées sur le disque sans altérer les performances d'écriture. Vous pouvez alors programmer la compression afin de récupérer de l'espace.
Limiter l'impact sur le processeur pendant les heures de pointe. La compression post-traitement vous permet de programmer l'opération de compression, en limitant ainsi l'impact pendant les heures de pointe.

Tableau 1) Considérations sur l'utilisation de la compression post-traitement seule par rapport à la compression à la volée associée à la compression post-traitement.

Compression des données et autres technologies NetApp

La compression des données NetApp fonctionne en complément de la déduplication NetApp. Cette section traite de la combinaison de la compression des données avec les principales technologies NetApp.

Copies Snapshot. Les copies Snapshot permettent de restaurer les données d'un instant T en conservant les blocs modifiés après l'opération de copie Snapshot. La compression peut diminuer l'espace occupé par une copie Snapshot, car les données compressées prennent moins d'espace sur le disque.

La compression post-traitement permet de compresser les données verrouillées par une copie Snapshot. Toutefois, l'espace libéré n'est pas disponible immédiatement, car les blocs initiaux non compressés restent sur le disque jusqu'à l'expiration ou la suppression de la copie Snapshot. NetApp recommande de procéder à la compression post-traitement avant de créer les copies Snapshot. Pour connaître les meilleures pratiques sur l'utilisation de la compression avec des copies Snapshot, reportez-vous au rapport technique TR-3958 ou TR-3966.

Volume SnapMirror. Volume SnapMirror fonctionne au niveau du bloc physique. Lorsque la déduplication et/ou la compression sont activées sur le volume source, les gains d'espace engendrés par la déduplication et la compression sont maintenus lors du transfert et sur le volume de destination. Cela permet de réduire considérablement la quantité de bande passante réseau requise lors de la réplication, ainsi que le temps nécessaire au transfert SnapMirror. Voici quelques recommandations d'ordre général à prendre en considération :

  • Le système source et le système de destination doivent tous deux utiliser une version identique de Data ONTAP.
  • La compression et la déduplication ne sont gérées que sur le système source. Sur le système de destination, le volume flexible hérite des économies en termes de stockage.
  • La compression est maintenue pendant tout le transfert, de sorte que la quantité de données transférées est réduite, diminuant ainsi l'utilisation de la bande passante réseau et le temps de transfert.
  • La compression des liens SnapMirror n'est pas nécessaire, car les données ont déjà été compressées avec la fonctionnalité de compression des données NetApp.

La diminution de la bande passante réseau et du temps de transfert SnapMirror est directement proportionnelle à l'espace économisé. Par exemple, si vous pouviez économiser 50 % en termes de capacité de disque, vous pourriez diviser par deux le temps de transfert SnapMirror ainsi que la quantité de données à transférer.

Qtree SnapMirror et SnapVault. Qtree SnapMirror et SnapVault fonctionnent au niveau du bloc logique. Les systèmes de stockage source et de destination procèdent à la déduplication et la compression des données de manière indépendante. Vous pouvez par conséquent réaliser ces opérations sur l'un des systèmes ou les deux selon vos besoins. Cela vous permet de compresser et/ou dupliquer vos sauvegardes Qtree SnapMirror et/ou SnapVault, même lorsque les données source ne sont pas compressées ou dupliquées. La compression post-traitement et la déduplication se lancent automatiquement une fois le transfert SnapVault terminé, à moins que leur exécution soit définie sur le mode manuel.

Clonage. La technologie NetApp FlexClone® crée instantanément des copies virtuelles de fichiers ou de volumes de données. Notez que ces copies ne consomment de l'espace de stockage supplémentaire que lorsque des changements sont apportés aux clones. FlexClone prend en charge la déduplication et la compression. Lorsque vous activez la compression sur le volume parent d'un clone, le clone hérite de ses avantages. Vous pouvez également activer la compression sur le volume d'un clone de façon à ce que les nouvelles données écrites sur le clone bénéficient de la compression sans affecter la copie parent.

Conclusion

La technologie de compression des données NetApp est un outil essentiel en matière d'efficacité du stockage, car elle permet d'optimiser le gain d'espace sur le stockage primaire et secondaire. Pour en savoir plus sur les sujets abordés dans ce chapitre, reportez-vous aux rapports techniques TR-3958 – Guide de déploiement et d'implémentation de la compression des données et de la déduplication NetApp : Data ONTAP 8.1 7-Mode et TR-3966 – Guide de déploiement et d'implémentation de la compression des données et de la déduplication NetApp : Data ONTAP 8.1 Cluster-Mode.

 Vous avez des remarques à propos de la compression des données ?

Posez vos questions, échangez des idées et partagez vos points de vue directement en ligne via les communautés NetApp.

Sandra Moulton
Ingénieur marketing et technique
NetApp


Depuis son arrivée chez NetApp, il y a deux ans, Sandra s'est presque exclusivement consacrée à l'efficacité du stockage, en se spécialisant dans la déduplication et la compression des données. Elle a été chargée d'élaborer des livres blancs, des guides de meilleures pratiques et des architectures de référence pour ces technologies stratégiques. Sandra bénéficie de plus de 20 ans d'expérience dans le secteur, et elle a notamment occupé des fonctions similaires dans d'autres entreprises majeures de la Silicon Valley.


Tech OnTap
S'inscrire dès maintenant
Tech OnTap propose chaque mois des informations techniques, mais également des meilleures pratiques, des conseils et des outils, des interviews d'ingénieurs, des démonstrations, des évaluations et bien plus encore.

Pour vous inscrire dès aujourd'hui, consultez Tech OnTap dans la communauté NetApp.

Explorer
Explorer
Autres articles Retour aux notions de base

Découvrez les notions de base des principales technologies NetApp en lisant les autres chapitres de cette série :

Explorer
TRUSTe
Nous contacter   |   Choisir un partenaire   |   Commentaires   |   Offres d'emploi  |   Abonnements   |   Déclaration de confidentialité   |   © 2012 NetApp