NetApp Tech OnTap
     

Compresión de datos para el almacenamiento de NetApp

La eficiencia es la clave para que un entorno de TI sea flexible. Como líder en innovación de la eficiencia del almacenamiento, NetApp ha trabajado duro para ofrecer las últimas novedades en eficiencia, entre ellas Snapshot® y tecnologías relacionadas, thin provisioning, FlexClone® y deduplicación para almacenamiento primario.

Obviamente, la tecnología de compresión de datos existe desde hace mucho tiempo, pero ha representado importantes retos para sistemas de almacenamiento de gran escala, especialmente en términos de impacto en el rendimiento. Hasta hace poco, la compresión para dispositivos como unidades de cinta y VTL se realizaba casi siempre con un hardware específico, lo que contribuía a aumentar los gastos y la complejidad. Ahora, NetApp ha desarrollado una manera de proporcionar una compresión de datos en línea transparente en software, que mitiga a su vez el impacto en los recursos informáticos. De este modo, podemos hacer que las ventajas de la compresión estén disponibles en Data ONTAP® sin coste adicional alguno, de tal forma que se pueda utilizar en sistemas de almacenamiento existentes de NetApp® que se actualicen con Data ONTAP 8.0.1 o versiones posteriores.

En este artículo hablo sobre qué es y cómo funciona la compresión de datos de NetApp data y reviso algunos casos de uso habituales junto con el ahorro de espacio que hemos medido para cada uno de ellos. Asimismo, comento cómo puede utilizarse la compresión de datos junto con otras tecnologías de NetApp y reviso cómo implementa NetApp esta nueva funcionalidad para hacer posible el éxito.

Qué es la compresión de datos de NetApp


La compresión de datos de NetApp se presenta como opción gratuita integrada en Data ONTAP 8.0.1, una solución basada en software para una compresión de datos en línea transparente. No es necesario realizar cambios en la aplicación para utilizar la compresión de datos de NetApp.

La compresión de datos de NetApp reduce la capacidad física requerida para almacenar datos en sistemas de almacenamiento al comprimir los datos en un volumen flexible (FlexVol®) del almacenamiento primario, secundario y de archivo. Esta función comprime archivos convencionales, discos locales virtuales y LUN. En el resto del artículo, las referencias a archivos también se aplican a discos locales virtuales y LUN.

La compresión de datos de NetApp no comprime un archivo completo como una única secuencia contigua de bytes. Esto resultaría prohibitivamente caro a la hora de proporcionar lecturas pequeñas de una parte de un archivo, ya que habría que leer todo el archivo desde el disco y descomprimirlo antes de atender la solicitud de lectura. Asimismo, resultaría particularmente difícil en archivos de gran tamaño. Para evitarlo, la compresión de datos de NetApp reduce un pequeño grupo de bloques consecutivos de una sola vez. Este es un elemento clave del diseño que permite que la compresión de datos de NetApp sea más eficiente. Cuando llegue una solicitud de lectura, en lugar del archivo completo, solo tendrá que leer y descomprimir un pequeño grupo de bloques. De este modo, se optimizan las lecturas y se obtiene una mayor escalabilidad en el tamaño de los archivos que se van a descomprimir.

El algoritmo de compresión de NetApp divide un archivo en fragmentos de datos de 32 KB denominados «grupos de compresión». Cada grupo de compresión contiene datos de un único archivo.

Escritura de datos. Las solicitudes de escritura se gestionan en el nivel de los grupos de compresión. Una vez formado un grupo, se lleva a cabo una prueba mientras los datos continúan en la memoria para decidir si se pueden comprimir. Si no es posible comprimirlos, simplemente se pasan al disco. Sólo si la prueba revela que los datos se pueden comprimir, se comprime el grupo completo. Este procedimiento optimiza el ahorro, a la vez que minimiza los gastos generales de recursos.

Con los datos comprimidos, al tener menos bloques que escribir en disco, se reduce el número de operaciones de I/O de escritura necesarias para cada operación de escritura comprimida. De este modo, no solo se reduce el espacio físico utilizado por los datos en el disco, sino que también es posible reducir el tiempo requerido para completar las solicitudes de escritura en disco y, de manera significativa, el tiempo necesario para hacer backups.

Antes de realizar cualquier compresión, los grupos se someten a pruebas para determinar si pueden comprimirse. A continuación, en función de los resultados de la prueba, se vacían en el disco, se comprimen o se descomprimen.

Figura 1) Antes de realizar cualquier compresión, los grupos se someten a pruebas para determinar si pueden comprimirse. A continuación, en función de los resultados de la prueba, se vacían en el disco, se comprimen o se descomprimen.

Lectura de datos. Cuando llega una solicitud de lectura de datos comprimidos, Data ONTAP lee únicamente los grupos de compresión que contienen los datos solicitados, en lugar del archivo completo. De este modo, se minimiza la cantidad de operaciones de I/O necesarias para atender la solicitud y se reducen los gastos generales.

Rendimiento de la compresión


La compresión de datos de NetApp está diseñada para funcionar de forma independiente o con deduplicación de NetApp para obtener un ahorro óptimo. La deduplicación de NetApp puede programarse para que se ejecute cuando resulte más conveniente, mientras que la compresión de datos se ejecuta como proceso en línea a medida que los datos se escriben en disco. Cuando se activan ambas operaciones en el mismo volumen, primero se comprimen los datos y, a continuación, se deduplican. La deduplicación no necesita descomprimir los datos para poder efectuarse; simplemente elimina los bloques comprimidos o descomprimidos duplicados de un volumen de datos.

La compresión de datos aprovecha las características internas de Data ONTAP para ofrecer una eficiencia elevada. Aunque la compresión de datos de NetApp minimiza el impacto en el rendimiento, no lo elimina por completo. Las cargas de trabajo deberán evaluarse para saber la tolerancia de los recursos necesarios para realizar la compresión de datos. El impacto real podría depender de varios de los siguientes factores:

  • Tipo de aplicación
  • Capacidad de compresión del conjunto de datos
  • Patrón de acceso a los datos (por ejemplo, acceso secuencial o aleatorio, el tamaño y el patrón de I/O)
  • Tamaño medio de los archivos
  • Índice de cambio
  • Número de volúmenes que tienen habilitada la compresión en el sistema
  • Plataforma de hardware, cantidad de CPU/memoria del sistema
  • Carga sobre el sistema
  • Tipo y velocidad del disco
  • Cantidad de discos físicos de la agrupación

Para ayudarle durante el dimensionado y otras actividades y así optimizar su instalación, hemos desarrollado una serie de mejores prácticas. Debido a los numerosos factores que pueden actuar, la realización de pruebas en su entorno es la mejor manera de determinar la idoneidad de la compresión de datos para el uso deseado. En las siguientes secciones se comenta el ahorro medido con distintos conjuntos de datos de aplicaciones y algunos casos de uso típicos.

Ahorro de espacio con compresión y deduplicación de datos


La compresión de datos de NetApp proporciona un ahorro de espacio inmediato mediante una compresión en línea. La deduplicación de NetApp se ejecuta con carácter periódico (posprocesamiento) con el fin de proporcionar un ahorro de espacio acumulativo. Aunque la compresión y la deduplicación funcionan conjuntamente, hay que señalar que el ahorro obtenido no representará necesariamente la suma del ahorro experimentado al ejecutar cada una de las tecnologías por separado con un conjunto de datos.

Con algunos tipos de datos, la compresión no aumenta el ahorro con respecto al uso exclusivo de la deduplicación, mientras que en otros casos se aplicará lo contrario. No obstante, en otros casos, el mayor ahorro de almacenamiento se produce como consecuencia de la ejecución conjunta de la compresión y la deduplicación. La siguiente tabla incluye ejemplos que ilustran estas afirmaciones.

Tabla 1) Mejor combinación de ahorro de espacio para distintos tipos de datos.

Tipo de conjunto de datos Aplicación Mejor combinación de ahorro Ahorro de espacio típico
Directorios iniciales Compresión y deduplicación 65%
Servidores y escritorios virtuales Solo deduplicación 70%
Base de datos Solo compresión 65%
Correo electrónico Exchange 2003/2007 Solo compresión 35%
Exchange 2010 Compresión y deduplicación 40%
Datos de ingeniería Desarrollo de software Compresión y deduplicación 75%
Datos geosísmicos Solo compresión 75%

Aunque se trata de ejemplos de ahorro típicos, no todos los conjuntos de datos son iguales. Es preciso realizar pruebas con sus datos para evaluar el ahorro que experimentará. NetApp está siempre a su disposición para ayudarle en el proceso de evaluación.

Casos de uso típicos


Como ya he mencionado, la compresión puede proporcionar un impresionante ahorro de espacio a costa de parte del rendimiento. Es importante evaluar ambos de manera conjunta para determinar en qué casos tiene más sentido recurrir a la compresión en su entorno de almacenamiento.

Los backups de bases de datos (y los backups en general) son un posible punto idóneo para la compresión de datos. Las bases de datos son, con frecuencia, extremadamente voluminosas y hay numerosos usuarios que aceptarían un leve impacto en el rendimiento del almacenamiento de backup a cambio de un ahorro de capacidad de un mínimo del 65%.

Otro posible caso de uso son los servicios de archivos. En las pruebas realizadas con una carga de trabajo de servicios de archivos en un sistema con una ocupación de alrededor del 50% y un conjunto de datos con una capacidad de compresión del 50%, medimos un descenso del rendimiento de tan solo el 10%. En un entorno de servicios de archivos con un tiempo de respuesta de 2 milisegundos para archivos, esto se traduciría en un aumento de solo 0,2 ms, lo que incrementaría el tiempo de respuesta hasta los 2,2 milisegundos. Para obtener un ahorro de espacio del 65%, este pequeño descenso del rendimiento podría ser aceptable para usted. Este ahorro puede ampliarse aún más al replicar los datos mediante la tecnología Volume SnapMirror® de NetApp, que permite ahorrar ancho de banda de red y espacio en el almacenamiento secundario. (En este caso, el almacenamiento secundario hereda la compresión del almacenamiento primario, por lo que no es necesario efectuar un procesamiento adicional). En esta situación, usted obtendría:

  • Un ahorro del 65% de la capacidad de almacenamiento para el almacenamiento primario
  • Un 65% menos de datos enviados por la red para la replicación
  • Una replicación un 65% más rápida
  • Un ahorro del 65% de la capacidad de almacenamiento para el almacenamiento secundario

Existen muchos otros casos de uso en los que tiene sentido recurrir a la compresión y disponemos de una serie de herramientas y guías que pueden ayudarle a decidir qué casos resultan más aptos para su entorno.

Uso de la compresión de datos con otras tecnologías de NetApp


Como ya hemos visto, la compresión de datos de NetApp funciona de forma complementaria con la deduplicación de NetApp. En esta sección, comentaré el uso de la compresión de datos junto con otras conocidas tecnologías de NetApp.

Volume SnapMirror. Volume SnapMirror opera en el nivel de los bloques físicos; cuando está habilitada la deduplicación o la compresión en el volumen de origen, el ahorro de espacio derivado de la deduplicación y la compresión se mantiene tanto en la conexión como en el destino. De este modo, puede reducirse de forma significativa la cantidad de ancho de banda de red requerida durante la replicación y el tiempo que tarda en completarse la transferencia de SnapMirror. He aquí algunas directrices generales que deben tenerse en cuenta:

  • Los sistemas de origen y destino deben utilizar la misma versión de Data ONTAP.
  • La compresión y la deduplicación se gestionan únicamente en el sistema de origen; el volumen flexible del sistema de destino hereda los atributos de eficiencia y el ahorro de almacenamiento.
  • Los bloques compartidos se transfieren una sola vez, por lo que la deduplicación reduce también el ancho de banda de red.
  • La compresión se mantiene a lo largo de la transferencia, por lo que se reduce el volumen de datos transferidos y, por consiguiente, el uso del ancho de banda de red.
  • Con SnapMirror, no es necesario comprimir los datos a nivel de enlace, porque ya lo están gracias a la funcionalidad de compresión de NetApp.

El porcentaje de reducción del ancho de banda de red y el tiempo de transferencia de SnapMirror son directamente proporcionales al porcentaje de ahorro de espacio. Por ejemplo, si pudiera ahorrar un 50% en capacidad de disco, el tiempo de transferencia de SnapMirror se reduciría un 50% y el volumen de datos que tendría que transferir sería un 50% menor.

Qtree SnapMirror y SnapVault®. Tanto qtree SnapMirror como SnapVault operan en el nivel de los bloques lógicos; los sistemas de almacenamiento de origen y de destino ejecutan la deduplicación y la compresión de datos de forma independiente. De este modo, usted puede comprimir o deduplicar sus backups de qtree SnapMirror o SnapVault incluso en aquellos casos en los que los datos de origen no estén comprimidos o deduplicados.

Clonado. La tecnología FlexClone de NetApp crea al instante copias virtuales de archivos o volúmenes de datos que no consumen espacio de almacenamiento adicional hasta que no se realizan cambios en los clones. FlexClone es compatible tanto con la deduplicación como con la compresión.

Introducción a la compresión de datos de NetApp


La compresión de datos de NetApp funciona en todos los sistemas FAS y V-Series de NetApp que ejecutan Data ONTAP 8.0.1 y versiones posteriores. La compresión de datos se habilita para los volúmenes, lo que significa que usted elige los volúmenes para los que desea habilitarla. Si sabe que un volumen contiene datos que no se pueden comprimir, ni tiene ni debe habilitar la compresión en dicho volumen. Un volumen puede tener un tamaño de hasta 16 TB y debe estar contenido en una agrupación de 64 bits, función introducida ya con Data ONTAP 8. (Puede obtener más información acerca de Data ONTAP 8 en un artículo incluido en este número de Tech ONTAP.)

Para comenzar a utilizar la compresión de datos, basta con instalar la licencia gratuita en su sistema de almacenamiento y, a continuación, habilitarla en los volúmenes que elija. Eso es todo.

Programa de compresión de datos para primeros clientes. Al igual que con el lanzamiento de la deduplicación hace algunos años, NetApp está gestionando el acceso inicial a nuestra tecnología de compresión de datos. Si solicita la licencia de compresión, evaluaremos su entorno y le proporcionaremos nuestras recomendaciones de mejores prácticas.

Conclusión

La compresión de datos de NetApp continúa la tradición de la compañía de aportar un valor significativo a Data ONTAP en términos de eficiencia del almacenamiento y de ofrecerlo sin coste adicional. Esta tecnología reduce de manera significativa los requisitos de almacenamiento para conjuntos de datos de destino que se pueden comprimir, y funciona con deduplicación y otras tecnologías de NetApp.

La potencia y el potencial de compresión valen realmente la pena al utilizarse junto con otras tecnologías de eficiencia del almacenamiento de NetApp. Seleccionar tecnologías y funciones de eficiencia de una cartera integrada le permite gestionar de forma eficiente el equilibrio adecuado entre tecnología y necesidades empresariales.

Comunidad de NetApp
 ¿Quiere expresar su opinión sobre la compresión de datos?

Formule preguntas, intercambie ideas y comparta sus opiniones en las comunidades en línea de NetApp.

Sandra Moulton

Sandra Moulton
Ingeniero Técnico de Marketing
NetApp

Desde que entró a formar parte de NetApp hace poco más de un año, Sandra ha centrado sus esfuerzos casi de manera exclusiva en la eficiencia del almacenamiento y se ha especializado en la deduplicación y la compresión de datos; ha sido responsable del desarrollo de white papers, guías de mejores prácticas y arquitecturas de referencia para estas tecnologías críticas. Sandra tiene más de 20 años de experiencia en el sector, desempeñando funciones similares en otras empresas líderes de Silicon Valley.

 
En profundidad