NetApp Tech OnTap Logotipo de NetApp
NetApp Tech OnTap
     
Conceptos básicos: deduplicación

Este mes, Tech OnTap ofrece la segunda entrega de Conceptos básicos, una serie de artículos que hablan de los conceptos básicos de las conocidas tecnologías de NetApp para ayudarle a comprenderlas y a empezar a utilizarlas.

En 2007, NetApp presentó la tecnología de la deduplicación, que reduce significativamente los requisitos de capacidad de almacenamiento. Al identificar bloques de centros de datos idénticos y sustituirlos por referencias a un único bloque compartido después de hacer una comprobación a nivel del byte, la deduplicación de NetApp mejora la eficiencia. Esta técnica reduce los requisitos de capacidad de almacenamiento al eliminar los bloques de datos redundantes que se encuentran en un mismo volumen o unidad lógica.

La deduplicación de NetApp es una parte integral del entorno operativo Data ONTAP® y el sistema de archivos WAFL® , que gestiona todos los datos de los sistemas de almacenamiento NetApp. La deduplicación funciona «entre bastidores», sin importar qué aplicaciones ejecute o cómo accede a sus datos, y su carga es baja.

Una pregunta frecuente es «¿cuánto espacio puede ahorrar?». Regresaremos a este punto más adelante pero, a grandes rasgos, depende del conjunto de datos y de la cantidad de duplicación que contengan. A modo de ejemplo, la empresa Polysus, con sede en Atlanta y que diseña y mejora plantas de cemento nuevas o ya existentes, muestra el valor de la deduplicación de NetApp en un entorno mixto con datos de negocio e ingeniería.

Polysius ha observado un crecimiento anual de hasta un 30% en sus requisitos de almacenamiento de producción. Al deduplicar el conjunto de archivos de AutoCAD, documentos de Microsoft® Office y otros datos sin estructura, Polysius ha sido capaz de recuperar el 47% de su espacio de almacenamiento. Algunos volúmenes mostraron reducciones de hasta un 70%. Como resultado, la empresa ha sido capaz de aplazar las nuevas adquisiciones de almacenamiento y ha conseguido doblar el periodo de tiempo durante el cual mantiene los datos de backup en disco. Si quiere más información, lea el caso práctico de Polysius.

La deduplicación de NetApp tiene ventajas significativas:

  • Opera en almacenamiento primario, secundario y de archivo de NetApp o de terceros.
  • Es independiente de las aplicaciones.
  • Es independiente de los protocolos.
  • Tiene una carga mínima.
  • Funciona tanto con FAS como con los sistemas de almacenamiento V-Series de NetApp.
  • Tiene validación byte por byte.
  • Puede aplicarse en datos nuevos o en los previamente almacenados en volúmenes o unidades lógicas.
  • Puede ejecutarse durante tiempos de menor carga.
  • Se integra con otras tecnologías de eficiencia del almacenamiento de NetApp.
  • Permite ahorrar gracias a la deduplicación heredada de SnapMirror® o Flash Cache.
  • Tiene herramientas de evaluación sencillas.
  • Es gratuito.

Este capítulo de Conceptos básicos explora cómo se implanta la deduplicación de NetApp, los casos de uso más comunes y prácticas para poner en marcha la deduplicación, entre otros.

Cómo se implanta la deduplicación en Data ONTAP

En realidad, la deduplicación de NetApp se basa en la reputada técnica informática de recuento de referencias. Anteriormente, Data ONTAP se limitaba a hacer seguimiento si un bloque estaba libre o en uso, con la deduplicación, también se registra el número de usos que hay y puede hacerse referencia a un mismo bloque hasta 255 veces tanto por configuraciones NAS como SAS. Los archivos no «saben» que utilizan bloques compartidos, la contabilidad de WAFL lo hace todo de forma invisible.

La serie FAS6200.

Figura 1) Cómo funciona la deduplicación de NetApp

¿Cómo decide Data ONTAP que dos bloques pueden compartirse? Por cada bloque registra una «huella», que es un resumen de los datos del bloque. Dos bloques con una misma huella son candidatos para compartir.

Al habilitar la deduplicación de NetApp, se genera una base de datos de huellas de los bloques en uso de un volumen (proceso conocido como «recopilación»). Una vez ha finalizada la configuración inicial, los datos están listos para la deduplicación.

Para evitar ralentizar las operaciones habituales, la búsqueda de duplicados es un proceso de lote independiente. A medida que se escriben los datos durante su uso normal, WAFL crea un catálogo de huellas de los mismos. Este catálogo se acumula hasta que alguno de los siguientes casos inicia la deduplicación, según determine el administrador del sistema de almacenamiento:

  • Se envía el comando «start» de inicio de la deduplicación manualmente.
  • Se da un proceso de deduplicación programado.
  • Se ha escrito un 20% de datos nuevos en el volumen.
  • Cuando se completa una trasferencia de SnapVault®.

Una vez iniciado el proceso de deduplicación, se inicia una operación de clasificación, utilizando las huellas de los bloques cambiados como clave. Esta lista clasificada se une con el archivo de base de datos de huellas. Cada vez que aparezca la misma huella en ambas listas, hay bloques posiblemente idénticos que pueden unirse en uno. En este caso, Data ONTAP puede descartar uno de los bloques y sustituirlo con una referencia al otro bloque. Como el sistema de archivos está en constante cambio, solo se puede realizar este paso si ambos bloques todavía están en uso y contienen los mismos datos. Para garantizar que dos bloques sean realmente idénticos, se realiza una comparación byte por byte una vez que se han identificado.

La implantación de la deduplicación de NetApp se aprovecha de algunas de las funciones especiales de WAFL para minimizar el coste de la deduplicación. Por ejemplo, cada bloque de datos en disco se protege con una suma de verificación.

NetApp utiliza esta suma como base de la huella. Como de todas formas, se van a informatizar, lo conseguimos «gratis», no hay ninguna carga adicional en el sistema. Y como WAFL nunca sobrescribe un bloque de datos que se esté utilizando, las huellas siguen siendo válidas hasta que se libera el bloque. Una estrecha integración de la deduplicación de NetApp con WAFL también significa que el registro de cambios es una operación eficiente. El resultado final es que la deduplicación puede utilizarse con una amplia gama de cargas de trabajo, no solo para backups, como era el caso en otras implantaciones de deduplicación.

Modo de uso

Desde que se introdujo la deduplicación, NetApp ha medido, de manera continuada, los beneficios de la misma en entornos reales. Los casos de uso más populares son VMware® y VDI, datos de directorio domésticos y servicios de archivos. Microsoft SharePoint® y Exchange 2010 cogen impulso rápidamente.

Muchos artículos de Tech OnTap se centran en unas ventajas concretas de la deduplicación en entornos VMware y VDI, que cuentan con un alto nivel inherente de deduplicación de archivos por los entornos de sistema operativo casi idénticos utilizados en cada equipo virtual. La tabla siguiente resume los resultados típicos de una gran variedad de entornos.

Tabla 1) Ahorro de espacio por deduplicación típico

Tipo de conjunto de datos Tipo de aplicación Solo deduplicación

Servicios de archivos/infraestructura de TI

30%

Servidores y escritorios virtuales

70%

Base de datos

Oracle® OLTP

0%

Oracle DW

15%

SQL Server®

20%

Correo electrónico, colaborativo

Exchange 2003/2007

3%

Exchange 2010

15%

Datos de ingeniería

30%

Datos geosísmicos

3%

Datos de archivo

25%

Datos de backup

95%


En un entorno de VMware o VDI típico puede tener numerosos equipos virtuales (VMs) instalados con, más o menos, el mismo sistema operativo y las mismas aplicaciones, lo que resulta en una gran cantidad de deduplicación.

Si cuenta con 100 equipos virtuales con un mismo SO y cada máquina virtual requiere de 10 a 20 GB de almacenamiento, esto supone de 1 a 2 TB de almacenamiento dedicado a copias prácticamente idénticas. La deduplicación de NetApp permite eliminar esta redundancia.

En términos generales, si dispone de X equipos virtuales asignados a un volumen de almacenamiento, tras la deduplicación necesitará aproximadamente 1/X de la cantidad de almacenamiento de sistema operativo del que necesitaría en un entorno sin deduplicar. Obviamente, los resultados reales que puede conseguir dependerán de cuántos equipos virtuales tenga en un volumen y de qué similitudes tengan.

En la práctica, los clientes pueden observar un ahorro mínimo de espacio del 50% en entornos ESX VI3 y algunos pueden conseguir un ahorro de almacenamiento de hasta un 90%. Esto es el resultado de la deduplicación de todo el entorno de almacenamiento de VMware, incluyendo los datos de aplicaciones, no solo los sistemas operativos. En entornos VDI, los clientes normalmente observan un ahorro en espacio de hasta un 90%.

NetApp también ha estudiado las ventajas de la deduplicación en almacenes de datos de archivos sin estructura creados por algunas aplicaciones científicas y de ingeniería populares que incluyen el software Siemens Teamcenter PLM, Rational ClearCase SCM de IBM y Schlumberger Petrel para el análisis de datos sísmicos.

Teamcenter utiliza una base de metadatos relativamente pequeña combinada con un gran «almacén», donde se guardan los archivos de diseño de ingeniería. Cada vez que un ingeniero guarde un diseño con Teamcenter, se guarda una copia completa en el almacen, incluso si el cambio es pequeño.

NetApp ha trabajado estrechamente con Siemens PLM para evaluar el valor de la deduplicación en un entorno Teamcenter utilizando la herramienta de referencia de escalabilidad y rendimiento de Siemens que simula la creación de diferentes revisiones de muchos archivos de diseño, tal y como podría ocurrir durante un uso normal. La deduplicación del almacen resultante supuso un ahorro de espacio del 57%. Los resultados en el mundo real pueden ser incluso mayores ya que en muchos casos el número de revisiones de archivos tenderá a ser superior al de la simulación. (Por lo general, deberá tener cuidado al utilizar simuladores para medir el ahorro potencial de la deduplicación. Los datos simulados, en muchos casos, crearán, de manera artificial, una cantidad alta de datos deduplicados, ya que el principal interés normalmente es el rendimiento, no las pautas de datos).

De forma similar a Teamcenter, Rational ClearCase de IBM, una solución de gestión de configuración de software líder que consiste en una base de metadatos combinada con una «base de objetos versionados» o VOB, en los que se almacenan los archivos. La deduplicación es más útil con ClearCase en situaciones en las que debe hacerse una copia de un VOB. Además, los resultados preliminares en un entorno de laboratorio sugieren un ahorro en espacio mínimo del 40% con la deduplicación en un entorno ClearCase cuando se almacenan archivos completos.

Se utiliza Schlumberger Petrel para la interpretación de datos sísmicos, visualización de reservas y simulación de flujos. Crea directorios de proyecto que contienen grandes cantidades de archivos. A medida que los usuarios crean, distribuyen y archivan datos, se almacenan objetos de datos duplicados en los diversos servicios de almacenamiento. Con la deduplicación de estos directorios, NetApp ha observado un ahorro en espacio aproximado del 48%.

Uso de la deduplicación de NetApp

En la tabla 2 se resumen los requisitos básicos para ejecutar la deduplicación de NetApp.

Tabla 2) Requisitos básicos para la deduplicación de NetApp.

Requisitos Deduplicación

Hardware

NearStore® R200
Serie FAS2000
Serie FAS3000
Serie FAS3100
Serie FAS3200
Serie FAS6000
Serie FAS6200
Serie N5000 de IBM
Serie N7000 de IBM
Nota: a partir de la versión 7.3 de Data ONTAP, también se admiten los sistemas V-Series que corresponden a los sistemas FAS de NetApp y los sistemas de punto de acceso serie N de IBM listados anteriormente.

Se requiere versión mínima de Data ONTAP

Data ONTAP 7.2.5.1
(Solo modo 7 para 8.0.X)

Se requieren licencias

A-SIS
Licencia NearStore (necesaria para las versiones de Data ONTAP anteriores a 8.0)

Tipo de volumen compatible

Solo FlexVol®, no volúmenes tradicionales

Tamaño de volumen máximo

Para Data ONTAP 8.0.1 el límite es de 16 TB para deduplicación en todas las plataformas. El «tamaño máximo de volumen flexible» en versiones anteriores de Data ONTAP dependerá del modelo de NetApp, podrá encontrarlo en
TR-3505.

Protocolos compatibles

Todos

Además de estos requisitos, prestar atención a algunas mejores prácticas puede ayudar a conseguir el éxito con la deduplicación. Algunas de las mejores prácticas más importantes se resumen en esta sección junto con información sobre el uso de la deduplicación junto con otras tecnologías populares de NetApp. Para obtener toda la información, consulte TR-3505: Guía de puesta en marcha e implantación de la deduplicación de NetApp.

  • Debería contabilizar el impacto sobre el rendimiento de la deduplicación y medir los requisitos en una prueba de entorno antes de la puesta en marcha, sobre todo para aplicaciones que NetApp no ha probado con anterioridad, como las que se incluyen en la Tabla 1.
  • La deduplicación consume recursos del sistema y puede alterar la distribución de datos en el disco. Debido al patrón I/O de la aplicación y el efecto que la deduplicación tiene en la distribución de datos, el rendimiento de I/O de lectura y escritura puede variar. El ahorro de espacio y el impacto en el rendimiento dependen de la aplicación y los contenidos de datos.
  • Si su aplicación crea solo una pequeña cantidad de datos nuevos, realice la deduplicación de forma poco frecuente, ya que, en este caso, la ventaja de hacerlo muy a menudo es pequeña. La frecuencia de ejecución de la deduplicación depende de la tasa de cambios de los datos en un volumen flexible.
  • Cuantos más procesos de escaneado de deduplicación concurrentes ejecute, más recursos del sistema se consumen. La mejor opción es hacer uno de los siguientes:
    • Alterne el programa de deduplicación para volúmenes flexibles de forma que los procesos de deduplicación se ejecuten en días alternos, reduciendo así la posibilidad de ejecutar demasiados procesos simultáneos.
    • Use el modo automático para que la deduplicación se ejecute solo cuando se haya escrito una cantidad sustancial de datos adicionales en cada volumen flexible. (Esto tiende a alternarse de forma natural cuando la deduplicación se ejecuta en entornos pequeños).
    • Ejecute la deduplicación manualmente.
    • Ejecute la deduplicación por la noche para minimizar la cantidad de datos nuevos a deduplicar, y reduzca el tiempo que dura el proceso.
  • Si se crea una copia Snapshot® antes de completar el proceso de deduplicación, es posible que resulte en un menor ahorro de espacio. Si es posible, ejecute el proceso de deduplicación antes de crear copias Snapshot y asegúrese de que el proceso de deduplicación se ha finalizado antes de crear una copia Snapshot.
  • Para que la deduplicación se ejecute correctamente, tendrá que dejar espacio libre suficiente para almacenar los metadatos de deduplicación. Para versiones de Data ONTAP anteriores a 7.3, cada volumen flexible deberá disponer de un 6% del tamaño total de datos en espacio libre. Para versiones de Data ONTAP 7.3 o posteriores, el agregado deberá disponer de un 4% (huella digital + registros de cambios) del tamaño total de datos en espacio libre para los volúmenes flexibles deduplicados y cada volumen flexible deberá disponer del 2% del tamaño total de datos en espacio libre. Esto se describe de forma más detallada en
    TR-3505, sección 5.3.3.

Deduplicación y otras tecnologías de NetApp

La deduplicación ha sido diseñada para trabajar con otras tecnologías de NetApp. En muchos casos, dichas tecnologías obtienen una ventaja adicional:

  • Flash Cache. Flash Cache proporciona un almacenamiento en caché inteligente que acelera las operaciones I/O. La deduplicación de NetApp aumenta la probabilidad de aciertos en caché. Cuando los bloques deduplicados se encuentran en Flash Cache, la probabilidad de que vuelva a solicitarse es mucho más alta. Este efecto se llama ampliación de caché y es especialmente útil para la virtualización de servidor y escritorios.
  • SnapMirror para volúmenes. Cuando replica un volumen deduplicado con SnapMirror para volúmenes, el volumen objetivo automáticamente hereda el estado deduplicado del volumen origen. El impacto de este efecto para VMware se describe en el artículo anterior. La interacción de la deduplicación con todas las formas de SnapMirror y SnapVault también se describe en una artículo reciente.
  • FlexClone. La tecnología FlexClone® replica volúmenes y conjuntos de datos como copias virtuales transparentes de forma instantánea. Cuando se crea un volumen de FlexClone:
    • Si el volumen de FlexClone origen tiene la deduplicación habilitada, el nuevo volumen hereda el ahorro.
    • El volumen clonado hereda la configuración de deduplicación del volumen original, como el programa de deduplicación.
    • A partir de la versión 7.3 de Data ONTAP, los archivos de metadatos de deduplicación (la base de datos de huellas digitales y los archivos de registro de cambios) no se clonan, porque se encuentran en el agregado que está fuera del volumen. La deduplicación tendrá que empezar en el volumen clonado para que sea completa
  • Compresión. La compresión de datos de NetApp, presentada en Data ONTAP 8.0.1, es altamente complementaria a la deduplicación. Los ahorros en espacio y casos de uso se describen en un artículo de Tech OnTap anterior.
  • Thin provisioning. La deduplicación también funciona conjuntamente con thin provisioning de NetApp para optimizar el ahorro de espacio. Para volúmenes NAS, la configuración es directa. Para unidades lógicas, puede conseguir el máximo ahorro de espacio con las siguientes configuraciones (consulte la sección 6.4.18 de TR-3505 para obtener toda la información):
    • LUN space reservation value = off
    • Volume fractional reserve value = cualquier valor del 0 al 100
    • Volume guarantee = none
    • Snap reserve = 0%
    • Autodelete = on
    • Autosize = on
    • Try_first = volume_grow

Conclusión

La deduplicación es una importante herramienta de eficiencia del almacenamiento que puede utilizarse de forma independiente o en combinación con otras soluciones de eficiencia del almacenamiento como thin provisioning de NetApp, FlexClone y otros. Para obtener más información sobre la deduplicación, consulte TR-3505: Guía de puesta en marcha e implantación de la deduplicación de NetApp para FAS y V-Series. Esta guía actualizada frecuentemente abarca una amplia gama de temas que incluyen:

  • Configuración y operación
  • Dimensionamiento para optimizar el rendimiento y la eficiencia en el uso del espacio
  • Uso con otras tecnologías de NetApp
  • Mejores prácticas de uso de aplicaciones específicas como VMware, Microsoft Exchange, SQL Server, SharePoint, Lotus Domino, Oracle y otras.
  • Resolución de problemas
 ¿Qué opina sobre la deduplicación?

Formule preguntas, intercambie ideas y comparta sus opiniones en las comunidades en línea de NetApp.

Carlos Álvarez
Director Ejecutivo Ingeniero de Marketing Técnico
NetApp


Carlos trabaja con NetApp desde 2008, su especialidad es la eficiencia del almacenamiento con un conocimiento experto y profundo de la deduplicación, compresión de datos y thin provisioning. Normalmente, proporciona directrices para integrar las tecnologías de almacenamiento más adecuadas y efectivas de NetApp en las del cliente. Con más de 20 años de experiencia en el sector, se le ha pedido que realice diversas guías de implantación, white papers técnicos, arquitecturas de referencia, mejores prácticas y guías de soluciones.


Tech OnTap
Suscríbase ahora
Tech OnTap ofrece reportajes mensuales, acceso exclusivo a mejores prácticas, sugerencias y herramientas reales, entrevistas técnicas exclusivas, demostraciones, evaluaciones de expertos y muchas cosas más.

Visite Tech OnTap en la comunidad de NetApp y suscríbase hoy mismo.

En profundidad
En profundidad
Deduplicación en Tech OnTap
¿Quiere más información sobre la deduplicación? Puede que le interesen artículos anteriores de Tech OnTap:


Más conceptos básicos
El primer artículo de Conceptos básicos se centraba en thin provisioning de NetApp®. Vea el artículo para saber cómo se implanta, mejores prácticas y más.

En profundidad
 
TRUSTe
Póngase en contacto con nosotros   |   Cómo comprar   |   Comentarios   |   Empleo  |   Suscripciones   |   Política de privacidad   |   © 2011 NetApp