Conceptos básicos: deduplicación Este mes, Tech OnTap ofrece la segunda entrega de Conceptos básicos, una serie de artículos que hablan de los conceptos básicos de las conocidas tecnologías de NetApp para ayudarle a comprenderlas y a empezar a utilizarlas. En 2007, NetApp presentó la tecnología de la deduplicación, que reduce significativamente los requisitos de capacidad de almacenamiento. Al identificar bloques de centros de datos idénticos y sustituirlos por referencias a un único bloque compartido después de hacer una comprobación a nivel del byte, la deduplicación de NetApp mejora la eficiencia. Esta técnica reduce los requisitos de capacidad de almacenamiento al eliminar los bloques de datos redundantes que se encuentran en un mismo volumen o unidad lógica. La deduplicación de NetApp es una parte integral del entorno operativo Data ONTAP® y el sistema de archivos WAFL® , que gestiona todos los datos de los sistemas de almacenamiento NetApp. La deduplicación funciona «entre bastidores», sin importar qué aplicaciones ejecute o cómo accede a sus datos, y su carga es baja. Una pregunta frecuente es «¿cuánto espacio puede ahorrar?». Regresaremos a este punto más adelante pero, a grandes rasgos, depende del conjunto de datos y de la cantidad de duplicación que contengan. A modo de ejemplo, la empresa Polysus, con sede en Atlanta y que diseña y mejora plantas de cemento nuevas o ya existentes, muestra el valor de la deduplicación de NetApp en un entorno mixto con datos de negocio e ingeniería. Polysius ha observado un crecimiento anual de hasta un 30% en sus requisitos de almacenamiento de producción. Al deduplicar el conjunto de archivos de AutoCAD, documentos de Microsoft® Office y otros datos sin estructura, Polysius ha sido capaz de recuperar el 47% de su espacio de almacenamiento. Algunos volúmenes mostraron reducciones de hasta un 70%. Como resultado, la empresa ha sido capaz de aplazar las nuevas adquisiciones de almacenamiento y ha conseguido doblar el periodo de tiempo durante el cual mantiene los datos de backup en disco. Si quiere más información, lea el caso práctico de Polysius. La deduplicación de NetApp tiene ventajas significativas:
Este capítulo de Conceptos básicos explora cómo se implanta la deduplicación de NetApp, los casos de uso más comunes y prácticas para poner en marcha la deduplicación, entre otros. Cómo se implanta la deduplicación en Data ONTAP En realidad, la deduplicación de NetApp se basa en la reputada técnica informática de recuento de referencias. Anteriormente, Data ONTAP se limitaba a hacer seguimiento si un bloque estaba libre o en uso, con la deduplicación, también se registra el número de usos que hay y puede hacerse referencia a un mismo bloque hasta 255 veces tanto por configuraciones NAS como SAS. Los archivos no «saben» que utilizan bloques compartidos, la contabilidad de WAFL lo hace todo de forma invisible. Figura 1) Cómo funciona la deduplicación de NetApp ¿Cómo decide Data ONTAP que dos bloques pueden compartirse? Por cada bloque registra una «huella», que es un resumen de los datos del bloque. Dos bloques con una misma huella son candidatos para compartir. Al habilitar la deduplicación de NetApp, se genera una base de datos de huellas de los bloques en uso de un volumen (proceso conocido como «recopilación»). Una vez ha finalizada la configuración inicial, los datos están listos para la deduplicación. Para evitar ralentizar las operaciones habituales, la búsqueda de duplicados es un proceso de lote independiente. A medida que se escriben los datos durante su uso normal, WAFL crea un catálogo de huellas de los mismos. Este catálogo se acumula hasta que alguno de los siguientes casos inicia la deduplicación, según determine el administrador del sistema de almacenamiento:
Una vez iniciado el proceso de deduplicación, se inicia una operación de clasificación, utilizando las huellas de los bloques cambiados como clave. Esta lista clasificada se une con el archivo de base de datos de huellas. Cada vez que aparezca la misma huella en ambas listas, hay bloques posiblemente idénticos que pueden unirse en uno. En este caso, Data ONTAP puede descartar uno de los bloques y sustituirlo con una referencia al otro bloque. Como el sistema de archivos está en constante cambio, solo se puede realizar este paso si ambos bloques todavía están en uso y contienen los mismos datos. Para garantizar que dos bloques sean realmente idénticos, se realiza una comparación byte por byte una vez que se han identificado. La implantación de la deduplicación de NetApp se aprovecha de algunas de las funciones especiales de WAFL para minimizar el coste de la deduplicación. Por ejemplo, cada bloque de datos en disco se protege con una suma de verificación. NetApp utiliza esta suma como base de la huella. Como de todas formas, se van a informatizar, lo conseguimos «gratis», no hay ninguna carga adicional en el sistema. Y como WAFL nunca sobrescribe un bloque de datos que se esté utilizando, las huellas siguen siendo válidas hasta que se libera el bloque. Una estrecha integración de la deduplicación de NetApp con WAFL también significa que el registro de cambios es una operación eficiente. El resultado final es que la deduplicación puede utilizarse con una amplia gama de cargas de trabajo, no solo para backups, como era el caso en otras implantaciones de deduplicación. Modo de uso Desde que se introdujo la deduplicación, NetApp ha medido, de manera continuada, los beneficios de la misma en entornos reales. Los casos de uso más populares son VMware® y VDI, datos de directorio domésticos y servicios de archivos. Microsoft SharePoint® y Exchange 2010 cogen impulso rápidamente. Muchos artículos de Tech OnTap se centran en unas ventajas concretas de la deduplicación en entornos VMware y VDI, que cuentan con un alto nivel inherente de deduplicación de archivos por los entornos de sistema operativo casi idénticos utilizados en cada equipo virtual. La tabla siguiente resume los resultados típicos de una gran variedad de entornos. Tabla 1) Ahorro de espacio por deduplicación típico
En un entorno de VMware o VDI típico puede tener numerosos equipos virtuales (VMs) instalados con, más o menos, el mismo sistema operativo y las mismas aplicaciones, lo que resulta en una gran cantidad de deduplicación. Si cuenta con 100 equipos virtuales con un mismo SO y cada máquina virtual requiere de 10 a 20 GB de almacenamiento, esto supone de 1 a 2 TB de almacenamiento dedicado a copias prácticamente idénticas. La deduplicación de NetApp permite eliminar esta redundancia. En términos generales, si dispone de X equipos virtuales asignados a un volumen de almacenamiento, tras la deduplicación necesitará aproximadamente 1/X de la cantidad de almacenamiento de sistema operativo del que necesitaría en un entorno sin deduplicar. Obviamente, los resultados reales que puede conseguir dependerán de cuántos equipos virtuales tenga en un volumen y de qué similitudes tengan. En la práctica, los clientes pueden observar un ahorro mínimo de espacio del 50% en entornos ESX VI3 y algunos pueden conseguir un ahorro de almacenamiento de hasta un 90%. Esto es el resultado de la deduplicación de todo el entorno de almacenamiento de VMware, incluyendo los datos de aplicaciones, no solo los sistemas operativos. En entornos VDI, los clientes normalmente observan un ahorro en espacio de hasta un 90%. NetApp también ha estudiado las ventajas de la deduplicación en almacenes de datos de archivos sin estructura creados por algunas aplicaciones científicas y de ingeniería populares que incluyen el software Siemens Teamcenter PLM, Rational ClearCase SCM de IBM y Schlumberger Petrel para el análisis de datos sísmicos. Teamcenter utiliza una base de metadatos relativamente pequeña combinada con un gran «almacén», donde se guardan los archivos de diseño de ingeniería. Cada vez que un ingeniero guarde un diseño con Teamcenter, se guarda una copia completa en el almacen, incluso si el cambio es pequeño. NetApp ha trabajado estrechamente con Siemens PLM para evaluar el valor de la deduplicación en un entorno Teamcenter utilizando la herramienta de referencia de escalabilidad y rendimiento de Siemens que simula la creación de diferentes revisiones de muchos archivos de diseño, tal y como podría ocurrir durante un uso normal. La deduplicación del almacen resultante supuso un ahorro de espacio del 57%. Los resultados en el mundo real pueden ser incluso mayores ya que en muchos casos el número de revisiones de archivos tenderá a ser superior al de la simulación. (Por lo general, deberá tener cuidado al utilizar simuladores para medir el ahorro potencial de la deduplicación. Los datos simulados, en muchos casos, crearán, de manera artificial, una cantidad alta de datos deduplicados, ya que el principal interés normalmente es el rendimiento, no las pautas de datos). De forma similar a Teamcenter, Rational ClearCase de IBM, una solución de gestión de configuración de software líder que consiste en una base de metadatos combinada con una «base de objetos versionados» o VOB, en los que se almacenan los archivos. La deduplicación es más útil con ClearCase en situaciones en las que debe hacerse una copia de un VOB. Además, los resultados preliminares en un entorno de laboratorio sugieren un ahorro en espacio mínimo del 40% con la deduplicación en un entorno ClearCase cuando se almacenan archivos completos. Se utiliza Schlumberger Petrel para la interpretación de datos sísmicos, visualización de reservas y simulación de flujos. Crea directorios de proyecto que contienen grandes cantidades de archivos. A medida que los usuarios crean, distribuyen y archivan datos, se almacenan objetos de datos duplicados en los diversos servicios de almacenamiento. Con la deduplicación de estos directorios, NetApp ha observado un ahorro en espacio aproximado del 48%. Uso de la deduplicación de NetApp En la tabla 2 se resumen los requisitos básicos para ejecutar la deduplicación de NetApp. Tabla 2) Requisitos básicos para la deduplicación de NetApp.
Además de estos requisitos, prestar atención a algunas mejores prácticas puede ayudar a conseguir el éxito con la deduplicación. Algunas de las mejores prácticas más importantes se resumen en esta sección junto con información sobre el uso de la deduplicación junto con otras tecnologías populares de NetApp. Para obtener toda la información, consulte TR-3505: Guía de puesta en marcha e implantación de la deduplicación de NetApp.
Deduplicación y otras tecnologías de NetApp La deduplicación ha sido diseñada para trabajar con otras tecnologías de NetApp. En muchos casos, dichas tecnologías obtienen una ventaja adicional:
Conclusión La deduplicación es una importante herramienta de eficiencia del almacenamiento que puede utilizarse de forma independiente o en combinación con otras soluciones de eficiencia del almacenamiento como thin provisioning de NetApp, FlexClone y otros. Para obtener más información sobre la deduplicación, consulte TR-3505: Guía de puesta en marcha e implantación de la deduplicación de NetApp para FAS y V-Series. Esta guía actualizada frecuentemente abarca una amplia gama de temas que incluyen:
¿Qué opina sobre la deduplicación?Formule preguntas, intercambie ideas y comparta sus opiniones en las comunidades en línea de NetApp. Tech OnTap Visite Tech OnTap en la comunidad de NetApp y suscríbase hoy mismo. | | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
![]() | ![]() |
| Póngase en contacto con nosotros | Cómo comprar | Comentarios | Empleo | Suscripciones | Política de privacidad | © 2011 NetApp |