La deduplicación de datos es un proceso que elimina las copias excesivas de los datos y reduce significativamente los requisitos de capacidad de almacenamiento.
La deduplicación se puede ejecutar como un proceso inline a medida que los datos se escriben en el sistema de almacenamiento y/o como un proceso en segundo plano para eliminar los duplicados después de escribir los datos en el disco.
En NetApp, la deduplicación es una tecnología de pérdida de datos cero que se ejecuta como un proceso inline y como un proceso en segundo plano para maximizar el ahorro. Se ejecuta de forma oportunista como un proceso inline para que no interfiera con las operaciones del cliente y se ejecuta de forma integral en segundo plano para maximizar el ahorro. La deduplicación está activada de forma predeterminada y el sistema la ejecuta automáticamente en todos los volúmenes y agregados sin intervención manual.
La sobrecarga de rendimiento es mínima para las operaciones de deduplicación, ya que se ejecuta en un dominio de eficiencia dedicado independiente del dominio de lectura/escritura del cliente. Se ejecuta entre bastidores, independientemente de la aplicación que se ejecute o de cómo se acceda a los datos (NAS o SAN).
El ahorro en deduplicación se mantiene a medida que los datos se mueven, cuando se replican en un sitio de recuperación ante desastres, cuando se realiza una copia de seguridad en un almacén o cuado se muenven on premises, en el cloud híbrido o en la nube pública
La deduplicación funciona a nivel de bloques de 4 KB en todo un volumen FlexVol® y entre todos los volúmenes agregados, eliminando bloques de datos duplicados y almacenando sólo bloques de datos únicos.
La tecnología básica de deduplicación es las huellas digitales: Firmas digitales únicas para todos los bloques de datos de 4 KB.
Cuando se escriben datos en el sistema, el motor de deduplicación en línea analiza los bloques entrantes, crea una huella dactilar y almacena la huella dactilar en un almacén hash (estructura de datos en memoria).
Después de calcular la huella digital, se realiza una búsqueda en el almacén hash. Tras una coincidencia de huella dactilar en el almacén hash, se busca en la memoria caché el bloque de datos correspondiente a la huella dactilar duplicada (bloque de donantes):
El motor de deduplicación en segundo plano funciona de la misma manera. Analiza todos los bloques de datos del agregado y elimina los duplicados comparando huellas digitales de los bloques y realizando una comparación byte a byte para eliminar los falsos positivos. Este procedimiento también garantiza que no se pierdan datos durante la operación de deduplicación.
Existen algunas ventajas importantes para la deduplicación de NetApp®:
La deduplicación es útil independientemente del tipo de carga de trabajo. La ventaja máxima se observa en entornos virtuales donde se utilizan varias máquinas virtuales para las implementaciones de pruebas/desarrollo y aplicaciones.
La infraestructura de puestos de trabajo virtuales (VDI) es otro muy buen candidato para la deduplicación, ya que los datos duplicados entre los puestos de trabajo son muy altos.
Algunas bases de datos relacionales, como Oracle y SQL , no se benefician en gran medida de la deduplicación, ya que a menudo tienen una clave única para cada registro de base de datos, lo que impide que el motor de deduplicación los identifique como duplicados.
La deduplicación se habilita automáticamente en todos los volúmenes y agregados nuevos de los sistemas AFF . En otros sistemas, la deduplicación se puede habilitar por volumen y/o por agregado.
Una vez habilitado, el sistema ejecuta automáticamente operaciones tanto en línea como en segundo plano para maximizar el ahorro.