Qué es la deduplicación de datos: significado de deduplicación

Temas

Compartir esta página

La deduplicación de datos es un proceso que elimina copias excesivas de datos y reduce significativamente los requisitos de capacidad de almacenamiento.

La deduplicación se puede ejecutar como un proceso inline mientras los datos se escriben en el sistema de almacenamiento o como un proceso en segundo plano para eliminar duplicados después de que los datos se escriben en el disco.

En NetApp, la deduplicación es una tecnología de cero pérdida de datos que se ejecuta como proceso inline y como proceso en segundo plano para maximizar el ahorro. Se ejecuta de modo oportunista como proceso inline para que no interfiera con las operaciones del cliente y de manera integral en segundo plano para maximizar el ahorro. La deduplicación está activada de forma predeterminada y el sistema la ejecuta automáticamente en todos los volúmenes y agregados sin ninguna intervención manual.

La sobrecarga de rendimiento es mínima en las operaciones de deduplicación, porque se ejecuta en un dominio de eficiencia dedicado que está separado del dominio de lectura/escritura del cliente. Se ejecuta entre bastidores, independientemente de qué aplicación se ejecute o de cómo se acceda a los datos (NAS o SAN).

Los ahorros de deduplicación se mantienen a medida que los datos se mueven: cuando los datos se replican en un sitio de recuperación de desastres, cuando se realiza una copia de seguridad en un almacén o cuando se mueven entre on-premises, la nube híbrida o la nube pública.

La deduplicación reduce la cantidad de almacenamiento físico necesario para un volumen al descartar bloques de datos duplicados.

¿Cómo funciona la deduplicación?

La deduplicación opera a nivel de bloque de 4 KB dentro de un volumen FlexVol® completo y entre todos los volúmenes del agregado, eliminando bloques de datos duplicados y almacenando solo bloques de datos únicos.

La tecnología base que permite la deduplicación son las huellas: firmas digitales únicas para todos los bloques de datos de 4 KB.

Cuando se escriben datos en el sistema, el motor de deduplicación inline escanea los bloques entrantes, crea una huella digital y la almacena en un almacén hash (estructura de datos en memoria).

Una vez calculada la huella digital, se realiza una búsqueda en el almacén de hash. Si las huellas coinciden en el almacén hash, se busca en la memoria caché el bloque de datos correspondiente a la huella duplicada (bloque donante).

Si se encuentra, se realiza una comparación byte a byte entre el bloque de datos actual (bloque receptor) y el bloque donante para verificar que se trata de una coincidencia exacta. Tras la verificación, el bloque receptor se comparte con el bloque donante coincidente sin escribir el bloque receptor en el disco. Solo se actualizan los metadatos para realizar un seguimiento de los detalles de la compartición.
Si el bloque donante no se encuentra en la memoria caché, este se transfiere del disco a la caché para llevar a cabo una comparación byte a byte y garantizar que se trata de una coincidencia exacta. Tras la verificación, el bloque receptor se marca como duplicado sin escribir en el disco. Se actualizan los metadatos para realizar un seguimiento de los detalles de la compartición.

El motor de deduplicación en segundo plano funciona de la misma manera. Escanea todos los bloques de datos en el agregado y elimina duplicados mediante una comparación byte a byte de las huellas de los bloques para eliminar cualquier falso positivo. Este procedimiento también garantiza que no hay pérdidas de datos durante la operación de deduplicación.

Ventajas de la deduplicación de NetApp

Estas son algunas de las ventajas significativas de la deduplicación de NetApp^®:

Opera en NetApp o almacenamiento de terceros principal, secundario y de archivos
Independiente de las aplicaciones
Independiente del protocolo
Mínima sobrecarga
Funciona en NetApp AFF, FAS
Validación byte a byte
Puede aplicarse sobre nuevos datos o datos almacenados previamente en volúmenes y LUN
Puede ejecutarse durante las horas de menor actividad
Se integra con otras tecnologías de eficiencia de almacenamiento de NetApp
Los ahorros que se originen gracias a la deduplicación se pueden heredar al utilizar la tecnología de replicación de NetApp SnapMirror^® o el almacenamiento en caché inteligente de Flash Cache^™
Es gratuita

Casos de uso de deduplicación

La deduplicación es útil independientemente del tipo de carga de trabajo. El máximo beneficio se observa en entornos virtuales donde se utilizan varias máquinas virtuales para pruebas, desarrollo y puesta en marcha de aplicaciones.

La infraestructura de puestos de trabajo virtuales (VDI) es otro buen candidato para la deduplicación, ya que la cantidad de datos duplicados en los escritorios es muy alta.

Algunas bases de datos relacionales, como Oracle y SQL, no se benefician mucho de la deduplicación porque a menudo tienen una clave única para cada registro de la base de datos, lo que evita que el motor de deduplicación los identifique como duplicados.

Configuración de la deduplicación

La deduplicación se activa automáticamente en todos los volúmenes y agregados nuevos de los sistemas AFF. En otros sistemas, la deduplicación puede activarse por volumen o agregado.

Una vez habilitada, el sistema ejecuta automáticamente las operaciones inline y en segundo plano para maximizar el ahorro.