Menú

¿Qué es la deduplicación de datos?

cubos
Temas

La deduplicación de datos es un proceso que elimina las copias excesivas de los datos y reduce significativamente los requisitos de capacidad de almacenamiento.

La deduplicación se puede ejecutar como un proceso inline a medida que los datos se escriben en el sistema de almacenamiento y/o como un proceso en segundo plano para eliminar los duplicados después de escribir los datos en el disco.

En NetApp, la deduplicación es una tecnología de pérdida de datos cero que se ejecuta como un proceso inline y como un proceso en segundo plano para maximizar el ahorro. Se ejecuta de forma oportunista como un proceso inline para que no interfiera con las operaciones del cliente y se ejecuta de forma integral en segundo plano para maximizar el ahorro. La deduplicación está activada de forma predeterminada y el sistema la ejecuta automáticamente en todos los volúmenes y agregados sin intervención manual.

La sobrecarga de rendimiento es mínima para las operaciones de deduplicación, ya que se ejecuta en un dominio de eficiencia dedicado independiente del dominio de lectura/escritura del cliente. Se ejecuta entre bastidores, independientemente de la aplicación que se ejecute o de cómo se acceda a los datos (NAS o SAN).

El ahorro en deduplicación se mantiene a medida que los datos se mueven, cuando se replican en un sitio de recuperación ante desastres, cuando se realiza una copia de seguridad en un almacén o cuando se mueve entre las instalaciones, el cloud híbridoy/o el cloud público.

¿Cómo funciona la deduplicación?

La deduplicación funciona a nivel de bloques de 4 KB en todo un volumen FlexVol® y entre todos los volúmenes agregados, eliminando bloques de datos duplicados y almacenando sólo bloques de datos únicos.

La tecnología básica de deduplicación es las huellas digitales: Firmas digitales únicas para todos los bloques de datos de 4 KB.

Cuando se escriben datos en el sistema, el motor de deduplicación en línea analiza los bloques entrantes, crea una huella dactilar y almacena la huella dactilar en un almacén hash (estructura de datos en memoria).

Después de calcular la huella digital, se realiza una búsqueda en el almacén hash. Tras una coincidencia de huella dactilar en el almacén hash, se busca en la memoria caché el bloque de datos correspondiente a la huella dactilar duplicada (bloque de donantes):

  • Si se encuentra, se realiza una comparación byte a byte entre el bloque de datos actual (bloque de destinatarios) y el bloque de donantes como verificación para asegurarse de que coincide exactamente. En la verificación, el bloque de destinatarios se comparte con el bloque de donantes correspondiente sin una escritura real del bloque de destinatarios en el disco. Sólo se actualizan los metadatos para realizar un seguimiento de los detalles de uso compartido.
  • Si no se encuentra el bloque de donantes en la memoria caché, el bloque de donantes se recupera previamente del disco en la caché para realizar una comparación byte a byte para asegurarse de que coincide exactamente. En la verificación, el bloque de destinatarios se marca como duplicado sin una escritura real en el disco. Los metadatos se actualizan para realizar un seguimiento de los detalles de uso compartido.

El motor de deduplicación en segundo plano funciona de la misma manera. Analiza todos los bloques de datos del agregado y elimina los duplicados comparando huellas digitales de los bloques y realizando una comparación byte a byte para eliminar los falsos positivos. Este procedimiento también garantiza que no se pierdan datos durante la operación de deduplicación.

Ventajas de la deduplicación de NetApp

Existen algunas ventajas importantes para la deduplicación de NetApp®:

  • Funciona en almacenamiento primario, secundario y de archivado de NetApp o de terceros
  • Independiente de la aplicación
  • Independiente del protocolo
  • Sobrecarga mínima
  • Trabaja en AFF , FAS y de NetApp Sistemas de almacenamiento E-Series
  • Validación byte a byte
  • Se puede aplicar a datos nuevos o a datos anteriores Se almacena en volúmenes y LUN
  • Una carrera durante horas fuera de pico
  • Integrado con otras tecnologías de eficiencia del almacenamiento de NetApp
  • El ahorro debido a la deduplicación puede heredarse cuando se utiliza la tecnología de replicación SnapMirror® de NetApp o el almacenamiento en caché inteligente Flash Cache
  • Gratuito

Casos de uso de deduplicación

La deduplicación es útil independientemente del tipo de carga de trabajo. La ventaja máxima se observa en entornos virtuales donde se utilizan varias máquinas virtuales para las implementaciones de pruebas/desarrollo y aplicaciones.

La infraestructura de puestos de trabajo virtuales (VDI) es otro muy buen candidato para la deduplicación, ya que los datos duplicados entre los puestos de trabajo son muy altos.

Algunas bases de datos relacionales, como Oracle y SQL , no se benefician en gran medida de la deduplicación, ya que a menudo tienen una clave única para cada registro de base de datos, lo que impide que el motor de deduplicación los identifique como duplicados.

Configuración de la deduplicación

La deduplicación se habilita automáticamente en todos los volúmenes y agregados nuevos de los sistemas AFF . En otros sistemas, la deduplicación se puede habilitar por volumen y/o por agregado.

Una vez habilitado, el sistema ejecuta automáticamente operaciones tanto en línea como en segundo plano para maximizar el ahorro.