Menu
cubi

cos'è la deduplica dei dati?

La deduplica dei dati è un processo che elimina le copie ridondanti dei dati e riduce significativamente i requisiti di capacità dello storage.

La deduplica può essere eseguita come processo inline man mano che i dati vengono scritti nel sistema storage e/o come processo in background per eliminare i duplicati dopo la scrittura dei dati su disco.

In NetApp, la deduplica è una tecnologia a perdita di dati zero che viene eseguita sia come processo inline che come processo in background per massimizzare i risparmi. Viene eseguita in modo opportunistico come processo inline in modo da non interferire con le operazioni del client e in background in maniera completa per massimizzare i risparmi. La deduplica è attivata per impostazione predefinita e il sistema la esegue automaticamente su tutti i volumi e gli aggregati senza intervento manuale.

L'overhead delle performance è minimo per le operazioni di deduplica, in quanto viene eseguito in un dominio di efficienza dedicato separato dal dominio di lettura/scrittura del client. Viene eseguito dietro le quinte, indipendentemente dall'applicazione in esecuzione o dal modo in cui si accede ai dati (NAS o SAN).

Il risparmio che si ottiene dalla deduplica viene mantenuto con lo spostamento dei dati, quando vengono replicati in un sito DR, quando ne viene eseguito il backup in un vault o quando si spostano tra sistemi on-premise, cloud ibrido e/o cloud pubblico.

Come funziona la deduplica?

La deduplica opera al livello di blocco 4 KB in un intero volume FlexVol® e in tutti i volumi dell'aggregato, eliminando così i blocchi di dati duplicati e archiviando solo quelli unici.

La principale tecnologia alla base della deduplica è quella delle fingerprint, firme digitali univoche per tutti i blocchi di dati 4 KB.

Quando i dati vengono scritti nel sistema, il motore di deduplica in linea analizza i blocchi in arrivo, crea una fingerprint e la archivia con metodo hash (ossia una struttura dati in memoria).

Dopo aver calcolato la fingerprint, viene effettuata una ricerca nell'archivio hash. Quando viene trovata una corrispondenza, il blocco di dati corrispondente alla fingerprint duplicata (blocco donatore) viene ricercato nella memoria cache:

  • Se viene trovato, viene effettuato un confronto byte per byte tra il blocco di dati corrente (blocco destinatario) e il blocco donatore, una verifica che serve per assicurare l'esatta corrispondenza. Alla verifica, il blocco destinatario viene condiviso con il blocco donatore corrispondente senza una scrittura effettiva del blocco destinatario sul disco. Vengono aggiornati solamente i metadati per tenere traccia dei dettagli di condivisione.
  • Se il blocco donatore non viene trovato nella memoria cache, viene recuperato con metodo prefetch dal disco nella cache in modo da effettuare un confronto byte per byte e assicurare la corrispondenza esatta. Alla verifica, il blocco destinatario viene contrassegnato come duplicato senza una scrittura effettiva sul disco. Vengono aggiornati i metadati per tenere traccia dei dettagli di condivisione.

Il motore di deduplica in background funziona allo stesso modo, analizzando i blocchi di dati nell'aggregato ed eliminando i duplicati tramite un confronto delle fingerprint dei blocchi e un confronto byte per byte in modo da eliminare tutti i falsi positivi. Questa procedura garantisce inoltre che non si verifichino perdite di dati durante la deduplica.

Vantaggi della deduplica NetApp

La deduplica NetApp® offre alcuni vantaggi significativi:

  • Utilizzo sullo storage primario, secondario e di archivio NetApp o di terze parti
  • Indipendenza dalle applicazioni
  • Indipendenza dal protocollo
  • Overhead minimo
  • Utilizzo su NetApp AFF, FAS
  • Convalida byte per byte
  • Applicazione possibile ai nuovi dati o ai dati già memorizzati in volumi e LUN
  • Esecuzione durante le ore di minor carico
  • Integrazione con le altre tecnologie per l'efficienza dello storage NetApp
  • Il risparmio generato dalla deduplica può essere ereditato con l'utilizzo della tecnologia di replica NetApp SnapMirror® o del caching intelligente Flash Cache
  • Gratuità

Casi d'utilizzo della deduplica

La deduplica è utile, a prescindere dal tipo di carico di lavoro. Il massimo beneficio è stato riscontrato negli ambienti virtuali in cui vengono utilizzate più macchine virtuali per le implementazioni di test/sviluppo e di applicazioni.

L'infrastruttura di desktop virtuale (VDI) è un altro ottimo candidato per la deduplica, perché i dati duplicati tra i desktop sono molto elevati.

Alcuni database relazionali come Oracle e SQL non traggono grande vantaggio dalla deduplica, poiché spesso dispongono di una chiave univoca per ogni record del database, che impedisce al motore di deduplica di identificarli come duplicati.

Configurazione della deduplica

La deduplica viene abilitata automaticamente su tutti i nuovi volumi e aggregati nei sistemi AFF. In altri sistemi, la deduplica può essere abilitata per volume e/o per aggregato.

Una volta abilitata, il sistema esegue automaticamente operazioni inline e in background per massimizzare il risparmio.

Drift chat loading