La deduplica dei dati è un processo che elimina le copie ridondanti dei dati e riduce significativamente i requisiti di capacità dello storage.
La deduplica può essere eseguita come processo inline man mano che i dati vengono scritti nel sistema storage e/o come processo in background per eliminare i duplicati dopo la scrittura dei dati su disco.
In NetApp, la deduplica è una tecnologia a perdita di dati zero che viene eseguita sia come processo inline che come processo in background per massimizzare i risparmi. Viene eseguita in modo opportunistico come processo inline in modo da non interferire con le operazioni del client e in background in maniera completa per massimizzare i risparmi. La deduplica è attivata per impostazione predefinita e il sistema la esegue automaticamente su tutti i volumi e gli aggregati senza intervento manuale.
L'overhead delle performance è minimo per le operazioni di deduplica, in quanto viene eseguito in un dominio di efficienza dedicato separato dal dominio di lettura/scrittura del client. Viene eseguito dietro le quinte, indipendentemente dall'applicazione in esecuzione o dal modo in cui si accede ai dati (NAS o SAN).
Il risparmio che si ottiene dalla deduplica viene mantenuto con lo spostamento dei dati, quando vengono replicati in un sito DR, quando ne viene eseguito il backup in un vault o quando si spostano tra sistemi on-premise, cloud ibrido e/o cloud pubblico.
La deduplica opera al livello di blocco 4 KB in un intero volume FlexVol® e in tutti i volumi dell'aggregato, eliminando così i blocchi di dati duplicati e archiviando solo quelli unici.
La principale tecnologia alla base della deduplica è quella delle fingerprint, firme digitali univoche per tutti i blocchi di dati 4 KB.
Quando i dati vengono scritti nel sistema, il motore di deduplica in linea analizza i blocchi in arrivo, crea una fingerprint e la archivia con metodo hash (ossia una struttura dati in memoria).
Dopo aver calcolato la fingerprint, viene effettuata una ricerca nell'archivio hash. Quando viene trovata una corrispondenza, il blocco di dati corrispondente alla fingerprint duplicata (blocco donatore) viene ricercato nella memoria cache:
Il motore di deduplica in background funziona allo stesso modo, analizzando i blocchi di dati nell'aggregato ed eliminando i duplicati tramite un confronto delle fingerprint dei blocchi e un confronto byte per byte in modo da eliminare tutti i falsi positivi. Questa procedura garantisce inoltre che non si verifichino perdite di dati durante la deduplica.
La deduplica NetApp® offre alcuni vantaggi significativi:
La deduplica è utile, a prescindere dal tipo di carico di lavoro. Il massimo beneficio è stato riscontrato negli ambienti virtuali in cui vengono utilizzate più macchine virtuali per le implementazioni di test/sviluppo e di applicazioni.
L'infrastruttura di desktop virtuale (VDI) è un altro ottimo candidato per la deduplica, perché i dati duplicati tra i desktop sono molto elevati.
Alcuni database relazionali come Oracle e SQL non traggono grande vantaggio dalla deduplica, poiché spesso dispongono di una chiave univoca per ogni record del database, che impedisce al motore di deduplica di identificarli come duplicati.
La deduplica viene abilitata automaticamente su tutti i nuovi volumi e aggregati nei sistemi AFF. In altri sistemi, la deduplica può essere abilitata per volume e/o per aggregato.
Una volta abilitata, il sistema esegue automaticamente operazioni inline e in background per massimizzare il risparmio.