NetApp Tech OnTap NetApp Logo
NetApp Tech OnTap
     
Back to Basics: Deduplizierung

Diesen Monat präsentiert Tech OnTap Ihnen die zweite Folge von Back to Basics. Bei Back to Basics handelt es sich um eine Artikelserie, welche die Grundlagen für beliebte NetApp Technologien beschreibt, um Ihnen dabei zu helfen, sie zu verstehen und einzusetzen.

2007 führte NetApp die Deduplizierungstechnologie ein, wodurch Kapazitätsanforderungen an Storage deutlich verringert wurden. NetApp Deduplizierung erhöht die Effizienz, indem identische Datenblöcke identifiziert und mit Referenzen zu einem einzelnen, gemeinsam genutzten Block ersetzt werden, nachdem eine Validierungsüberprüfung auf Byte-Ebene durchgeführt wurde. Diese Technik reduziert Storage-Kapazitätsanforderungen, indem redundante Datenblöcke eliminiert werden, die sich auf demselben Volume oder LUN befinden.

NetApp Deduplizierung ist ein fester Bestandteil der NetApp Data ONTAP Betriebsumgebung und des WAFL Filesystems, das alle Daten auf NetApp Storage-Systemen managt. Deduplizierung arbeitet mit niedrigem Overhead „hinter den Kulissen“, unabhängig von den laufenden Applikationen oder der Zugriffsart auf die Daten.

Eine oft gestellte Frage lautet: „Wie viel Platz kann man einsparen?“ Wir werden später detaillierter auf diese Frage eingehen, jedoch hängt es im Allgemeinen vom Datensatz und der Menge der enthaltenen Duplikate ab. Der Wert von NetApp Deduplizierung in einer gemischten Umgebung mit Geschäfts- wie auch Engineering-Daten lässt sich am Beispiel der in Atlanta ansässigen Polysius Corporation aufzeigen, die Zementwerke verbessert und neu entwirft.

Die jährliche Zunahme an Produktions-Storage betrug bei Polysius bis zu 30 %. Durch die Anwendung von Deduplizierung auf die Mischung aus AutoCAD Dateien, Microsoft Office Dokumenten und anderen unstrukturierten Daten konnte Polysius 47 % des Speicherplatzes zurückgewinnen. Einige Volumes zeigten eine Belegungsreduzierung um bis zu 70 %. Das Unternehmen war dadurch in der Lage, die Anschaffung von neuem Storage zurückzustellen und den Zeitraum für die Aufbewahrung von Daten-Backups auf Festplatten zu verdoppeln. Mehr Informationen erhalten Sie in der Polysius Kundenreferenz.

Signifikante Vorteile der NetApp Deduplizierung:

  • kann auf Primär-, Sekundär- und Archiv-Storage von NetApp oder anderen Anbietern eingesetzt werden
  • unabhängig von laufenden Applikationen
  • unabhängig von eingesetzten Protokollen
  • minimaler Overhead
  • läuft auf NetApp FAS oder V-Series Storage-Systemen
  • Byte-weise Validierung
  • kann auf neue Daten oder zuvor auf Volumes und LUNs gespeicherte Daten angewendet werden
  • kann in Zeiten geringerer Auslastung laufen
  • integriert in anderen NetApp Technologien zur Storage-Effizienz
  • Einsparungen durch Deduplizierung setzen sich durch den Einsatz von SnapMirror oder Flash Cache fort
  • einfache Evaluierungs-Tools
  • kostenlos

Dieser Beitrag von Back to Basics erläutert, wie Sie NetApp Deduplizierung implementieren. Es stellt die gängigsten Anwendungsfälle vor und liefert Beispiele für die Implementierung.

Implementierung von Deduplizierung in Data ONTAP

Im Kern basiert NetApp Deduplizierung auf Referenzzählung, einer herkömmlichen Technik der Informatik. Vorher wurde in Data ONTAP nur festgehalten, ob ein Block frei oder in Benutzung ist. Mit Deduplizierung wird darüber hinaus auch die Anzahl der Nutzungen registriert. Bei Deduplizierung kann auf einen einzelnen Block bei NAS- und auch bei SAN-Konfigurationen bis zu 255 Mal referenziert werden. Dateien „wissen“ nicht, dass sie gemeinsam genutzte Blöcke verwenden. Die Einzelheiten werden innerhalb von WAFL unsichtbar organisiert.

Abbildung 1) Funktionsweise von NetApp Deduplizierung

Wie kommt Data ONTAP zu der Entscheidung, dass zwei Blöcke gemeinsam genutzt werden können? Die Antwort besteht darin, dass es einen „Fingerabdruck“ berechnet, den Hash der Blockdaten. Haben zwei Blöcke denselben Fingerabdruck, sind sie Kandidaten für eine gemeinsame Nutzung.

Wenn NetApp Deduplizierung aktiviert ist, wird eine Datenbank von Fingerabdrücken aller verwendeten Blöcke des Volumes errechnet (in einem Prozess, der „Gathering“ genannt wird). Nach diesem anfänglichen Einrichtungsvorgang sind die Daten bereit zur Deduplizierung.

Um zu vermeiden, dass die alltäglichen Vorgänge beeinträchtigt werden, wird die Suche nach Duplikaten als separater Batch-Prozess ausgeführt. Wenn Daten im normalen Betrieb geschrieben werden, legt WAFL für diese direkt bei ihrer Verwendung einen Fingerabdruckkatalog an. Dieser Katalog wächst an, bis die Deduplizierung von einem der folgenden Ereignisse, die vom Systemadministrator festgelegt werden, ausgelöst wird:

  • Die Deduplizierung wird manuell über einen Startbefehl gestartet.
  • Ein geplanter Deduplizierungsprozess wird gestartet.
  • 20 % neue Daten wurden auf das Volume geschrieben.
  • Ein SnapVault Transfer wurde abgeschlossen.

Sobald der Deduplizierungsprozess gestartet wurde, beginnt ein Sortiervorgang, welcher die Fingerabdrücke der geänderten Blöcke als Schlüssel verwendet. Diese sortierte Liste wird mit der Datenbankdatei der Fingerabdrücke zusammengeführt. Wenn ein Fingerabdruck in beiden Listen erscheint, handelt es sich möglicherweise um identische Blöcke, die zu einem Block zusammengelegt werden können. In diesem Fall verwirft Data ONTAP einen der Blöcke und ersetzt ihn durch eine Referenz auf den anderen Block. Da sich das Filesystem ständig ändert, kann dieser Schritt natürlich nur durchgeführt werden, wenn beide Blöcke tatsächlich noch in Benutzung sind und dieselben Daten enthalten. Um sicherzustellen, dass zwei Blöcke tatsächlich identisch sind, wird ein Vergleich Byte-weise durchgeführt, nachdem Blockkandidaten identifiziert wurden.

Die Implementierung von NetApp Deduplizierung macht sich einige der besonderen Funktionen von WAFL zunutze, um die Kosten der Deduplizierung zu minimieren. Jeder Datenblock auf der Festplatte ist beispielsweise durch eine Prüfsumme geschützt.

NetApp verwendet diese Prüfsumme als Basis für den Fingerabdruck. Die Prüfsumme hätte in jedem Fall berechnet werden müssen, doch erhalten wir sie auf diese Weise „kostenlos“: Das System wird dadurch nicht zusätzlich belastet. Und da WAFL niemals einen Datenblock überschreibt, der in Benutzung ist, bleiben Fingerabdrücke gültig, bis ein Block freigegeben wird. Die nahtlose Integration von NetApp Deduplizierung in WAFL bedeutet darüber hinaus, dass das Anlegen von Änderungsprotokollen effizient ist. Das Ergebnis ist, dass Deduplizierung bei vielen verschiedenen Workloads verwendet werden kann und nicht nur bei Backups, wie dies bei anderen Deduplizierungslösungen der Fall ist.

Nutzung

NetApp hat die Vorteile der Deduplizierung in der Praxis verfolgt, seit sie eingeführt wurde. Die beliebtesten Anwendungsgebiete sind VMware und VDI, Home Directory-Daten und File Services. Microsoft SharePoint und Exchange 2010 gewinnen außerdem schnell an Bedeutung.

Viele Tech OnTap Artikel haben die besonderen Vorteile von Deduplizierung in VMware und VDI-Umgebungen behandelt. Dort besteht von Natur aus ein hoher Grad an Dateiduplikaten, da von jeder Virtual Machine nahezu identische Betriebssystemumgebungen verwendet werden. Die folgende Tabelle fasst typische Ergebnisse verschiedener Umgebungen zusammen.

Tabelle 1) Typische Platzeinsparungen durch Deduplizierung

Datensatz-Typ Applikationstyp Nur Deduplizierung

File Services/IT-Infrastruktur

30 %

Virtuelle Server und Desktops

70 %

Datenbank

Oracle OLTP

0 %

Oracle DW

15 %

SQL Server

20 %

E-Mail, gesamt

Exchange 2003/2007

3 %

Exchange 2010

15 %

Engineering-Daten

30 %

Geoseismik

3 %

Archivdaten

25 %

Backup-Daten

95 %


In einer normalen VMware oder VDI-Umgebung sind möglicherweise zahlreiche Virtual Machines (VMs) enthalten, die mehr oder weniger mit denselben Betriebssystemen und Applikationen installiert wurden, was zu einer Menge Duplikaten führt.

Bei 100 VMs mit demselben BS und der Anforderung von 10 GB bis 20 GB Storage kommt man auf 1 TB bis 2 TB Storage, der durch fast identische Kopien belegt wird. Der Einsatz von NetApp Deduplizierung kann eine Menge der begleitenden Redundanz eliminieren.

Allgemein gesagt benötigt man für X Virtual Machines in einem Storage Volume nach der Deduplizierung ungefähr 1/X Betriebssystem-Storage im Vergleich mit einer nicht deduplizierten Umgebung. Offensichtlich hängen die tatsächlichen Ergebnisse, die Sie erhalten, davon ab, wie viele VMs Sie auf einem Volume anlegen und wie sehr diese sich ähneln.

In der Praxis erhalten Kunden typischerweise eine Platzeinsparung von 50 % oder mehr in ESX VI3-Umgebungen. Bei einigen werden sogar Storage-Einsparungen von bis zu 90 % realisiert. Das gilt für die Deduplizierung der gesamten VMware Storage-Umgebung einschließlich der Applikationsdaten – nicht nur der Betriebssysteme. In VDI-Umgebungen erreichen Kunden typischerweise Platzeinsparungen von bis zu 90 %.

NetApp hat darüber hinaus den Nutzen von Deduplizierung von Repositorys unstrukturierter Daten untersucht, die von beliebten Engineering- und wissenschaftlichen Applikationen wie zum Beispiel Siemens Teamcenter PLM Software, IBM Rational ClearCase SCM Software und Schlumberger Petrel Software zur Analyse seismischer Daten angelegt werden.

Teamcenter verwendet eine relativ kleine Datenbank mit Metadaten, die mit einem großen „Archiv“ kombiniert wird, in dem Engineering Design-Dateien gespeichert werden. Sobald ein Ingenieur ein Design innerhalb von Teamcenter speichert, wird eine komplette Kopie dieser Design-Datei im Archiv abgelegt, auch wenn die Änderungen am Design nur minimal sind.

NetApp hat eng mit Siemens PLM zusammengearbeitet, um den Wert von Deduplizierung in einer Teamcenter Umgebung mit einem von Siemens entwickelten Tool zum Leistungsvergleich der Performance und der Skalierbarkeit zu beurteilen. Dieses Tool simuliert die Erstellung von mehreren Revisionen vieler Design-Dateien, wie es auch im normalen Betrieb vorkommt. Die Deduplizierung des resultierenden Archivs ergab eine Platzeinsparung von 57 %. Das Ergebnis kann in der Praxis sogar noch höher liegen, da in vielen Fällen die Anzahl der Dateirevisionen wahrscheinlich höher liegt als bei unserer Simulation. (Natürlich muss man beim Einsatz von Simulatoren zum Messen der möglichen Einsparung durch Deduplizierung immer vorsichtig sein. Simulierte Daten erzeugen in vielen Fällen künstlich einen hohen Anteil von Datenduplikaten, da das Hauptaugenmerk auf Performance und nicht auf Datenmustern liegt.)

Ähnlich wie Teamcenter besteht auch IBM Rational ClearCase, eine führende Lösung im Software-Konfigurationsmanagement, aus einer Datenbank mit Metadaten in Kombination mit einer großen „Versioned Object Base“ (VOB), in der die Dateien gespeichert werden. Deduplizierung ist bei ClearCase besonders für Situationen geeignet, in denen eine Kopie einer VOB angelegt werden muss. Des Weiteren führen erste Ergebnisse in einer Laborumgebung zu einer geschätzten Platzeinsparung von über 40 %, wenn Deduplizierung in einer ClearCase Umgebung eingesetzt wird, in der komplette Dateien gespeichert werden.

Schlumberger Petrel wird bei der Interpretation von seismischen Daten, bei der Reservoirvisualisierung und bei Workflow-Simulationen eingesetzt. Es werden Projektverzeichnisse angelegt, die eine riesige Anzahl von Dateien enthalten. Durch die Erstellung, Verteilung und Archivierung von Daten durch Benutzer werden doppelte Datenobjekte über mehrere Speichergeräte verteilt gespeichert. Bei der Deduplizierung solcher Projektverzeichnisse hat NetApp Platzeinsparungen von ungefähr 48 % beobachtet.

Verwendung von NetApp Deduplizierung

Die Grundvoraussetzungen für den Einsatz von NetApp Deduplizierung sind in Tabelle 2 zusammengefasst.

Tabelle 2) Grundvoraussetzungen für NetApp Deduplizierung

Anforderung Deduplizierung

Hardware

NearStore R200
FAS2000 Serie
FAS3000 Serie
FAS3100 Serie
FAS3200 Serie
FAS6000 Serie
FAS6200 Serie
IBM N5000 Serie
IBM N7000 Serie
Hinweis: Ab Data ONTAP 7.3 werden auch zu den oben aufgeführten NetApp FAS Systemen und IBM N Gateway-Systemen passende Systeme der V-Serie unterstützt.

Niedrigste erforderliche Data ONTAP Version

Data ONTAP 7.2.5.1
(7-Mode nur bei 8.0.X)

Erforderliche Lizenzen

A-SIS
NearStore Lizenz (benötigt für Data ONTAP Versionen vor 8.0)

Unterstützter Volume-Typ

Nur FlexVol, keine herkömmlichen Volumes

Maximale Volume-Größe

Bei Data ONTAP 8.0.1 liegt die Grenze für Deduplizierung bei allen Plattformen bei 16 TB. Die „Maximum Flexible Volume Size“ früherer Versionen von Data ONTAP hängt vom NetApp Modell ab und ist in TR-3505 enthalten.

Unterstützte Protokolle

Alle


Über diese Anforderungen hinaus kann das Lesen einiger Best Practices den erfolgreichen Einsatz von Deduplizierung unterstützen. Einige der wichtigsten Best Practices sind in diesem Abschnitt mit Informationen über den Einsatz von Deduplizierung in Verbindung mit anderen beliebten NetApp Technologien zusammengefasst. Alle Details erhalten Sie in TR-3505 – Deduplication Deployment and Implementation Guide.

  • Vor der Implementierung sollten Sie die Auswirkungen auf die Performance sowie die Größenanforderung in einer Testumgebung abschätzen, insbesondere wenn Applikationen zum Einsatz kommen, die noch nicht wie die in Tabelle 1 aufgeführten von NetApp getestet wurden.
  • Die Deduplizierung belegt Systemressourcen und kann das Datenlayout auf der Festplatte verändern. Aufgrund des I/O-Musters der Applikation und der Auswirkung der Deduplizierung auf das Datenlayout kann sich die I/O-Performance beim Lesen und Schreiben von Daten ändern. Die Platzeinsparungen und die Performance-Beeinflussung hängen von der Applikation und den Dateninhalten ab.
  • Wenn Ihre Applikation nur kleine Mengen neuer Daten erzeugt, lassen Sie die Deduplizierung bei Bedarf laufen, da ein regelmäßiger Einsatz in einem solchen Fall nur wenig Nutzen bringt. In welchen zeitlichen Abständen Sie eine Deduplizierung ausführen sollten, hängt davon ab, wie oft sich die Daten auf dem flexiblen Volume ändern.
  • Je mehr gleichzeitige Deduplizierungs-Scanprozesse Sie laufen lassen, desto mehr Systemressourcen werden belegt. Daher empfehlen wir eine der folgenden Methoden einzusetzen:
    • Staffeln Sie den Deduplizierungsplan für flexible Volumes, sodass die Deduplizierungsprozesse an verschiedenen Tagen laufen, wodurch Sie verhindern, dass zu viele Prozesse gleichzeitig aktiv sind.
    • Verwenden Sie den Automodus, sodass die Deduplizierung nur gestartet wird, wenn eine bestimmte Menge zusätzliche Daten auf jedes flexible Volume geschrieben wurde. (Dies führt in kleineren Umgebungen fast automatisch zu einer gestaffelten Durchführung der Deduplizierung.)
    • Starten Sie die Deduplizierung manuell.
    • Führen Sie die Deduplizierung nachts durch, um die Menge der neuen zu deduplizierenden Daten zu minimieren und so die Laufzeit zu verkürzen.
  • Wenn eine Snapshot Kopie erstellt wird, bevor der Deduplizierungsprozess abgeschlossen ist, sind die Platzeinsparungen wahrscheinlich kleiner. Führen Sie, falls möglich, den Deduplizierungsprozess aus, bevor Sie Snapshot Kopien erstellen, und vergewissern Sie sich vor der Erstellung von Snapshot Kopien, dass der Deduplizierungsprozess abgeschlossen ist.
  • Für einen reibungslosen Ablauf der Deduplizierung benötigen Sie freien Speicherplatz für die Deduplizierungs-Metadaten. Bei Data ONTAP Versionen vor 7.3 sollte der freie Speicherplatz jedes flexiblen Volumes 6 % der insgesamt gespeicherten Daten betragen. Bei Data ONTAP Version 7.3 oder neuer sollte der freie Speicherplatz des Aggregats 4 % (Fingerabdruck und Änderungsprotokolle) der insgesamt gespeicherten Daten aller zu deduplizierenden flexiblen Volumes betragen. Der freie Speicherplatz jedes einzelnen flexiblen Volumes sollte 2 % der dort gespeicherten Daten betragen. Eine detailliertere Beschreibung finden Sie in TR-3505, Abschnitt 5.3.3.

Deduplizierung und andere NetApp Technologien

Die Deduplizierung wurde für den Einsatz mit anderen NetApp Technologien entwickelt. In vielen Fällen wird diesen Technologien ein zusätzlicher Nutzen verliehen:

  • Flash Cache: Flash Cache bietet intelligente Cache-Speicherung, die I/O-Operationen beschleunigt. NetApp Deduplizierung erhöht die Wahrscheinlichkeit eines Cache-Treffers. Wenn sich ein deduplizierter Datenblock im Flash Cache befindet, ist die Wahrscheinlichkeit, dass er erneut angefordert wird, sehr viel höher. Dieser Effekt wird als Cache-Optimierung bezeichnet und ist besonders bei Server- und Desktop-Virtualisierung von Vorteil.
  • Volume SnapMirror: Wenn Sie ein dedupliziertes Volumen mit Volume SnapMirror replizieren, überträgt sich der deduplizierte Status automatisch vom Quell-Volume auf das Ziel-Volume. Die Auswirkungen dieses Effekts auf VMware wurden in einem früheren Artikel beschrieben. Die Interaktion von Deduplizierung mit allen Formen von SnapMirror und SnapVault wurde ebenso in einem früheren Artikel beschrieben.
  • FlexClone: Unsere FlexClone Technologie repliziert in Sekundenschnelle Daten-Volumes und Datensätze als transparente, virtuelle Kopien. Folgendes passiert, wenn ein FlexClone Volume erstellt wird:
    • Wenn beim übergeordneten FlexClone Volume Deduplizierung aktiviert ist, übertragen sich die Einsparungen auf das neue Volume.
    • Das geklonte Volume übernimmt die Deduplizierungskonfiguration des übergeordneten Volumes, beispielsweise den Deduplizierungsplan.
    • Seit Data ONTAP 7.3 werden die Deduplizierungs-Metadatendateien (die Fingerabdruck-Datenbank und die Änderungsprotokolle) nicht geklont, da sie sich außerhalb des Volumes im Aggregat befinden. Damit die vollständige Deduplizierung auf dem geklonten Volume fortgesetzt wird, muss sie dort aktiviert werden.
  • Komprimierung: Die NetApp Datenkomprimierung, die mit Data ONTAP 8.0.1 eingeführt wurde, ergänzt die Deduplizierung hervorragend. Potenzielle Einsparungen und Anwendungsfälle waren Thema eines früheren Tech OnTap Artikels.
  • Thin Provisioning: Deduplizierung funktioniert auch in Verbindung mit NetApp Thin Provisioning und maximiert die Platzeinsparungen. Bei NAS-Volumes ist die Konfiguration unkompliziert. Bei LUNs können Sie mit den unten aufgeführten Einstellungen eine maximale Platzeinsparung erzielen. (Sämtliche Details finden Sie in TR-3505, Abschnitt 6.4.18.)
    • LUN-Platzreservierungswert = aus
    • Fraktionaler Volume-Reserve-Wert = jeder Wert von 0–100
    • Volume-Garantie = keine
    • Snap-Reserve = 0 %
    • Autolöschen = ein
    • Autogröße = ein
    • Erster_Versuch = Volume_Wachstum

Schlussfolgerung

Deduplizierung ist ein wichtiges Storage-Effizienz-Tool, das einzeln oder gemeinsam mit anderen Storage-Effizienz-Lösungen wie NetApp Thin Provisioning, FlexClone und anderen verwendet werden kann. Um mehr über Deduplizierung zu erfahren, lesen Sie TR-3505: NetApp Deduplication for FAS and V-Series Deployment and Implementation Guide. Dieser regelmäßig aktualisierte Leitfaden behandelt ein breit gefächertes Angebot an Themen, einschließlich:

  • Konfiguration und Betrieb
  • Größenbestimmung für Performance und Platzeffizienz
  • Einsatz mit anderen NetApp Technologien
  • Best Practices, einschließlich der Best Practices für den Einsatz mit bestimmten Applikationen wie VMware, Microsoft Exchange, SQL Server und SharePoint, Lotus Domino, Oracle sowie anderen.
  • Fehlerbehebung
 Ihre Meinung zu Deduplizierung?

Stellen Sie Fragen, tauschen Sie Ideen aus und teilen Sie Ihre Meinung mit der NetApp Community!

Carlos Alvarez
Sr. Technical Marketing Engineer
NetApp


Alvarez arbeitet seit 2008 bei NetApp. Er ist auf Storage-Effizienz spezialisiert und verfügt über eingehende Fachkenntnisse in den Bereichen Deduplizierung, Datenkomprimierung und Thin Provisioning. Er berät und erstellt Leitfäden zur Integration der effizientesten und passendsten NetApp Technologien zur Storage-Effizienz in Kundenkonfigurationen. Aufgrund seiner Praxiserfahrung von über 20 Jahren konnten wir uns bei zahlreichen Implementierungsleitfäden, technischen White Papers, Referenzarchitekturen, Best Practices und Lösungsleitfäden auf Alvarez verlassen.


Tech OnTap
Melden Sie sich jetzt an.
Tech OnTap liefert jeden Monat Einblicke in die IT-Welt sowie exklusive Best Practices, Tipps und Tools, Interviews mit Entwicklern, Demos, Testberichte und vieles mehr.

Besuchen Sie die Website Tech OnTap in der NetApp Community, um sich noch heute anzumelden.

Weitere Infos hier
Weitere Infos hier
Deduplizierung in Tech OnTap
Möchten Sie mehr über Deduplizierung erfahren? Dann interessieren Sie sich möglicherweise für die früheren Artikel von Tech OnTap:


Mehr Back to Basics
Im ersten Back to Basics Artikel geht es um NetApp Thin Provisioning. Lesen Sie den Artikel, um Informationen über die Implementierung, Best Practices und vieles mehr zu erhalten.

Weitere Infos hier
 
TRUSTe
Kontakt   |   Bezugsquelle   |   Feedback   |   Karriere  |   Abonnements   |   Datenschutzrichtlinie   |   © 2011 NetApp