Back to Basics: Deduplizierung Diesen Monat präsentiert Tech OnTap Ihnen die zweite Folge von Back to Basics. Bei Back to Basics handelt es sich um eine Artikelserie, welche die Grundlagen für beliebte NetApp Technologien beschreibt, um Ihnen dabei zu helfen, sie zu verstehen und einzusetzen. 2007 führte NetApp die Deduplizierungstechnologie ein, wodurch Kapazitätsanforderungen an Storage deutlich verringert wurden. NetApp Deduplizierung erhöht die Effizienz, indem identische Datenblöcke identifiziert und mit Referenzen zu einem einzelnen, gemeinsam genutzten Block ersetzt werden, nachdem eine Validierungsüberprüfung auf Byte-Ebene durchgeführt wurde. Diese Technik reduziert Storage-Kapazitätsanforderungen, indem redundante Datenblöcke eliminiert werden, die sich auf demselben Volume oder LUN befinden. NetApp Deduplizierung ist ein fester Bestandteil der NetApp Data ONTAP Betriebsumgebung und des WAFL Filesystems, das alle Daten auf NetApp Storage-Systemen managt. Deduplizierung arbeitet mit niedrigem Overhead „hinter den Kulissen“, unabhängig von den laufenden Applikationen oder der Zugriffsart auf die Daten. Eine oft gestellte Frage lautet: „Wie viel Platz kann man einsparen?“ Wir werden später detaillierter auf diese Frage eingehen, jedoch hängt es im Allgemeinen vom Datensatz und der Menge der enthaltenen Duplikate ab. Der Wert von NetApp Deduplizierung in einer gemischten Umgebung mit Geschäfts- wie auch Engineering-Daten lässt sich am Beispiel der in Atlanta ansässigen Polysius Corporation aufzeigen, die Zementwerke verbessert und neu entwirft. Die jährliche Zunahme an Produktions-Storage betrug bei Polysius bis zu 30 %. Durch die Anwendung von Deduplizierung auf die Mischung aus AutoCAD Dateien, Microsoft Office Dokumenten und anderen unstrukturierten Daten konnte Polysius 47 % des Speicherplatzes zurückgewinnen. Einige Volumes zeigten eine Belegungsreduzierung um bis zu 70 %. Das Unternehmen war dadurch in der Lage, die Anschaffung von neuem Storage zurückzustellen und den Zeitraum für die Aufbewahrung von Daten-Backups auf Festplatten zu verdoppeln. Mehr Informationen erhalten Sie in der Polysius Kundenreferenz. Signifikante Vorteile der NetApp Deduplizierung:
Dieser Beitrag von Back to Basics erläutert, wie Sie NetApp Deduplizierung implementieren. Es stellt die gängigsten Anwendungsfälle vor und liefert Beispiele für die Implementierung. Implementierung von Deduplizierung in Data ONTAP Im Kern basiert NetApp Deduplizierung auf Referenzzählung, einer herkömmlichen Technik der Informatik. Vorher wurde in Data ONTAP nur festgehalten, ob ein Block frei oder in Benutzung ist. Mit Deduplizierung wird darüber hinaus auch die Anzahl der Nutzungen registriert. Bei Deduplizierung kann auf einen einzelnen Block bei NAS- und auch bei SAN-Konfigurationen bis zu 255 Mal referenziert werden. Dateien „wissen“ nicht, dass sie gemeinsam genutzte Blöcke verwenden. Die Einzelheiten werden innerhalb von WAFL unsichtbar organisiert. Abbildung 1) Funktionsweise von NetApp Deduplizierung Wie kommt Data ONTAP zu der Entscheidung, dass zwei Blöcke gemeinsam genutzt werden können? Die Antwort besteht darin, dass es einen „Fingerabdruck“ berechnet, den Hash der Blockdaten. Haben zwei Blöcke denselben Fingerabdruck, sind sie Kandidaten für eine gemeinsame Nutzung. Wenn NetApp Deduplizierung aktiviert ist, wird eine Datenbank von Fingerabdrücken aller verwendeten Blöcke des Volumes errechnet (in einem Prozess, der „Gathering“ genannt wird). Nach diesem anfänglichen Einrichtungsvorgang sind die Daten bereit zur Deduplizierung. Um zu vermeiden, dass die alltäglichen Vorgänge beeinträchtigt werden, wird die Suche nach Duplikaten als separater Batch-Prozess ausgeführt. Wenn Daten im normalen Betrieb geschrieben werden, legt WAFL für diese direkt bei ihrer Verwendung einen Fingerabdruckkatalog an. Dieser Katalog wächst an, bis die Deduplizierung von einem der folgenden Ereignisse, die vom Systemadministrator festgelegt werden, ausgelöst wird:
Sobald der Deduplizierungsprozess gestartet wurde, beginnt ein Sortiervorgang, welcher die Fingerabdrücke der geänderten Blöcke als Schlüssel verwendet. Diese sortierte Liste wird mit der Datenbankdatei der Fingerabdrücke zusammengeführt. Wenn ein Fingerabdruck in beiden Listen erscheint, handelt es sich möglicherweise um identische Blöcke, die zu einem Block zusammengelegt werden können. In diesem Fall verwirft Data ONTAP einen der Blöcke und ersetzt ihn durch eine Referenz auf den anderen Block. Da sich das Filesystem ständig ändert, kann dieser Schritt natürlich nur durchgeführt werden, wenn beide Blöcke tatsächlich noch in Benutzung sind und dieselben Daten enthalten. Um sicherzustellen, dass zwei Blöcke tatsächlich identisch sind, wird ein Vergleich Byte-weise durchgeführt, nachdem Blockkandidaten identifiziert wurden. Die Implementierung von NetApp Deduplizierung macht sich einige der besonderen Funktionen von WAFL zunutze, um die Kosten der Deduplizierung zu minimieren. Jeder Datenblock auf der Festplatte ist beispielsweise durch eine Prüfsumme geschützt. NetApp verwendet diese Prüfsumme als Basis für den Fingerabdruck. Die Prüfsumme hätte in jedem Fall berechnet werden müssen, doch erhalten wir sie auf diese Weise „kostenlos“: Das System wird dadurch nicht zusätzlich belastet. Und da WAFL niemals einen Datenblock überschreibt, der in Benutzung ist, bleiben Fingerabdrücke gültig, bis ein Block freigegeben wird. Die nahtlose Integration von NetApp Deduplizierung in WAFL bedeutet darüber hinaus, dass das Anlegen von Änderungsprotokollen effizient ist. Das Ergebnis ist, dass Deduplizierung bei vielen verschiedenen Workloads verwendet werden kann und nicht nur bei Backups, wie dies bei anderen Deduplizierungslösungen der Fall ist. Nutzung NetApp hat die Vorteile der Deduplizierung in der Praxis verfolgt, seit sie eingeführt wurde. Die beliebtesten Anwendungsgebiete sind VMware und VDI, Home Directory-Daten und File Services. Microsoft SharePoint und Exchange 2010 gewinnen außerdem schnell an Bedeutung. Viele Tech OnTap Artikel haben die besonderen Vorteile von Deduplizierung in VMware und VDI-Umgebungen behandelt. Dort besteht von Natur aus ein hoher Grad an Dateiduplikaten, da von jeder Virtual Machine nahezu identische Betriebssystemumgebungen verwendet werden. Die folgende Tabelle fasst typische Ergebnisse verschiedener Umgebungen zusammen. Tabelle 1) Typische Platzeinsparungen durch Deduplizierung
In einer normalen VMware oder VDI-Umgebung sind möglicherweise zahlreiche Virtual Machines (VMs) enthalten, die mehr oder weniger mit denselben Betriebssystemen und Applikationen installiert wurden, was zu einer Menge Duplikaten führt. Bei 100 VMs mit demselben BS und der Anforderung von 10 GB bis 20 GB Storage kommt man auf 1 TB bis 2 TB Storage, der durch fast identische Kopien belegt wird. Der Einsatz von NetApp Deduplizierung kann eine Menge der begleitenden Redundanz eliminieren. Allgemein gesagt benötigt man für X Virtual Machines in einem Storage Volume nach der Deduplizierung ungefähr 1/X Betriebssystem-Storage im Vergleich mit einer nicht deduplizierten Umgebung. Offensichtlich hängen die tatsächlichen Ergebnisse, die Sie erhalten, davon ab, wie viele VMs Sie auf einem Volume anlegen und wie sehr diese sich ähneln. In der Praxis erhalten Kunden typischerweise eine Platzeinsparung von 50 % oder mehr in ESX VI3-Umgebungen. Bei einigen werden sogar Storage-Einsparungen von bis zu 90 % realisiert. Das gilt für die Deduplizierung der gesamten VMware Storage-Umgebung einschließlich der Applikationsdaten – nicht nur der Betriebssysteme. In VDI-Umgebungen erreichen Kunden typischerweise Platzeinsparungen von bis zu 90 %. NetApp hat darüber hinaus den Nutzen von Deduplizierung von Repositorys unstrukturierter Daten untersucht, die von beliebten Engineering- und wissenschaftlichen Applikationen wie zum Beispiel Siemens Teamcenter PLM Software, IBM Rational ClearCase SCM Software und Schlumberger Petrel Software zur Analyse seismischer Daten angelegt werden. Teamcenter verwendet eine relativ kleine Datenbank mit Metadaten, die mit einem großen „Archiv“ kombiniert wird, in dem Engineering Design-Dateien gespeichert werden. Sobald ein Ingenieur ein Design innerhalb von Teamcenter speichert, wird eine komplette Kopie dieser Design-Datei im Archiv abgelegt, auch wenn die Änderungen am Design nur minimal sind. NetApp hat eng mit Siemens PLM zusammengearbeitet, um den Wert von Deduplizierung in einer Teamcenter Umgebung mit einem von Siemens entwickelten Tool zum Leistungsvergleich der Performance und der Skalierbarkeit zu beurteilen. Dieses Tool simuliert die Erstellung von mehreren Revisionen vieler Design-Dateien, wie es auch im normalen Betrieb vorkommt. Die Deduplizierung des resultierenden Archivs ergab eine Platzeinsparung von 57 %. Das Ergebnis kann in der Praxis sogar noch höher liegen, da in vielen Fällen die Anzahl der Dateirevisionen wahrscheinlich höher liegt als bei unserer Simulation. (Natürlich muss man beim Einsatz von Simulatoren zum Messen der möglichen Einsparung durch Deduplizierung immer vorsichtig sein. Simulierte Daten erzeugen in vielen Fällen künstlich einen hohen Anteil von Datenduplikaten, da das Hauptaugenmerk auf Performance und nicht auf Datenmustern liegt.) Ähnlich wie Teamcenter besteht auch IBM Rational ClearCase, eine führende Lösung im Software-Konfigurationsmanagement, aus einer Datenbank mit Metadaten in Kombination mit einer großen „Versioned Object Base“ (VOB), in der die Dateien gespeichert werden. Deduplizierung ist bei ClearCase besonders für Situationen geeignet, in denen eine Kopie einer VOB angelegt werden muss. Des Weiteren führen erste Ergebnisse in einer Laborumgebung zu einer geschätzten Platzeinsparung von über 40 %, wenn Deduplizierung in einer ClearCase Umgebung eingesetzt wird, in der komplette Dateien gespeichert werden. Schlumberger Petrel wird bei der Interpretation von seismischen Daten, bei der Reservoirvisualisierung und bei Workflow-Simulationen eingesetzt. Es werden Projektverzeichnisse angelegt, die eine riesige Anzahl von Dateien enthalten. Durch die Erstellung, Verteilung und Archivierung von Daten durch Benutzer werden doppelte Datenobjekte über mehrere Speichergeräte verteilt gespeichert. Bei der Deduplizierung solcher Projektverzeichnisse hat NetApp Platzeinsparungen von ungefähr 48 % beobachtet. Verwendung von NetApp Deduplizierung Die Grundvoraussetzungen für den Einsatz von NetApp Deduplizierung sind in Tabelle 2 zusammengefasst. Tabelle 2) Grundvoraussetzungen für NetApp Deduplizierung
Über diese Anforderungen hinaus kann das Lesen einiger Best Practices den erfolgreichen Einsatz von Deduplizierung unterstützen. Einige der wichtigsten Best Practices sind in diesem Abschnitt mit Informationen über den Einsatz von Deduplizierung in Verbindung mit anderen beliebten NetApp Technologien zusammengefasst. Alle Details erhalten Sie in TR-3505 – Deduplication Deployment and Implementation Guide.
Deduplizierung und andere NetApp Technologien Die Deduplizierung wurde für den Einsatz mit anderen NetApp Technologien entwickelt. In vielen Fällen wird diesen Technologien ein zusätzlicher Nutzen verliehen:
Schlussfolgerung Deduplizierung ist ein wichtiges Storage-Effizienz-Tool, das einzeln oder gemeinsam mit anderen Storage-Effizienz-Lösungen wie NetApp Thin Provisioning, FlexClone und anderen verwendet werden kann. Um mehr über Deduplizierung zu erfahren, lesen Sie TR-3505: NetApp Deduplication for FAS and V-Series Deployment and Implementation Guide. Dieser regelmäßig aktualisierte Leitfaden behandelt ein breit gefächertes Angebot an Themen, einschließlich:
Ihre Meinung zu Deduplizierung?Stellen Sie Fragen, tauschen Sie Ideen aus und teilen Sie Ihre Meinung mit der NetApp Community! Tech OnTap Besuchen Sie die Website Tech OnTap in der NetApp Community, um sich noch heute anzumelden. | | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
![]() | ![]() |
| Kontakt | Bezugsquelle | Feedback | Karriere | Abonnements | Datenschutzrichtlinie | © 2011 NetApp |