NetApp Tech OnTap

100 Jahre archivieren –

Sind Sie bereit?

Wenn Sie in 100 Jahren ein Buch in die Hand nehmen, werden Sie es wahrscheinlich ohne größere Schwierigkeiten lesen können. Aber nehmen Sie einmal ein Backup-Band, das nur 10 oder 20 Jahre alt ist, und Sie werden wahrscheinlich nicht so leicht damit zurechtkommen. Selbst wenn Sie die richtige Hardware zum Lesen des Bandes zur Verfügung haben (und das Band selbst immer noch in gutem Zustand ist), müssen Sie wissen, in welchem Format es beschrieben wurde, und Sie brauchen eine Anwendung, die diese Daten sinnvoll wieder auslesen kann. So etwas kann ziemlich kompliziert werden, und das Ganze wird im Laufe der Zeit nur noch schlimmer.

An dieser Stelle denken Sie womöglich: „Kein Problem. Ich brauche keine Daten so lange aufzubewahren.“ Denken Sie noch einmal genau nach.

Data retention requirements

Abbildung 1: Anforderungen an die Datenaufbewahrung
Quelle: SNIA Survey

2007 hat die Storage Networking Industry Association (SNIA) eine große Umfrage durchgeführt, bei der mit Hunderten von Vertretern unterschiedlichster Unternehmen weltweit gesprochen wurde. Erstaunlicherweise gaben 80% an, sie hätten Daten, die sie über 50 Jahre aufbewahren müssen, und 68% sagten, sie müssten Daten sogar über 100 Jahre aufbewahren. Immerhin 70% berichteten auch, dass sie höchst unzufrieden mit ihren Möglichkeiten sind, die aufbewahrten Informationen auch in 50 Jahren noch lesen zu können. Welche Art von Daten bereitete dabei das meiste Kopfzerbrechen? eMail, Kundenkarteien, Daten von Business-Applikationen und Datenbanken, also genau die Art von Informationen, mit denen die meisten von uns jeden Tag zu tun haben.

Habe ich jetzt ihr Interesse geweckt?

In diesem Artikel werde ich erklären, welche Herausforderungen die langfristige Archivierung mit sich bringt, einige Best Practices vorstellen, die Sie schon heute einsetzen können, und über aktuelle Bemühungen der SNIA Long Term Archive and Compliance Storage Initiative (LTACSI) berichten, deren Vorsitzender ich bin.

Welche Herausforderungen gehen mit langfristiger Archivierung einher?

Abbildung 2 zeigt, welche Herausforderungen langfristige Datenaufbewahrung mit sich bringt.

Abbildung 2: Typische Lebensdauer von Storage-Systemen, Applikationen und physischen Medien im Vergleich zur Informationsaufbewahrung

Einfach gesagt: Die Dauer, über die wir Informationen aufbewahren müssen (selbst bei der noch gemäßigten Anforderung von 50 Jahren), übersteigt deutlich die typische Lebensdauer von Storage-Systemen (Festplatte oder Band) und Applikationen. Selbst die physischen Medien beginnen schon zu degenerieren und können unlesbar werden, lange bevor die Datenaufbewahrungsfrist abläuft.

Die derzeitige Praxis besteht darin, Daten sowohl physisch als auch logisch alle drei bis fünf Jahre zu migrieren. Die physische Migration erfordert das Übertragen von Informationen von einem physischen Storage-System auf ein anderes oder von einem Medienformat auf ein anderes, um die physische Lesbarkeit, Zugänglichkeit und Integrität zu gewährleisten. Auslöser für diese Art von Migration können Medienausfälle, veraltete Medien oder Storage-Systeme, Systemwechsel oder Betriebskosten sein (für Mitarbeiter, Strom, Platz).

Die logische Migration erfordert das Transferieren von Informationen von einem logischen Format in ein anderes (etwa von einer alten Version einer Anwendung zu einer neuen Version), um die Lesbarkeit und Interpretierbarkeit der Daten zu garantieren. Auslöser hierfür können geänderte Anwendungsformate, veraltete Applikationen oder Firmenzusammenschlüsse sein. Hindernisse für beide Arten von Migrationen sind Kosten, Komplexität, die schiere Menge an Informationen oder fehlende Zeit und/oder mangelndes Budget.

Die bereits erwähnte SNIA-Studie kommt zu dem Ergebnis, dass logische und physische Migration einfach nicht kosteneffizient skalierbar ist, um den derzeitigen und zukünftigen Anforderungen gerecht zu werden. Tatsächlich führen nur 30% der Befragten alle drei bis fünf Jahre eine Migration ihrer Daten durch, sofern diese auf Festplatte vorliegen. Das zeigt, dass neue Konzepte erforderlich sind, um die gesetzlichen, regulatorischen, geschäftlichen, kostenbezogenen und die Skalierbarkeit betreffenden Anforderungen für die langfristige Aufbewahrung digitaler Informationen zu erfüllen.

 

Zwischenlösungen

Die von den derzeitigen Storage-Systemen und Applikationen auferlegten Beschränkungen werden nicht auf kurze Sicht verschwinden. Was sollte man also heute tun, um die langfristige Datenaufbewahrung zu gewährleisten? Die beste Empfehlung, die man derzeit geben kann, ist, formelle Prozesse für das Lebenszyklusmanagement für Ihre Anwendungen, Betriebsabläufe und Daten-Repositories zu implementieren, um die Daten während ihrer gesamten Nutzungsdauer effektiv verwalten zu können. Dabei sollten folgende Best Practices berücksichtigt werden:

  • enge Zusammenarbeit mit allen Betroffenen (IT, RIM, Rechtsabteilung, Management, Sicherheit), um sicherzustellen, dass alle Anforderungen berücksichtigt werden
  • deutliche Identifizierung aller vorhandenen Bestände und Ressourcen
  • Klassifizierung der Informationen, so dass Datenaufbewahrungsanforderungen bestimmt werden können
  • Festlegen von Anforderungen für Datenaufbewahrung, Schutz, Sicherheit, Compliance etc.
  • Service-Implementierung, um diese Anforderungen zu erreichen
  • Messungen und Verbesserungen

Nützliche Praktiken umfassen:

  • Klassifizierung von Informationen in wenige gemeinsame Kategorien
  • Festlegen von Aufbewahrungszeiträumen und Löschen abgelaufener Daten
  • Kontrolle der Anzahl der Kopien von Daten, die zwecks Datensicherung vorgehalten werden
  • Festlegen von Richtlinien für Audits und deren Durchführung
  • Verwendung standardbasierter Storage-Plattformen

Ihre Richtlinien für die langfristige Aufbewahrung sollten Ihre geschäftlichen, gesetzlichen und Compliance-Ziele berücksichtigen und eine Beschreibung von Best Practices enthalten, die für jedes Storage-Repository gelten, einschließlich physischer und logischer Migration. Das Ziel für physische Migration sollte sein, von einer Migration in festen Zeitabständen (drei bis fünf Jahre) zu einer Migration „nach Bedarf“ zu gelangen. Miteinander verknüpfte, standardbasierte und virtualisierte Systeme (wie etwa NetApp Storage mit Data ONTAP GX) können helfen, Unterbrechungen, Komplexität und Aufwand zu minimieren, die mit einer Migration verbunden sind.

Für die logische Migration sollten Sie in der Lage sein, die Authentizität zu wahren, also zu belegen, dass die Daten mit den ursprünglichen Daten identisch sind. Auch hier sollte man nur bei Bedarf migrieren, und eventuell andere Optionen für die Datenaufbewahrung in Betracht ziehen: Transformation der Daten in ein Standardformat (XML, PDF etc.), Archivierung von Ausdrucken, falls angebracht, oder die Verwendung von Mikrofilm.

Falls sich dies kompliziert anhört – das ist es. Sie müssen immer noch sowohl physische als auch logische Migration nach Bedarf ausführen. Und die beiden Ereignisse fallen womöglich nicht zusammen. Aber es gibt derzeit nur wenige Optionen, um sicherzustellen, dass Daten, die über einen langen Zeitraum aufbewahrt werden, auch lesbar bleiben. Glücklicherweise werden derzeit einige wichtige Anstrengungen unternommen, um hier Abhilfe zu schaffen.

Standardisierungsbemühungen

Es ist wahrscheinlich deutlich geworden, dass die Storage-Branche bislang wenig unternommen hat, um das Problem langfristiger Datenaufbewahrung anzugehen. Derzeitige Archivierungsanwendungen verwenden proprietäre Datenformate, mit denen man letztlich an eine einzige Lösung gebunden ist, was künftige Migrationsvorhaben zusätzlich komplizieren dürfte. Aber das alles soll sich ändern.

In Bezug auf die langfristige Archivierung (mehr als 15 Jahre) besteht die größte Herausforderung in der logischen Migration. Die physische Migration kann angemessen durchgeführt werden, mit effektiven Prozessen für das Lebenszyklusmanagement und derzeitiger standardbasierter Storage-Technologie, im Gegensatz zu proprietären Storage-Formaten. Die Situation sollte sich noch weiter verbessern, wenn die Anbieter anfangen, ihr Augenmerk verstärkt auf Hardware zu legen, die den langfristigen Speicheranforderungen gerecht werden kann. (Ein Beispiel finden Sie in der Randspalte: Gemeinsame Forschung für Langzeitarchivierungssysteme.)

Logische Migration andererseits bleibt anwendungsspezifisch, was die Automatisierung von Schlüsselprozessen erschwert. Vollständige „Aufbewahrung“ erfordert mehr, als die Daten nur lesbar und interpretierbar zu halten. Es erfordert die langfristige Aufbewahrung der Daten zusammen mit Metadaten, die u.a. deren Herkunft, Referenzdaten (Kontext) sowie Mechanismen zur Sicherstellung ihrer Integrität und Authentizität beinhalten.

Zu diesem Zweck hat die SNIA LTACSI vorgeschlagen, dass die SNIA eine Long-Term Digital Information Retention and Preservation Technical Working Group bildet, die sich mit Encapsulation beschäftigen soll (siehe Randspalte). Encapsulation würde einen „aufbewahrungsorientierten“ logischen Behälter definieren, der aus dem Inhalt (den Daten) sowie den zugehörigen Aufbewahrungsmetadaten besteht.

Encapsulation könnte nach dem OAIS AIP (Archival Information Package) modelliert werden. Abbildung 3 zeigt den Inhalt eines OAIS-AIP-Behälters.

Abbildung 3: OAIS AIP umfasst sowohl den Inhalt der zu speichernden Informationen als auch Metadaten, die den Inhalt beschreiben. (Quelle: SNIA)

Encapsulation impliziert „in sich geschlossen”, weil ein Behälter die zu den Informationen gehörenden Daten, die Metadaten, Referenzdaten, Integritäts- und Authentizitätsprüfungen, Zugriffskontrollen sowie Logdateien enthält. Dieser Inhalt macht den Behälter portabel und unabhängig vom Storage-System. So kann der Behälter unabhängig von der Applikation verwaltet werden, entsprechend den Anforderungen, die man für die Informationen aufgestellt hat.

Encapsulation ist „selbstbeschreibend“, weil der Behälter von unterschiedlichen Arten von Systemen interpretiert werden kann und weil er Reader enthalten kann, so dass der Inhalt unabhängig von der Applikation interpretiert werden kann. Diese Fähigkeit ist wichtig für die langfristige Aufbewahrung. Encapsulation bietet ein Standardformat, das jede Applikation verstehen kann und das theoretisch vielerlei Applikationen den Zugriff auf die archivierten Inhalte ermöglicht, z.B. zu Zwecken von ECM, gesetzlichen Anforderungen, Migration, Aufbewahrung etc.

Abbildung 4: Logisch erzeugt die Encapsulation eine standardisierte Datenschicht, die sich zwischen der Bit-Schicht (physische Medien) und der Applikation ansiedelt. (Quelle: SNIA)

Das Ziel ist, die Notwendigkeit für häufige logische Migrationen zu eliminieren, so dass Unternehmen auch über längere Zeiträume bei Bedarf auf die archivierten Daten zugreifen und diese verwenden können, und zwar ohne den Aufwand und die Komplexität regelmäßiger Aktualisierungen der Daten, um Veränderungen bei den Applikationen gerecht zu werden.

NetApp und langfristige Archivierung

Was die Hardware angeht hat NetApp schon lange erkannt, dass physische Datenmigrationen (ob für Archivierung oder andere Zwecke) kompliziert und störend sind. Aus diesem Grund entwickelt sich NetApp in Richtung einer skalierenden Hardware-Architektur, die Tiered-Storage unterstützt, einschließlich WORM-Volumes für Compliance-Anforderungen, um die Migration von Daten von einer Schicht auf eine andere in unterbrechungsfreier Weise zu erleichtern. Diese Architektur ermöglicht die transparente Integration neuer Storage-Komponenten (physische Medien, Storage-Controller) neben der Nutzung vorhandener Storage-Systeme, was den Prozess der physischen Migration erheblich vereinfacht.

Um den Anforderungen hinsichtlich Archivierung und Compliance Genüge zu tun, ermöglicht die offene SnapLock Technologie von NetApp die Erstellung von WORM-Volumes auf NetApp Storage, um Corporate Governance und regulatorischen Anforderungen zu entsprechen, ohne physisch getrennte Storage-Systeme notwendig zu machen. NetApp arbeitet mit branchenführenden Archivierungspartnern wie Symantec, ZANTAZ und CommVault zusammen, um Lösungen zu liefern, welche die einzigartigen Features von NetApp Hardware- und -Softwaretechnologie optimal nutzen, und arbeitet zusammen mit diesen Partnern auch an langfristigen Lösungen.

Hinsichtlich der logischen Migration ist NetApp bewusst, dass Lösungen für kurzfristige Archivierung nur ein Teil der Lösung sind. Wir haben früh die Notwendigkeit von Branchenstandards erkannt und uns immer besonders für Standardisierung eingesetzt. In meiner Rolle bei NetApp besteht eine meiner Hauptverantwortlichkeiten darin, die LTACSI zu leiten, eine gemeinsame Initiative von Endbenutzern, IT-Fachleuten, Anbietern, Integratoren und Service-Providern, die ein Interesse daran haben, die Herausforderungen der langfristigen Aufbewahrung und Archivierung digitaler Informationen sowie Compliance-bezogener Storage-Praktiken zu meistern.

Was sollten Sie schon jetzt tun?

Das Wichtigste ist, schon jetzt Maßnahmen zu ergreifen, um nicht in eine Krisensituation zu geraten, in der man Terabytes an Daten physisch und/oder logisch migrieren muss. Die beste Möglichkeit hierzu besteht darin, die Richtlinien aus dem Abschnitt „Zwischenlösungen“ zu befolgen, einschließlich der Verwendung offener Standards, wo immer dies möglich ist. Offene Standards bieten einem viel mehr Optionen, wenn es um Migration geht, und vermeiden die Festlegung auf bestimmte Anbieter.

Falls Ihr Unternehmen es nicht bereits getan hat, sollten Sie eine Implementierung von Datenklassifizierung erwägen, um Ihre Daten besser zu verstehen und das Lebenszyklusmanagement zu unterstützen. Dann sollten Sie nach Lösungen suchen, für Hardware wie für Software, die entsprechende Richtlinien umsetzen können und den Prozess der physischen Migration vereinfachen. Wenn Sie diese Schritte schon jetzt umsetzen, sind Sie gut gewappnet, um von den neuen Standards für langfristige Archivierung profitieren zu können, die in den kommenden Jahren Form annehmen werden.

Gary Zasman

Gary Zasman
Worldwide Practice Director
NetApp

Gary ist Vorsitzender der SNIA Long Term Archive and Compliance Storage Initiative (LTACSI). Außerdem ist er maßgeblich an der Entwicklung der weltweiten Praktiken von NetApp für Unternehmensanwendungen und Datenbankintegration beteiligt. Bevor er 2006 zu NetApp kam, war Gary in einer Vielzahl von Positionen bei führenden Storage-Anbietern tätig, mit dem Schwerpunkt auf der Entwicklung von ILM-Lösungen und Beratungspraktiken. 2001 war ein Team, dem Gary angehörte, einer der Finalisten für den angesehenen Computerworld Smithsonian Award, weil es ein digitales Archiv für Visuelle Geschichte entwickelt hatte.

Explore