NetApp Tech OnTap

Fünf kaum bekannte Tipps zur Steigerung
der Ausfallsicherheit von NetApp-Storage

Im Verlauf der Jahre hat sich NetApp Storage den Ruf erworben, einfach zu sein, leicht zu verwalten und widerstandsfähig gegenüber Problemen, welche die Datenverfügbarkeit beeinträchtigen können. Um ein Höchstmaß an Ausfallsicherheit zu erreichen, sollte man eine Reihe von Best Practices befolgen.

NetApp hat kürzlich einen technischen Bericht veröffentlicht, der detailliert Best Practices in Bezug auf Storage aufführt, mit denen die Ausfallsicherheit erhöht werden kann. In diesem Artikel werden wir Ihnen eine Handvoll Tipps verraten, die Sie verwenden können, um die Ausfallsicherheit ihrer NetApp Storage-Systeme zu verbessern:

  • Einsatz von Multipath-Hochverfügbarkeit (Multipath-HA)
  • Bereitstellen der richtigen Anzahl von Reservefestplatten
  • Verwendung von SyncMirror für eine noch höhere Ausfallsicherheit
  • Absicherung der HA-Konfigurationen für unterbrechungsfreie Upgrades
  • Verifizieren der Storage-Konfiguration mit Hilfe automatischer Tools von NetApp

1. Tipp: Einsatz von Multipath-Hochverfügbarkeit

Multipath-Hochverfügbarkeit stellt redundante Pfade zwischen Storage Controller und Festplatten bereit, sowohl für Konfigurationen mit nur einem Controller als auch für Aktiv/Aktiv-Konfigurationen. Eine zweiten Pfad zum Storage-System zur Verfügung zu haben schützt vor einer Vielzahl möglicher Ausfälle wie:

  • HBA- oder Port-Ausfall
  • Kabelunterbrechung zwischen Controller und Shelf
  • Ausfall eines Shelf-Moduls
  • Doppelte Kabelunterbrechung innerhalb des Shelfs
  • Ausfall des sekundären Pfads bei HA-Konfigurationen
Multipath HA in an active-active controller configuration.

Abbildung 1: Multipath-HA in einer Aktiv/Aktiv-Controller-Konfiguration

Selbst bei geclusterten NetApp Storage-Systemen (Aktiv/Aktiv- oder HA-Konfigurationen) reduziert Multipath-HA die Wahrscheinlichkeit eines Failover und steigert so die Verfügbarkeit.

Multipath-HA bietet außerdem potenzielle Performance-Vorteile in Situationen, wo die Fibre-Channel-Pfade zu den Festplatten-Shelves überlastet sind, indem die doppelte Bandbreite zum Storage-System bereitgestellt wird. Dies kann besonders bei einer Wiederherstellung wertvoll sein, oder aber auf älteren Systemen, die 1 GBit/s Fibre-Channel-Verbindungen verwenden.

In vielen Fällen sind bereits freie FC-Ports auf Storage-Systemen verfügbar, so dass Multipath-HA zu den Kosten einiger weniger Kabel ergänzt werden kann. Dies ist ein kleiner Preis, der sich mit einer wesentlich höheren Ausfallsicherheit bezahlt macht.

2. Tipp: Bereitstellen der richtigen Anzahl von Reservefestplatten

Bei NetApp Storage lösen Festplattenausfälle automatisch eine Paritäts-Rekonstruktion der betroffenen Daten auf eine Hot-Standby-Festplatte aus, sofern eine solche Reservefestplatte verfügbar ist. Falls keine Reservefestplatten verfügbar sind, sind keine selbstheilenden Operationen möglich. Das System läuft nur im eingeschränkten Modus (Anfragen nach Daten auf der ausgefallenen Festplatte werden durch Rekonstruieren der Daten mit Hilfe der Paritätsinformationen erfüllt), bis ein Ersatz bereitgestellt wird oder die defekte Festplatte ausgetauscht wurde. Während dieser Zeit sind Ihre Daten einem höheren Risiko ausgesetzt, falls ein weiterer Ausfall eintreten sollte. (Mit NetApp RAID-DP darf bei einer RAID-Gruppe, die nur im eingeschränkten Modus arbeitet, ein zusätzlicher Festplattenausfall eintreten, ohne dass es zu Datenverlust kommt.)

Die Anzahl der benötigten Reservefestplatten variiert je nach Anzahl der an das Storage-System angeschlossenen Festplatten. Bei den Einsteigermodellen FAS200 oder FAS2000 mit nur einem Shelf kann eine Reservefestplatte ausreichen (bei Verwendung von Maintenance Center sollte man zwei konfigurieren). Bei der FAS6080 mit einer maximalen Festplattenzahl von 1.176 Festplatten sind mehr Reservefestplatten erforderlich, um für eine maximale Storage-Ausfallsicherheit zu sorgen, besonders bei größeren SATA-Festplatten, die längere Wiederherstellungszeiten aufweisen.

NetApp empfiehlt die Nutzung von zwei Reservefestplatten pro Festplattentyp für bis zu 100 Festplatten, wobei der Festplattentyp von der Art der Schnittstelle abhängt (FC, SATA oder SAS), sowie von der Kapazität und der Rotationsgeschwindigkeit. Wenn man z.B. ein System mit 28 FC-Festplatten mit 300 GB, 15K, und 28 FC-Festplatten mit 144 GB, 15K, hat, sollte man vier Reservefestplatten bereitstellen: zwei mit 300 GB Kapazität und zwei mit 144 GB Kapazität.

Für jeweils weitere 84 Festplatten sollte eine zusätzliche Hot-Standby-Festplatte dem Reservepool hinzugefügt werden. Die folgende Tabelle zeigt einige zusätzlich Beispiele zur Illustration dieses Prinzips. (Es wird angenommen, dass alle Festplatten von derselben Art sind.)

Anzahl der ShelvesAnzahl der FestplattenEmpfohlene Anzahl von Reservefestplatten
6 84 2
8 112 3
12 168 3
24 336 4
36 504 6
72 1.008 12
2 28 2
Tabelle 1: Wahl der richtigen Anzahl von Reservefestplatten für eine vorgegebene Anzahl von Festplatten derselben Art

Man beachte, dass man bei der Nutzung von NetApp Maintenance Center mindestens zwei Reservefestplatten von jeder Art im System benötigt. Maintenance Center führt proaktiv Statusüberwachungen der Festplatten durch und versucht bei Auftreten bestimmter Ereignisse präventive Wartungsarbeiten bei der entsprechenden Festplatte durchzuführen. Zwei Reservefestplatten sind erforderlich, ehe eine verdächtige Festplatte zu Diagnosezwecken ins Maintenance Center kommen kann.

3. Tipp: Verwendung von SyncMirror für höchstmögliche Ausfallsicherheit

Falls Sie eine noch höhere Ausfallsicherheit benötigen, als sie HA und RAID-DP bieten, sollten Sie die Verwendung von SyncMirror in Betracht ziehen, entweder in einer lokalen oder MetroCluster Konfiguration.

Ein lokaler SyncMirror bietet synchrone Spiegelung zwischen zwei unterschiedlichen traditionellen Volumes oder Aggregaten auf demselben Storage Controller, um sicherzustellen, dass immer eine duplizierte Kopie der Daten existiert. Dieses Feature ist seit Data ONTAP 6.2 verfügbar. Das von SyncMirror bereitgestellte Mirroring ist eine zusätzliche Ebene zum RAID-Schutz (RAID 4, RAID-DP oder RAID 0 der V-Series).

SyncMirror führt ein Striping der Daten über zwei gespiegelte Storage Pools hinweg durch (Пlexes“ genannt), was zu einer Verbesserung der Lese-Performance bei festplattenbezogenen Workloads führen kann. Es sorgt für einen besseren Schutz vor mehreren simultanen Ausfällen über die Spiegel hinweg. SyncMirror mit RAID-DP ist so fehlertolerant, dass es die Datenverfügbarkeit bei bis zu fünf simultanen Festplattenausfällen über gespiegelte RAID-Gruppen hinweg sicherstellen kann. Da SyncMirror native NetApp Snapshot-Technologie zur Sicherstellung synchronisierter Wiederherstellungspunkte verwendet, dauert die Resynchronisierung nach dem Verlust der Konnektivität zu einem Plex wesentlich kürzer. Nur Daten, die seit dem letzten Snapshot-Wiederherstellungspunkt geändert wurden, müssen synchronisiert werden.

SyncMirror bietet außerdem geografische Disaster-Toleranz, wenn es zusammen mit MetroCluster verwendet wird. SyncMirror ist als Bestandteil von MetroCluster erforderlich, um sicherzustellen, dass eine identische Kopie der Daten im entfernten Datacenter existiert, falls das ursprüngliche Datacenter nicht verfügbar ist. Bei Verwendung in einer Aktiv/Aktiv-Konfiguration bietet SyncMirror das höchste Maß an Ausfallsicherheit und sorgt so für eine kontinuierliche Datenverfügbarkeit.

4. Tipp: Absicherung der HA-Konfigurationen für unterbrechungsfreie Upgrades

Die Konfiguration Ihrer Storage-Systeme in einer HA-Konfiguration mit Aktiv/Aktiv-Storage-Controllern ist eine hervorragende Möglichkeit, Single Points of Failure zu eliminieren und so die Ausfallsicherheit zu erhöhen. Neben der Eliminierung potentieller ungeplanter Ausfallzeiten können solche Konfigurationen auch geplante Ausfallzeiten dank unterbrechungsfreier Upgrades reduzieren.

Unterbrechungsfreie Upgrades (NDUs) bieten Ihnen die Fähigkeit, jede Komponente in einem Aktiv/Aktiv-Storage-System (Software, Festplatte oder Shelf-Firmware, Hardware-Komponenten etc.) mit minimaler Unterbrechung des Client-Datenzugriffs transparent zu aktualisieren, indem Sie rollierende Upgrades durchführen. Um ein unterbrechungsfreies Upgrade durchzuführen, müssen die beiden Storage-Controller hinsichtlich einer Reihe von Faktoren identisch sein, darunter Lizenzen, Netzwerkzugriff und konfigurierte Protokolle. Weitere Informationen über NDUs finden Sie in einem kürzlich erschienenen Tech Report.

Die beste Möglichkeit, um sicherzustellen, dass ein Upgrade reibungslos vonstatten geht, besteht darin, Ihre Systeme im Vorfeld dahingehend gründlich zu überprüfen, dass sie den NDU-Anforderungen entsprechen. Durch das Erfüllen dieser Anforderungen können Sie außerdem gewährleisten, dass Ihre HA-Systeme optimal konfiguriert sind, um ein höchstmögliche Ausfallsicherheit und Datenverfügbarkeit zu garantieren. NetApp bietet eine Reihe automatischer Tools, um dies zu ermöglichen, wie im folgenden Abschnitt beschrieben.

5. Tipp: Verifizieren der Storage-Konfiguration mit Hilfe automatischer Tools

Egal, ob Sie geclusterte HA-Storage-Systeme oder Konfigurationen mit einem einzelnen Controller verwenden. Es ist wichtig, sicherzustellen, dass Sie die richtige Hardware, Firmware und Software installiert haben, besonders bevor Sie ein Upgrade durchführen. Wenn Sie über Dutzende von Festplatten-Shelves und Hunderte oder sogar Tausende von Festplatten verfügen, ist diese keine leichte Aufgabe. Glücklicherweise hat NetApp Global Services (NGS) eine Reihe von Tools entwickelt, welche die Prozesse automatisieren, die ansonsten aufwendig und fehlerträchtig wären. Die regelmäßige Nutzung dieser Tools kann die Ausfallsicherheit Ihrer Storage-Systeme erhöhen und Ihre Betriebsabläufe vereinfachen.

Cluster Configuration Checker

Dieses Tool entdeckt und identifiziert die häufigsten Konfigurationsursachen für Failover-Probleme:

  • Inkonsistente Lizenzen
  • Inkonsistente Optionseinstellungen
  • Nicht korrekt konfigurierte Netzwerkschnittstellen
  • Unterschiedliche Versionen von Data ONTAP auf dem lokalen und dem Partner-Knoten
  • Unterschiede bei den cfmode-Konfigurationseinstellungen zwischen den beiden Knoten

Cluster Configuration Checker ist auch als Bestandteil des NetApp Operations Manager erhältlich.

Upgrade Advisor

Upgrade Advisor wurde als zentrale Lösung entwickelt, um festzustellen, ob ein Storage-System für ein Data ONTAP Upgrade geeignet ist. Das Tool verwendet Live-Daten von AutoSupport, um zuerst den normalerweise mühseligen manuellen Prozess zu automatisieren, jeden Aspekt und jede Anforderung zu dokumentieren, die Aufschluss geben, ob ein bestimmtes System für ein Upgrade geeignet ist, und dann einen stufenweisen Upgradeplan zu erstellen, der für ein Upgrade oder das Abbrechen eines Upgrades verwendet werden kann.

Die öffentliche Version des Upgrade Advisor steht Kunden über die Premium AutoSupport-Schnittstelle zur Verfügung, die beim Kauf von SupportEdge Premium enthalten ist. Andere Kunden können auf NGS oder NetApp Professional Services zugreifen, um so indirekt mit Hilfe von Upgrade Advisor herauszufinden, ob ihre Umgebungen für ein Upgrade geeignet sind.

Upgrade Advisor
Abbildung 2: Upgrade Advisor

Fazit

Sie sollten so lange auf die Ausfallsicherheit Ihrer Storage-Systeme bauen, bis es zu spät ist. Durch einige proaktive Schritte, wie in diesem Artikel beschrieben, können Sie die Ausfallsicherheit Ihrer Storage-Umgebung weiter verbessern. Multipath-HA eliminiert die Single Points of Failure der Backend Storage-Systeme und kann für eine bessere Performance-Konsistenz sorgen. Das Konfigurieren der richtigen Anzahl von Reservefestplatten stellt sicher, dass Festplattenrekonstruktionen unverzüglich beginnen, falls eine Festplatte ausfällt, wodurch das Risiko von Datenverlusten begrenzt wird. Die Verwendung von SyncMirror bietet höchstmögliche Ausfallsicherheit für wichtige Datenoperationen. NDU reduziert oder eliminiert geplante Ausfallzeiten für Upgrades und Erweiterungen, und die regelmäßige Systemverifizierung mit Hilfe automatischer Tools kann sicherstellen, dass Konfigurationen korrekt sind, und die Upgradeplanung vereinfachen.

Steve Lawler and Haripriya Steve Lawler
Technical Marketing Engineer
NetApp

Steve befasst sich ausschließlich mit Hochverfügbarkeits-Storage-Konfigurationen. Er verfügt über mehr als 15 Jahre Branchenerfahrung und hat früher im Bereich Telekommunikation gearbeitet, wo er vielfältige Erfahrungen im Support von Unternehmenskunden sammeln konnte.

Haripriya
Technical Marketing Engineer
NetApp

Haripriya ist spezialisiert auf Storage-Ausfallsicherheit, einschließlich Festplatten und Shelves. Vorher hat sie bei Hewlett-Packard gearbeitet, wo sie schwerpunktmäßig mit RAID und Storage befasst war. Haripriya verfügt über einen Master-Abschluss in Informatik und arbeitet derzeit an ihrem MBA-Abschluss.

Kommentar
Explore