NetApp Tech OnTap
     

End-to-End-Servicequalität:

Cisco, VMware und NetApp arbeiten gemeinsam an der Verbesserung von mandantenfähigen Umgebungen

Der Aufbau einer gemeinsam genutzten Infrastruktur war schon immer eine große Herausforderung. Bei Betrachtung eines typischen Datacenter-Konzepts für Unternehmen lässt sich feststellen, dass wichtige Applikationen entweder eine eigene Infrastruktur aufweisen oder dass gemeinsam genutzte Elemente überdimensioniert sind und somit weit über die Erfordernisse hinausgehen. Beide Ansätze gehen einher mit schlecht ausgelasteten Ressourcen und einer Verschwendung Ihres IT-Budgets.

Das Problem ist, dass niemand genau weiß, wie sich zusätzliche Lasten auf Infrastrukturkomponenten wie Server, Netzwerk und Storage auswirken. Was ist, wenn ein Engpass bei einer Ressource auftritt und die Performance einer wichtigen Applikation unerwartet beeinträchtigt? Wie schnell lässt sich in einem solchen Fall die Ursache des Engpasses ausfindig machen?

Angesichts des gegenwärtigen Interesses an Cloud Computing ist es umso entscheidender, mandantenfähige Umgebungen (Infrastrukturen mit gemeinsamer Ressourcennutzung) in jeder Hinsicht zu verstehen. Tatsächlich zögern viele Unternehmen, eine Cloud-Infrastruktur aufzubauen oder externe Cloud-Services in Anspruch zu nehmen, weil sie Einschränkungen bezüglich Sicherheit und Servicequalität (Quality of Service – QoS) befürchten.

Cisco hat sich mit VMware und NetApp zusammengeschlossen, um eine sichere mandantenfähige Cloud-Architektur zu konzipieren und zu testen, die alle nachstehenden Zielvorgaben erfüllt. Diese sind für uns die Grundvoraussetzungen für eine sichere mandantenfähige Umgebung:

  • Sichere Trennung. Ein Mandant darf unter keinen Umständen in der Lage sein, auf die Virtual Machine (VM), das Netzwerk oder den Storage eines anderen Mandanten zuzugreifen. Alle Mandanten müssen sicher voneinander getrennt sein.
  • Service Assurance. Die Rechner-, Netzwerk- und Storage-Performance muss jeweils isoliert und sichergestellt sein, sowohl während normalen Abläufen als auch Ausfällen oder falls Mandanten eine außergewöhnlich hohe Last generieren.
  • Verfügbarkeit. Die Infrastruktur muss gewährleisten, dass benötigte Rechner-, Netzwerk- und Storage-Ressourcen im Hinblick auf mögliche Ausfälle verfügbar bleiben.
  • Management. Es ist unerlässlich, dass alle Ressourcen rasch bereitgestellt, gemanagt und überwacht werden können.

In diesem Artikel beschreibe ich die besondere Architektur, die von den drei Unternehmen konzipiert wurde, um die Grundvoraussetzungen für eine mandantenfähige Umgebung zu erfüllen. Weiterhin werde ich näher darauf eingehen, welche Anstrengungen wir in Bezug auf die zweite Grundvoraussetzung – Service Assurance – unternommen haben.

Ein vor kurzem veröffentlichter Design Guide liefert Einzelheiten zu einem Cisco Validated Design, das unter Verwendung der Technologien aller drei Unternehmen alle vier obigen Grundvoraussetzungen erfüllt. In einem Begleitartikel zu dieser Ausgabe von Tech OnTap erfahren Sie mehr über die Architekturkomponente NetApp MultiStore.

Architekturüberblick

Abbildung 1 zeigt einen Überblick der Architektur auf Blockebene. Auf allen Ebenen sind zentrale Software- und Hardware-Komponenten so ausgelegt, dass Sicherheit, Servicequalität, Verfügbarkeit und einfaches Management gewährleistet sind.

End-to-End-Blockdiagramm

Abbildung 1) End-to-End-Blockdiagramm

Rechnerebene
Auf Rechnerebene bieten die Softwarelösungen VMware vSphere und vCenter Server eine robuste Server-Virtualisierungsumgebung, mit der sich Server-Ressourcen mehreren auf Virtual Machines ausgeführten Gastbetriebssystemen dynamisch zuweisen lassen.

VMware vShield Zones bietet Sicherheit innerhalb der Rechnerebene. Hierbei handelt es sich um eine zentral gemanagte, statusorientierte, verteilte, virtuelle Firewall im Verbund mit vSphere 4.0, die die ESX Host-Nähe und virtuelle Netzwerksichtbarkeit nutzt, um Sicherheitszonen zu erstellen. vShield Zones ist in VMware vCenter integriert und bietet virtuelle Inventarinformationen wie beispielsweise VNICs, Portgruppen, Cluster und VLANs, um das Regel-Management der Firewall und die Bereitstellung vertrauenswürdiger Zonen zu vereinfachen. Diese neue Methode der Erstellung von Sicherheitsrichtlinien berücksichtigt VMs mit VMotion und ist völlig transparent mit Blick auf IP-Adressänderungen und die Umnummerierung des Netzwerks.

Das Cisco Unified Computing System (UCS) ist eine zukunftsweisende Datacenter-Plattform, die Zugriff auf Rechner, Netzwerk und Storage sowie Virtualisierung in einem stimmigen System vereint. UCS integriert ein verlustfreies 10-Gigabit-Ethernet-Netzwerk mit niedriger Latenz mit x86-Architekturservern der Enterprise-Klasse. Das System ist eine integrierte, skalierbare Multi-Chassis-Plattform, in der alle Ressourcen in eine einheitliche Management-Domäne eingebunden sind.

Netzwerkebene
Die Netzwerkebene stellt eine sichere Netzwerk-Konnektivität zwischen Rechner- und Storage-Ebene sowie Verbindungen zu externen Netzwerken und Clients her. Im Folgenden sind die zentralen Komponenten beschrieben:

  • Cisco Nexus 7000 stellt die Ethernet-Verbindung (LAN) zu externen Netzwerken her.
  • Cisco Nexus 5000 bildet die Schnittstelle zu FC-Storage und Cisco 7000.
  • Cisco Nexus 1000V ist ein Software Switch, der im VMware Kernel ausgeführt wird, um Cisco VN-Link Services zur engen Integration zwischen Server- und Netzwerkumgebung bereitzustellen. So können Richtlinien während der Live-Migration mit der Virtual Machine verschoben werden.
  • Cisco MDS 9124 ist ein Fibre Channel Switch, der eine SAN-Verbindung herstellt und damit VMware ESX Servern auf UCS das Booten von SAN ermöglicht.

Storage-Ebene
Die Storage-Ebene besteht aus Unified Storage-Systemen von NetApp, die gleichzeitig eine SAN-Verbindung (für SAN-Boot) und eine NFS-Verbindung für die laufende VMware-Umgebung herstellen können. Außerdem erfüllt NetApp Storage die besonderen Storage-Anforderungen aller laufenden Anwendungen. Durch den Betrieb der VMware-Umgebung über Ethernet erhalten Sie eine stark vereinfachte Managementumgebung, die Kostensenkungen mit sich bringt.

Das mit der NetApp MultiStore Software erzielte Maß an Sicherheit und Trennung bei gemeinsam genutztem Storage ist vergleichbar mit physisch isolierten Storage Arrays. Mit MultiStore können Sie mehrere vollständig isolierte, logische Partitionen auf einem einzelnen Storage-System erstellen. So können Sie Storage freigeben, ohne Kompromisse beim Datenschutz einzugehen. Individuelle Storage-Container können unabhängig und transparent zwischen den Storage-Systemen migriert werden.

Mandanten-Bereitstellung
Wird ein Mandant mithilfe dieser Architektur bereitgestellt, setzt sich die resultierende Umgebung wie folgt zusammen:

  • eine oder mehrere Virtual Machines oder vApps
  • ein oder mehrere virtuelle Storage Controller (vFiler Einheiten)
  • ein oder mehrere VLANs für die Verbindung zwischen diesen Ressourcen und den Zugriff auf Letztere

Zusammen bilden diese Einheiten eine logische Partition. Der Mandant kann die Grenzen dieser Partition nicht überschreiten. Neben der Sicherheit möchten wir auch die Gewissheit haben, dass die Aktivitäten in einer Mandanten-Partition nicht indirekt von den Aktivitäten in einer anderen Mandanten-Partition beeinträchtigt werden.

End-to-End-QoS

Nur sehr wenige Projekte berücksichtigen das Thema „End-to-End-Servicequalität“. Meistens wird ein Mechanismus zur Unterstützung der Servicequalität auf lediglich einem einzigen Layer etabliert, in der Hoffnung, dadurch die Servicequalität der darüber- und darunterliegenden Layer ebenfalls positiv beeinflussen zu können. Leider weisen verschiedene Applikationen unterschiedliche Eigenschaften auf. Einige sind rechenintensiv, andere netzwerkintensiv und wiederum andere I/O-intensiv. Allein durch die Begrenzung der I/O-Last kann die CPU-Auslastung einer CPU-intensiven Applikation kaum bzw. gar nicht gesteuert werden. Eine vollständige QoS kann nicht gewährleistet werden, wenn nicht auf allen drei Ebenen entsprechende Mechanismen vorhanden sind. Unser Team hat es sich zur Aufgabe gemacht, ein solches System zu konzipieren.

Unternehmen wie Amazon, Google usw. haben mandantenfähige oder „Cloud“-Angebote auf der Grundlage proprietärer Software entwickelt, an der Hunderte von internen Entwicklern jahrelang arbeiteten. Unser Ansatz bestand darin, handelsübliche Technologie von Cisco, NetApp und VMware einzusetzen, um ähnliche Ergebnisse zu erzielen.

Unser Konzept sieht für alle Ebenen ein grundlegendes Prinzip vor: Wenn Ressourcen nicht genutzt werden, sollten strategisch wichtige Applikationen diese verfügbaren Ressourcen bei Bedarf nutzen können. Auf diese Weise kann eine Applikation auf einen unvorhergesehenen Fall reagieren. Treten jedoch Konflikte auf, müssen alle Mandanten den vertraglich zugesicherten Service Level erhalten.

Ein weiteres Grundprinzip besteht darin, den Wert für die Serviceklasse (Class of Service) so nah wie möglich an der Applikation auszurichten, diesen Wert in eine Richtliniendefinition aufzunehmen und sicherzustellen, dass die Richtlinie in Übereinstimmung mit den spezifischen Eigenschaften jeder Ebene über alle Ebenen hinweg einheitlich angewandt wird. Zur Gewährleistung der QoS setzten wir auf jeder Ebene drei Mechanismen ein:

Tabelle 1) QoS-Mechanismen

Rechner Netzwerk Storage
• Erweiterbare Reservierungen
• Dynamic Resource Scheduler
• UCS QoS Systemklassen für Ressourcenreservierung und -Limit


• QoS – Warteschlangen
• QoS – Bandbreitensteuerung
• QoS – Ratenbegrenzung
• FlexShare
• Storage-Reservierungen
• Thin Provisioning


 

Rechnerebene
Auf Ebene der Server-Virtualisierung bietet VMware vSphere viele Funktionen, die dafür sorgen, dass insbesondere CPU- und Speicherressourcen gerecht aufgeteilt werden. Ein vSphere Ressourcenpool ist eine logische Abstraktion für ein flexibles Ressourcenmanagement. Ressourcenpools können in Hierarchien angeordnet und verwendet werden, um verfügbare CPU- und Arbeitsspeicherressourcen hierarchisch zu partitionieren. Die korrekte Konfiguration von Ressourcenpoolattributen für Reservierungen, Limits, Shares und erweiterbare Reservierungen ermöglicht Ihnen eine detaillierte Steuerung, und Sie können im Falle von Ressourcenkonflikten einem bestimmten Mandanten Priorität einräumen.

Mit dem VMware Distributed Resource Scheduler (DRS) können Sie Cluster mit mehreren VMware Servern erstellen. Er überwacht fortlaufend die Auslastung in mehreren Ressourcenpools und sorgt für eine intelligente Zuteilung verfügbarer Ressourcen zwischen Virtual Machines. DRS lässt sich auf Cluster-Ebene vollständig automatisieren, sodass die von der Infrastruktur und der Virtual Machine des Mandanten verursachten Lasten gleichmäßig über alle ESX-Server in einem Cluster verteilt werden.

Auf Hardwareebene greift Cisco UCS auf Data Center Ethernet (DCE) zurück, um den gesamten Datenverkehr in einem Cisco UCS-System zu bewältigen. Durch diese standardisierte Erweiterung auf Ethernet wird die Bandbreite der Ethernet-Leitung in acht virtuelle Spuren unterteilt. Anhand von Systemklassen wird festgelegt, wie die DCE-Bandbreite in diesen virtuellen Spuren im gesamten Cisco UCS System zugeteilt wird. Für die einzelnen Systemklassen wird jeweils ein spezielles Segment der Bandbreite für eine bestimmte Datenverkehrsart reserviert. So ist es selbst in einem überdimensioniert ausgestatteten System möglich, den Datenverkehr zu managen.

Netzwerkebene
Auf Netzwerkebene wird der Datenverkehr nach der Serviceklasse (Class of Service – CoS) segmentiert, die bereits von Nexus 1000v zugewiesen und vom UCS System akzeptiert wurde. Es gibt zwei verschiedene Methoden, um einen gleichbleibenden Performanceschutz zu gewährleisten.

  • Warteschlangen ermöglichen den Netzwerkgeräten, die Paketzustellung basierend auf Klassifizierungskriterien zu planen. Durch die Differenzierung, welche Pakete bevorzugt zugestellt werden, ergeben sich im Falle von Überlastungen unterschiedliche Reaktionszeiten für wichtige Applikationen. Warteschlangen treten nur auf, wenn die zugewiesene Bandbreite von allen Serviceklassen vollständig ausgenutzt wird.
  • Bandbreitensteuerung weist Netzwerkgeräten entsprechende Puffer pro Warteschlange zu, sodass bestimmte Datenverkehrsarten die Bandbreite nicht überbeanspruchen. Auf diese Weise können andere Warteschlangen die Anforderungen der restlichen Klassen erfüllen. Die Bandbreitensteuerung erfolgt Hand in Hand mit dem Warteschlangenmanagement, da über die Warteschlangen festgelegt wird, welche Pakete zuerst zugestellt werden. Die Bandbreite bestimmt hingegen, wie viele Daten pro Warteschlange übertragen werden.

Es können eine Reihe von Richtlinienkontrollen aktiviert werden, sodass eine unvorhergesehene Änderung im Datenverkehrsmuster entweder weich gehandhabt wird, d. h. Applikationen dürfen den ihnen durch das Service Commitment zugestandenen Anteil einige Zeit lang überschreiten, oder durch eine harte Richtlinie, welche die Überbeanspruchung herabsetzt oder die Übertragungsrate begrenzt. Diese Funktion kann auch genutzt werden, um einen Service Level so zu definieren, dass für nichtkritische Services ein bestimmtes Traffic-Niveau beibehalten wird oder der niedrigste Service Level-Traffic begrenzt wird, sodass kritischere Mandanten-Services nicht beeinträchtigt werden.

Die Festlegung derartiger Schutzstufen erfolgt mittels Richtlinien und Ratenbegrenzung. Diese Tools werden so nah wie möglich am Netzwerkrand eingesetzt, damit der Traffic nicht in das Netzwerk eindringt. Im vorliegenden Konzept wird Nexus 1000V für die Richtlinien- und Ratenbegrenzungsfunktion eingesetzt, und zwar für folgende Datenverkehrsarten:

  • VMotion. VMware empfiehlt gewöhnlich eine dedizierte Gigabit-Schnittstelle für VMotion Datenverkehr. Unser Konzept sieht für VMotion Datenverkehr einen nicht routingfähigen VMkernel Port vor. Der Datenverkehr für VMotion aus jedem Blade-Server wird auf 1 GBit/s angesetzt, um die traditionelle Umgebung widerzuspiegeln. Diese Grenze kann je nach Anforderungen entweder angehoben oder herabgesetzt werden, sollte aber nicht so konfiguriert werden, dass die resultierende Datenverkehrsrate den kritischeren Datenverkehr beeinträchtigt.
  • Differenzierte Transaktions- und Storage-Services. In einer mandantenfähigen Umgebung werden zur Generierung differenzierter Services verschiedene Methoden angewandt. So wird eine „Priority“-Warteschlange für die kritischsten Services und „No-Drop“ für Datenverkehr eingesetzt, der nicht entfallen soll, aber verzögert werden kann. Die Ratenbegrenzung wird bei Fixed Rate Services angewandt, bei denen alle Applikationsklassen oder -Services eine bestimmte Obergrenze aufweisen.
  • Management. Für das Management VLAN gilt eine Ratenbegrenzung. Der Datenverkehr beträgt maximal 1 GBit/s.

Storage-Ebene
Wie oben beschrieben, sorgt die MultiStore Software von NetApp für eine sichere Isolation in mandantenfähigen Umgebungen. (Weitere Informationen zu MultiStore finden Sie in einem Begleitartikel zu dieser Ausgabe.)

Auf Storage-Ebene wird im Rahmen der QoS der Storage-System-Cache und die CPU-Auslastung gesteuert und sichergestellt, dass Workloads auf eine angemessene Anzahl von Spindeln verteilt sind. NetApp entwickelte FlexShare zur Steuerung der Workload-Priorisierung. Mit FlexShare können Sie drei unabhängige Parameter für jedes Storage-Volume oder jede vFiler Einheit in einer MultiStore Konfiguration einstellen, damit sie zwischen verschiedenen Mandanten priorisieren können. Sowohl MultiStore als auch FlexShare stehen seit vielen Jahren für die NetApp Data ONTAP Betriebsumgebung zur Verfügung.

NetApp Thin Provisioning bietet Mandanten einen gewissen „Storage nach Bedarf“. Die Rohkapazität wird als gemeinsam genutzte Ressource behandelt und wird nur bei Bedarf verbraucht. Wenn Sie im Rahmen von Thin Provisioning Ressourcen in einer mandantenfähigen Konfiguration bereitstellen, sollten Sie für die Richtlinien folgende Einstellungen vornehmen: Volume Autogrow, Snapshot Autodelete und fraktionale Reserve. Volume Autogrow ermöglicht einem Volume, auf Basis definierter Zuwachsraten und bis zu einem vordefinierten Schwellenwert anzuwachsen. Snapshot Autodelete ist eine automatisierte Methode zum Löschen der ältesten Snapshot Kopien, wenn ein Volume fast voll ist. Mit der fraktionalen Reserve kann je nach Wichtigkeit der assoziierten Daten der Prozentsatz für die Platzreservierung geändert werden.

Werden diese Funktionen gemeinsam genutzt, kann wichtigen Mandanten Vorrang eingeräumt werden, so dass sie mehr Speicherplatz auf einem Volumen aus einem gemeinsamen, reservierten Pool zuweisen können. Umgekehrt müssen Mandanten von niedriger Priorität eine Anfrage zur Erweiterung des Speicherplatzes an einen Administrator richten.

Schlussfolgerung

Cisco, VMware und NetApp haben sich zusammengeschlossen, um eine sichere mandantenfähige Cloud-Architektur zu definieren und zu testen. Diese Architektur soll nicht nur die nötige Sicherheit bieten, sondern auch Servicequalität, Verfügbarkeit und erweitertes Management gewährleisten.

Dieser Artikel zielte darauf ab, unseren End-to-End-Ansatz hinsichtlich QoS vorzustellen. Weitere Informationen über QoS oder andere Grundvoraussetzungen für mandantenfähige Umgebungen finden Sie in unserem kürzlich veröffentlichten Design Guide. Er geht ausführlich auf Elemente der Architektur ein und enthält Empfehlungen für eine korrekte Konfiguration.

 Ihre Meinung zur QoS in mandantenfähigen Umgebungen?

Stellen Sie Fragen, tauschen Sie Ideen aus und teilen Sie Ihre Meinung mit der NetApp Community!

Chris Naddeo

Chris Naddeo
Technical Marketing Engineer für UCS
Cisco Systems

Chris Naddeo stieß zu Cisco, um schwerpunktmäßig auf dem Gebiet der Kundenentwicklung und an der Konzeption optimaler Storage-Architekturen für das Unified Computing System von Cisco zu arbeiten. Naddeo verfügt über einen umfangreichen Erfahrungsschatz im Bereich Storage. Er arbeitete ein Jahr bei NetApp als Consulting Systems Engineer für Oracle und Data ONTAP GX sowie neun Jahre bei Veritas als Produktmanager für Storage-Software.

Weitere Infos hier