NetApp Tech OnTap
     

Le Kilo-Client de troisième génération de NetApp

Depuis 2006, Tech OnTap suit de près l'évolution de l'infrastructure Kilo-Client de NetApp, l'environnement de test d'ingénierie à grande échelle développé par la société. Pour cet article, Tech OnTap a demandé à Brad Flanary, responsable de l'équipe Systèmes de support d'ingénierie RTP de NetApp, de présenter les objectifs de la prochaine itération de cette infrastructure majeure et novatrice, ainsi que les technologies qu'elle utilise. [Introduction de Tech OnTap]

NetApp® Kilo-Client est un environnement de test qui permet à NetApp de configurer et de démarrer rapidement de nombreux clients physiques et/ou virtuels pour tester ses matériels et logiciels de stockage. La première itération de Kilo-Client a été déployée en 2005 (comme décrit dans un article précédent de Tech OnTap). Cette itération intégrait initialement 1 120 clients physiques, qui démarraient sur iSCSI plutôt qu'à partir d'un disque local.

Jusqu'à la mi-2007, Kilo-Client a encore évolué pour intégrer 1 700 clients physiques capables de démarrer sur iSCSI, FC ou NFS et qui pouvaient être déployés en tant que clients physiques fonctionnant sous Windows® ou Linux®, ou dans des environnements VMware® virtuels. Un article de Tech OnTap publié à cette époque s'est intéressé aux techniques que nous utilisions pour provisionner rapidement des serveurs physiques et des environnements virtuels en utilisant NetApp FlexClone® et d'autres technologies NetApp.

Cette configuration a été profitable à NetApp (pour prendre en charge une virtualisation plus complète, quelques serveurs supplémentaires ont été ajoutés depuis la publication du dernier article), mais aujourd'hui, presque trois ans plus tard, le bail des équipements serveurs d'origine arrivant à échéance, l'heure est venue de la faire de nouveau évoluer en y intégrant les derniers développements technologiques et les avancées du « cloud computing ».

Cet article s'intéresse à la conception du Kilo-Client de troisième génération qui, une fois bâti, nous permettra de :

  • effectuer des tests en utilisant jusqu'à 75 000 clients simultanément (rendant ainsi l'appellation « Kilo-Client » de moins en moins appropriée) ;
  • tester un éventail plus large de configurations réseau, dont l'Ethernet 10 Gigabits et le Fibre Channel over Ethernet (FCoE) ;
  • déployer des centaines ou des milliers de clients en quelques heures seulement.

Dans cet article, nous décrirons d'abord les nouvelles exigences auxquelles nous avons été confrontés. Nous parlerons ensuite de l'évaluation des matériels, puis nous présenterons la conception du Kilo-Client de troisième génération, qui devrait être opérationnel au cours du premier semestre de cette année. Nous évoquerons également la conception unique du data center NetApp qui héberge l'environnement Kilo-Client.

Collecte des nouvelles exigences

Sur la base des réunions tenues avec nos clients internes et des demandes auxquelles la configuration actuelle n'est pas capable de répondre, nous avons commencé à esquisser les contours de notre Kilo-Client de nouvelle génération. Toutefois, pour écarter toute incertitude, nous avons débuté le processus de refonte par un questionnaire détaillé adressé à nos clients internes existants, mais aussi à d'autres utilisateurs potentiels de Kilo-Client au sein de NetApp. Pour accéder à ce questionnaire, vous pouvez cliquer sur le document affiché à la Figure 1. (Vous remarquerez que certaines questions sont centrées sur la virtualisation, car nous souhaitions en particulier savoir s'il était possible de répondre aux besoins de nos clients en utilisant des clients virtuels plutôt que physiques.)

Questionnaire Kilo-Client et résultats

Figure 1) Questionnaire                             
Kilo-Client et résultats

Principales constatations :

  • La plupart de nos clients peuvent être servis par des matériels virtuels plutôt que physiques.
  • À l'époque du questionnaire, la demande d'Ethernet 10 Gigabits était forte.
  • À l'époque du questionnaire, la demande de FCoE était émergente (le questionnaire ayant été réalisé il y a quelques mois, cette demande est bien réelle aujourd'hui).

Ce questionnaire a donné d'excellents résultats. Il a confirmé ce que nous pressentions déjà, à savoir que la plupart de nos clients peuvent être servis par des matériels virtuels plutôt que physiques. Ce constat est parfaitement cohérent avec l'évolution actuelle de l'informatique vers davantage de virtualisation et de Cloud computing. Il correspond également à la récente orientation de NetApp vers une virtualisation plus étendue des serveurs. (Un article de Tech OnTap paru en avril 2009 décrivait d'ailleurs la migration du physique vers le virtuel dans le laboratoire d'ingénierie de NetApp à Bangalore, en Inde.)

Évaluation des matériels

En nous appuyant sur ces exigences pour le nouveau Kilo-Client, nous avons ensuite commencé à évaluer différents matériels serveurs. Nous avons envoyé un appel d'offre à de nombreux fournisseurs de serveurs, en vue d'évaluer leurs produits. Notre processus de test s'est concentré sur les points suivants :

  • Capacité à prendre en charge des adaptateurs réseau convergés (CNA) eux-mêmes capables de prendre en charge à la fois la technologie FCoE et la technologie 10GbE (pour en savoir plus sur les CNA, consultez cet article récent de Tech OnTap).
  • Prise en charge de la virtualisation
  • Performances
  • Capacité à évoluer selon les besoins

Nous avons évalué tous les serveurs sur la base des performances qu'ils pouvaient fournir à partir d'un CNA, de leur capacité à prendre en charge des machines virtuelles sur une grande échelle et, enfin, de leurs réactions à toute une batterie de tests de performances standard.

Nous avons rapidement découvert que, pour nos besoins, les serveurs équipés de processeurs à microarchitecture Nehalem d'Intel® surpassaient très nettement les anciens processeurs à microarchitecture Intel Core™ (Dunnington). Les deux modèles de serveurs que nous avons retenus utilisent l'un comme l'autre des processeurs Nehalem.

Côté réseau, nous avons récemment déployé une infrastructure Cisco Nexus dans notre nouveau laboratoire GDL (Global Dynamic Laboratory). Nous continuerons à utiliser cette infrastructure réseau pour répondre aux besoins FCoE et IP de Kilo-Client. Des commutateurs Brocade seront utilisés pour le Fibre Channel.

Planification du déploiement du Kilo-Client de troisième génération

Serveurs :

  • 468 Fujitsu RX200 S5, 48 Go, 2 CPU : processeur Intel Xeon E5520 (Nehalem) cadencé à 2,26 GHZ (processeurs 4 cœurs/8 threads, offrant 8 cœurs et 16 threads par système)
  • 160 serveurs Cisco UCS (même configuration de processeur que les serveurs Fujitsu) :
    • 48 avec 48 Go de mémoire
    • 112 avec 24 Go de mémoire

La capacité totale sera de 628 clients avec 5 024 cœurs. Ce matériel remplacera trois modules du Kilo-Client d'origine, ou 728 clients physiques avec 1 456 cœurs. Tous ces clients peuvent être exécutés sous la forme de serveurs virtuels principalement, ou être déployés en tant que clients physiques. Avec une densité possible de 120 machines virtuelles par serveur physique, nous serons en mesure de fournir jusqu'à 75 360 machines virtuelles à partir de Kilo-Client.

Les quelques 1 000 clients restants du Kilo-Client d'ancienne génération seront conservés et continueront à être utilisés à des fins de tests. Ils seront retirés progressivement et renvoyés à mesure de l'arrivée à échéance de leur bail.

Réseaux :

  • Cœur : Nexus 7018 (16 modules E/S, fond de panier évolutif jusqu'à 15 Tbit/s)
  • Agrégation : Nexus 5010 et 5020
  • Accès : Nexus 2148T (FEX)
  • Fibre Channel : Commutateurs de périphérie 5320, DCX et Director Brocade

Stockage :

  • Démarrage FC : 4 systèmes de stockage NetApp FAS 3170
  • Démarrage NFS : 16 systèmes de stockage NetApp FAS 3170
  • Autre stockage : choix complet des plates-formes et des disques de stockage NetApp les plus récents

Nous démarrons généralement 500 machines virtuelles par datastore NFS. Nous utilisons SnapMirror® pour répliquer des images de référence à partir d'un référentiel central sur chaque système de stockage de démarrage, selon les besoins.

Démarrage des matériels physiques et des machines virtuelles

L'un des atouts de Kilo-Client est sa capacité à démarrer rapidement et en souplesse, tout en utilisant peu d'espace. Comme dans toute infrastructure de type cloud, nous devons être capables de réaffecter rapidement n'importe quelle quantité de clients à n'importe quelle tâche, qu'elle soit physique ou virtuelle. Kilo-Client utilise un démarrage à la fois FC et FCoE pour démarrer chaque serveur physique et un démarrage NFS pour prendre en charge le démarrage des machines virtuelles sur les serveurs configurés pour exécuter la virtualisation.

Nous avons choisi un démarrage FC pour le démarrage physique en raison de sa fiabilité dans l'infrastructure Kilo-Client existante. Dans la plupart des grandes infrastructures de serveurs, un serveur physique démarre la même image de démarrage à chaque fois. Il peut démarrer Linux ou Windows dans un environnement physique ou VMware ESX dans un environnement virtuel, mais l'image est toujours la même. Ce n'est pas le cas avec Kilo-Client. L'un de nos serveurs peut démarrer Linux un jour, VMware le lendemain et Windows le surlendemain. Nous utilisons un démarrage FC en recourant conjointement à notre capacité de clonage de LUN dynamique pour démarrer rapidement et efficacement nos serveurs physiques et virtuels.

Comme nous l'avons expliqué dans divers articles précédents, nous gérons un ensemble d'images de démarrage « de référence » (sous la forme de LUN Fibre Channel) pour chaque système d'exploitation et pile d'applications que nous utilisons. En utilisant NetApp SnapMirror® et FlexClone, nous pouvons reproduire rapidement des centaines de clones pour chaque serveur physique configuré pour un test. Il suffit en définitive d'ajouter la « personnalisation » spécifique à l'hôte à l'image principale pour chaque serveur provisionné. Cette approche unique nous permet d'assurer un provisionnement d'image quasi-instantané avec un encombrement quasi-nul.

Le processus de démarrage des machines virtuels suit la même approche :

  • Démarrage de VMware ESX sur chaque hôte pour le test.
  • Enregistrement dynamique de ces hôtes dans VMware Virtual Center (vCenter™).
  • Préparation des paramètres réseau et des datastores corrects pour les machines virtuelles.
  • Utilisation de NetApp Rapid Cloning Utility (RCU) pour cloner le nombre et les types appropriés de machines virtuelles. L'utilitaire RCU enregistre automatiquement les machines virtuelles dans vCenter.
  • Enregistrement dynamique des serveurs dans DNS et DHCP et démarrage des machines virtuelles.
  • Vérification que tout est correct.

Automatisation complète. Ces dernières années, nous avons créé des scripts PERL qui fonctionnent en association avec les outils NetApp et VMware pour automatiser les étapes ci-dessus. Ainsi, nous pouvons déployer régulièrement entre 500 et 1 000 machines virtuelles en l'espace de 2 à 3 heures. (Cette opération comprend le processus de démarrage physique et le processus de démarrage des machines virtuelles. La situation ici est donc différente de certains autres déploiements décrits dans Tech OnTap, dont la durée est calculée sur la base de serveurs qui exécutent déjà VMware.)

Efficacité de stockage maximale. L'autre avantage unique du processus est que, du fait que nous utilisons FlexClone pour cloner des « images de référence » au lieu d'effectuer des copies, l'espace de stockage requis est minimal. Nous sommes à même de déployer de l'ordre de 500 machines virtuelles en utilisant seulement 500 Go d'espace de stockage (soit 1 Go par client), et nous pouvons même consommer moins d'espace si cela s'avère nécessaire.

Avec la nouvelle infrastructure, nous pourrons configurer jusqu'à 75 000 machines virtuelles pour des tests de très grande ampleur. Une fois tous les nouveaux matériels en place, nous saurons à quelle vitesse exactement. Notons que, en règle générale, les clients qui forment l'infrastructure Kilo-Client sont répartis en plusieurs groupes plus petits qui, tous, testent en parallèle.

Organisation physique. L'ancienne conception de Kilo-Client reposait sur des « modules » qui regroupaient des serveurs, des ressources réseau et de la mémoire de démarrage. Cette approche était logique dans une conception où les matériels étaient proches les uns des autres et où leur configuration et leur démontage manuels pouvaient être nécessaires.

Nous avons repensé et redéfini cette approche modulaire pour le nouveau Kilo-Client. La nouvelle conception concentre toutes les infrastructures de démarrage à un seul emplacement. Les serveurs et les systèmes de stockage seront désormais rassemblés dans des modules intégrant uniquement les commutateurs nécessaires (IP et FC) pour répondre aux besoins du module. Les modules pourront ainsi être répliqués plus facilement. De même, Kilo-Client pourra être aisément dimensionné à la taille voulue, en ajoutant simplement un module supplémentaire de ce type. (Autrement dit, il nous suffira d'ajouter un module de serveurs ou un module de stockage, etc.) La configuration et le démontage manuels n'étant plus nécessaires (ou souhaités), de nouveaux modules pourront être déployés (et le seront) à n'importe quel endroit dans le data center à mesure que les besoins d'espace augmenteront, afin que l'efficacité du data center lui-même soit maximale.

Notre laboratoire GDL

Kilo-Client est installé physiquement dans le laboratoire GDL (Global Dynamic Laboratory) de NetApp, un nouveau data center innovant établi dans les locaux de NetApp à Research Triangle Park, en Caroline du Nord (Etats-Unis). Kilo-Client sera intégré à l'initiative de test partagé STI (Shared Test Initiative) de l'équipe d'ingénierie de NetApp, qui proposera plusieurs bancs d'essai et se concentrera très clairement sur l'automatisation du déploiement, de l'exécution des tests et de la collecte des résultats. L'initiative STI contribuera à rapprocher ces ressources, l'objectif étant que nos laboratoires partagent toutes leurs ressources de manière dynamique.

Le GDL a été conçu dans une logique d'efficacité et d'automatisation. Il compte 36 chambres froides, chacune d'elles abritant environ 60 baies, pour un total de 2 136 racks.

Les points critiques pour la conception d'un data center moderne comme le GDL sont notamment :

  • La quantité d'électricité d'alimentation que vous pouvez fournir par rack. (Les matériels actuels consomment davantage pour un encombrement moindre.)
  • La quantité d'espace dont vous avez besoin par rack pour permettre un refroidissement adéquat.
  • L'efficacité avec laquelle vous pouvez utiliser l'électricité d'alimentation. (Le test de performances actuel en matière d'efficacité énergétique indique un PUE, ou coefficient d'efficacité énergétique, de 2.)

Pour le GDL, la distribution de l'électricité d'alimentation et du refroidissement est basée sur une moyenne de 12 kW par rack, pour un total de 720 kW par chambre froide. La distribution de l'électricité d'alimentation dans un rack est de 42 kW. En utilisant notre technologie propriétaire de contrôle de la pression, nous réussissons à refroidir jusqu'à 42 kW dans une baie ou à obtenir n'importe quelle combinaison de charges aussi longtemps que la charge de refroidissement totale dans une chambre froide ne dépasse pas 720 kW.

Le GDL utilise une combinaison de technologies pour atteindre une efficacité énergétique maximale :

  • l'air extérieur est utilisé dès que possible pour le refroidissement ;
  • le refroidissement pressostatique limite l'énergie utilisée par les ventilateurs et les pompes ;
  • les températures hautes de l'air (21 à 27 °C contre les 10 à 16 degrés habituels) et les températures de l'eau froide ;
  • la récupération des chaleurs résiduelles pour les bureaux, etc.

Ces techniques, avec d'autres, permettent au GDL d'afficher un PUE annualisé estimatif d'environ 1,2. Le GDL est ainsi amené à générer des économies d'environ 7 millions d'USD par an par rapport à un fonctionnement à un PUE de 2, tout en émettant de l'ordre de 93 000 tonnes de CO2 en moins. Pour en savoir plus sur l'approche de NetApp en matière d'efficacité énergétique pour les data centers, consultez ce récent livre blanc.

Conclusion

Le Kilo-Client de prochaine génération développé par NetApp exploitera pleinement les matériels serveurs, les technologies réseau et les matériels et logiciels de stockage NetApp les plus récents pour créer un banc d'essai souple et automatisé pour les tests impliquant de nombreux clients virtuels ou physiques. Une fois finalisé, le Kilo-Client de prochaine génération sera capable de fournir plus de 75 000 clients virtuels et de tirer parti du Gigabit Ethernet, de l'Ethernet 10 Gigabits, du Fibre Channel et du FCoE, de bout en bout.

Il étendra largement les capacités de la version actuelle et, au final, réduira le nombre de serveurs physiques.

 Votre avis sur NetApp Kilo-Client

Posez vos questions, échangez des idées et partagez vos points de vue directement en ligne dans les communautés NetApp.

Brad Flanary

Brad Flanary
Responsable Systèmes d'ingénierie
NetApp

Brad a rejoint NetApp en 2006 et dirige aujourd'hui une équipe de six ingénieurs, en charge du data center dynamique de NetApp, du data center d'ingénierie RTP et des réseaux de laboratoires d'ingénierie mondiaux de NetApp. Avant de rejoindre NetApp, Brad a passé presque sept ans chez Cisco Systems en tant que spécialiste de la commutation LAN. Au total, il compte plus de 13 années d'expérience en conception de LAN et de data centers à grande échelle.

L'équipe Kilo-Client

L'équipe Kilo-Client
NetApp

L'équipe Systèmes de support d'ingénierie se compose de Brandon Agee, John Haas, Aaron Carter, Greg Cox, Eric Johnston et Jonathan Davis.

 
Explorer