NetApp Tech OnTap
最大1000の物理サーバを20のVMware ESXサーバに統合

インドのバンガロールにあるNetAppエンジニアリング・ラボでは、約700人の開発技術者がWAFL®、NASとSAN、ストレージ管理、VTL、オープンシステムSnapVault®(OSSV)、SnapDrive® for UNIX®など、さまざまな重要開発プロジェクトに取り組んでいます。これらのプロジェクトのコンピューティングとストレージに関するニーズを満たすことが、私たちの業務目標です。

各種エンジニアリング・プロジェクトの多様なニーズに対応するために、2008年8月の時点で約1,000台のx86サーバを導入していました。しかし需要は増える一方で、サーバが1カ月あたり約40台(ほぼ2ラック分のコンピュート・サーバ)のペースで増え続けていました。需要の増大にともない、ラック・スペース、電力、冷却キャパシティの不足が懸念されていました。物理サーバのプロビジョニング・プロセスも遅いうえに柔軟性が欠けていたため、状況はさらに複雑化し、技術者のニーズに対応するのが難しくなっていました。

そこで、これらの重要なエンジニアリング・リソースの統合と仮想化を目標に、プロジェクトCOLD(Consolidation and Optimization of Lab/Datacenter)を開始しました。現在、このプロジェクトは中盤にさしかかっています。プロジェクトが完了した暁には、1,000台の物理サーバの50%以上を、わずか20のVMware® ESXサーバに転換する見込みです。物理ハードウェアを必要とするアプリケーション・テスト用に、限られた台数の物理サーバ(最終的な台数は未定)を残す予定です。

VMwareサーバによって、技術開発上のニーズの変化への適応能力が強化されると同時に、将来的な成長にも対応できるものと見込んでいます。

この記事では、次の項目について説明します。

  • 統合と仮想化の目標
  • 主な課題
  • 設定とプロビジョニングのプロセス
  • P2V(物理から仮想への)移行
  • 現時点での移行状況
  • 今後の計画

統合と仮想化

サーバとストレージの統合は、運用効率の向上によるコストの削減をもたらします。一方、仮想化の目標は、自動化の推進、スケーラビリティの向上、1つのプラットフォームで複数の機能やサービスを提供する能力によって(資本コストと運用コストの両面から)サーバおよびストレージ技術の価値を最大限に高めることです。絶えず変化する技術開発上のニーズやビジネス要件に対応できる、融通性の高いテクノロジを備えた仮想化モデルが、私たちの目指すデータセンターの未来像です。仮想化テクノロジは、柔軟性、拡張性、管理性、即応性を高めることで、付加価値の高いデータセンター構築に貢献します。

仮想化を導入することで、従来をはるかに越えるスケール・メリットのあるIT運用が可能になります。既存のリソースの利用率を最大限に高めるとともに、急成長中のインフラでも効率的な管理が可能になります。さまざまな仮想化ソリューションを評価した結果、VMwareをNetApp®ストレージと組み合わせて運用することに決定しました。私たちが最終的にVMwareを選んだ理由は、このプロジェクトの重要な条件である、広範囲に及ぶゲストOSのサポートです。

当初の課題

このプロジェクトを開始した時点で、避けて通るわけにはいかない組織上・技術上のさまざまな問題に直面しました。

予算の制約:第一に、予算が限られていたため、私たちはこの仮想化プロジェクトを必要最低限の機器でスタートせざるを得ませんでした。貸与された2台のサーバ(VMware ESX Serverをインストール済み)とスタンドアロンのNetApp FAS3050ストレージ・システムで、プロジェクトを開始しました。それでも概念実証(POC)を実行するには十分でした。これらのサーバはその後、大量の仮想マシンを処理できるよう、メモリを増設しました。

技術者からの懸念:プロジェクトの滑り出しの段階では、技術者たちが懸念を示していました。これまで使い慣れてきた物理サーバと同じ負荷を、仮想マシンで処理できるとは思わなかったからです。エンジニアリング・プロジェクトごとにそれぞれ固有のニーズがあることも、状況をさらに複雑化させていました。しかし、最初に使用した2つの仮想サーバで、技術者たちは十分に納得し、プロジェクトを続行する目途が付きました。

ネットワークの統合: 技術者からの懸念というハードルをクリアした後は、仮想サーバを既存の環境にどのように統合するかという問題を解決する必要がありました。このエンジニアリング・ラボのネットワークは、レイヤ2ブロードキャストを最小限にする設計になっていました。レイヤ3を使用してアップリンクのコア・バックボーン・スイッチに接続するアクセス・レイヤ・スイッチには、複数のVLANが設定されています(このネットワーク・アーキテクチャは、機能/部門ごとに個別のVLANを使用するキャンパスLANに相当します)。

VLANごとに固有のESXサーバを提供するか、さもなければネットワーク・トポロジを変更する必要がありました。最初の選択肢については、リソースをフル活用できないこと、ESXライセンスが余分に必要なこと、そして管理が難しくなることが問題でした。一方、2番目の選択肢については、作業が複雑で、長いダウンタイムが必要になる可能性がありました。

ネットワーキング・パートナーおよび社内の開発技術者との協議を繰り返した結果、統合型の仮想サーバ・ファームによって、すべてのESXサーバ、ストレージ・システム、および各プロジェクト用VLANへのリンクのあるネットワーク機器をホストするというソリューションに決定しました。

 

仮想サーバ・ファームとネットワーク構成

図1) 仮想サーバ・ファームとネットワーク構成

仮想サーバ・ファームの構成とプロビジョニング

この環境を設計するにあたり、私たちは『TR-3428:NetAppとVMware Virtual Infrastructure 3 におけるストレージのベスト・プラクティス』のガイドラインに従いました。この仮想インフラは現在、8台のサーバとNetApp FAS3050クラスタで構成されるファームで、17の技術開発チーム用に436の仮想マシンをホストしています。今までに実行した物理から仮想へ(P2V)の変換は150回、GSXからESXへの移行は100回に上っています。以前にも一部のプロジェクトでVMware GSXを使用し、限られた範囲で仮想化を実施していました。物理サーバ1台あたりの仮想マシン数は4~5というのが一般的でした。

チーム単位で仮想マシンをグループ化して管理する目的で、VMware Virtual Centerにリソース・プールを設定しました。各チームへのネットワーク接続には、ロード・バランシングと冗長性を配慮して、2つの1 GBネットワーク・ポートを使用しています。

クラスタ構成のFAS3050には、300 GB FCドライブと、ストレージ・フェイルオーバー用にマルチパスを採用したディスク・シェルフが4つ装備されています。ストレージ・システムのネットワーク・ポートはトランキングし、冗長性とロード・バランシングを配慮してNetApp VIF(英語)として構成しています。

ESXデータストアはいずれも、このストレージ・システムからNFSを使用してホストしています。NFSはコストパフォーマンスが良く設定と管理がシンプルなので採用しました。Fibre Channelデータストアの場合は余分のハードウェア(FCスイッチなど)、HBA、ケーブル接続が必要になりますが、予算の関係上、これらを調達することは不可能でした。また、NFSデータストアを使用しても、パフォーマンスはFCとほぼ同等です。

新しい仮想マシンのプロビジョニングは、NetAppのRapid Cloning Utilityバージョン1を使用して行いました。このプロセスではNetApp FlexClone®が利用されるので、同一のOSファイルのコピーをいくつも保存してスペースを無駄に消費せず、類似した仮想マシン同士が同じストレージを共有します。このプロセスについての詳しい説明は、最近のTech OnTap記事を参照してください。VMware仮想デスクトップに同じプロセスを使用する場合について解説しています。

物理から仮想への(P2V)移行

既存のサーバ構成を変えたくないというのが技術開発チームの希望でした。そのため、物理サーバから仮想サーバに移行するにあたり、ホスト名、IPアドレス、およびOS構成をそのまま残すという課題に直面しました。

この移行を実行するために、まず各チームのデータ・ネットワークを仮想サーバ・ファームまで拡張し、VMware Virtual Centerを使用して、P2V変換を実行しました。ダウンタイムを少なくするため、ほとんどの移行作業は週末または休日に行いました。新しい仮想マシンを定期的に監視して、パフォーマンスの問題がないかどうかを調べています。パフォーマンスの問題が見られた場合には、チームと緊密に協力し、必要に応じて仮想マシンへのリソース割り当て量を増やしています。

現時点での移行状況

仮想マシンの増加と廃止した物理サーバ数を定期的に測定してグラフ化しています。今後6~9カ月で、物理サーバ数を500まで減らす予定です。同じ期間中に、仮想マシン数は1,500まで増える見込みです。1,500の仮想マシン全部を、20のVMware ESXサーバでサポートすることが目標です。現在8台のサーバで450の仮想マシンをサポートしていますが、CPUとメモリの平均利用率は30%前後です。したがって、今後さらに多くの仮想マシンをサポートできる余裕があります。

移行の進捗状況

図2) 移行の進捗状況

今後の計画

私たちは今までの進捗状況に非常に満足しています。その一方で、仮想環境によって可能になった、次のような新しい展開についても検討しています。

  • マルチプラットフォーム・サポート: 今のところ、環境内のサーバはすべてIntel®ベースです。IBM論理パーティション(LPAR)によるPowerPCプラットフォームおよびAIXオペレーティング環境の仮想化と、Solaris™コンテナによるSPARCの仮想化もサポートしたいと考えています。
  • 単一のダッシュボード:今のところ、VMwareサーバ/仮想マシンの監視と管理にはVirtual Centerを使用し、ストレージの監視と管理にはNetApp Operations Managerを使用しています。NetApp SANscreen®を使用して、サーバとストレージを1つのダッシュボードで表示できるようにすることを検討しています。
  • 事業継続性:物理サーバ環境でのリカバリは容易ではありません。新しい仮想環境では、従来よりもはるかに高度な事業継続性を提供できます。SnapMirrorを使用して、すべての仮想マシン・データを1つのNetApp NearStore®システムにミラーリングすることを検討中です。そうすれば、サーバまたはストレージ・ハードウェアの障害から迅速に回復し、データのオフサイト・コピーを利用してサイトを復旧することが可能になります。
  • オンデマンド方式のサーバとストレージ:技術者がオンラインでサーバとストレージ・リソースを要求すれば、管理者の介入なしでこれらのリソースが即座にプロビジョニングされるセルフサービス型の環境が、私たちの最終目標です。

まとめ

この移行プロジェクトはまだ途中ですが、すでに仮想環境のメリットが顕著に現れています。

  • プロビジョニングの迅速化:データセンターの成長が急速だったため、従来は、需要を見込んで先回りをしたり、想定外の要求に対処したりすることは困難でした。エンジニアリング・プロジェクトでテスト用のサーバが2~3台余分に必要になった場合、必要なハードウェアを入手して設定するのに最大4週間かかっていました。しかし今は、わずか数分で新しい仮想サーバをプロビジョニングすることができます。
  • ロード・バランシング:プロビジョニングと同様、物理サーバが過負荷になった場合、長時間に及ぶ面倒な再プロビジョニング作業が必要になることは少なくありませんでした。現在、私たちは仮想マシンを定期的にチェックしてパフォーマンスに問題がないかどうか調べ、必要があればVMwareツールを使用してリソースをすばやく追加しています。特定のVMwareサーバが過負荷になった場合、VMotion®を使用して仮想マシンを移動することで、最小限の中断時間で負荷を再分散できます。
  • 耐障害性の向上:サーバ/OSの障害からの回復を、以前よりもスピーディに行うことができるようになりました。物理サーバのハードウェアに障害が発生した場合、回復には必然的に長時間を要します。一方、仮想マシンで障害が発生した場合には、その仮想マシンをただちに再起動できます。仮想サーバで障害が発生しても、仮想マシンの移行によって、残りの仮想サーバでその負荷にすばやく対応できます。
  • ダウンタイムの短縮:VMwareおよびNetAppストレージのメンテナンス機能を利用すれば、ダウンタイムなしでメンテナンス作業を実行できるので、開発技術者への影響が抑えられます。

このような機能拡張の結果、開発およびテスト環境の柔軟性と耐障害性が高まり、開発技術者の生産性向上、製品化期間の短縮という最終的なメリットにつながっています。このアプローチの利点が認められ、他のNetAppエンジニアリング・ラボでも、同様のアプローチを採用しています。

筆者一同、プロジェクトの成功のために辛抱強く協力してくれたNetAppバンガロールのエンジニアリング・サポート・チーム全員に感謝の意を表します。Jim Harrigan(エンジニアリング・サポート)およびSunita Rao(NFSプロダクト・マネージャー)は特に貴重なガイダンスを提供してくれました。


George Stephen, John Cherian, Suresh Kumar John Cherian
NetAppバンガロール、エンジニアリング・サポート サイト管理者

John(中央)が5年前にバンガロールのエンジニアリング・サポート・チームに個人協力者として参加したとき、同チームが管理していた機器はわずかラック5台分でした。サイト管理者に就任してからは、24人のチームを統率し、現時点でラック360台分の機器を管理しています。Johnは昨年、成長著しいEngineering Support Global Technical Operationsにもリーダーとして参加しています。Johnは医者になる勉強をしていましたが、テクノロジへの情熱から、12年前にIT業界に転職したという経歴の持ち主です。

Suresh Kumar
NetAppバンガロール、シニアUNIX管理者

Suresh(右)はUNIX管理者として8年のキャリアがあります。以前はHPに勤務しており、2年ほど前にNetAppに入社勤務しました。NetAppではバンガロール・エンジニアリング・データセンターを中心に活動しており、今回のCOLDプロジェクトで重要な役割を果たしています。

George Stephen
NetAppバンガロール、Windows管理者

George(左)は3年前からNetAppでWindows管理者として勤務しています。この2年間は仮想化テクノロジを専門としています。


関連情報