NetApp Tech OnTap NetApp Logo NetApp Logo
NetApp Tech OnTap
     
clustered Data ONTAPが実現するノンストップ オペレーション
Charlotte Brooks
Charlotte Brooks
テクニカル マーケティング エンジニア

昨今では、共有インフラに移行する企業が増えており、計画的にシステムを停止させ、定期メンテナンスを行うことは、ほぼ不可能となっています。たとえば、1つのストレージ システムを仮想化し、多くのアプリケーションやユーザ グループ、さまざまな利害関係者で共有している場合などには、仮にシステムの計画停止ができたとしても、スケジュール調整に長い時間がかかり、利用者もなんらかの不便を被ることになります。さらに、使用期間を終えた機器をアップグレードして入れ替える場合は、実際の中断時間がわずかであっても、時間をかけて複雑な計画を組まなければなりません。

ネットアップのclustered Data ONTAP®は、メンテナンス処理やライフサイクル処理に伴う計画的停止と、ハードウェアやソフトウェアの障害によって発生する計画外停止を解消するために設計されています。ネットアップの目標は、ダウンタイムがなく、常にフル機能を発揮できる耐障害性に優れたストレージ インフラを実現することです。たとえば、流しで蛇口をひねると必ず水が出るように、ネットアップでは、すべての社会インフラと同様の信頼性を備えたデータ提供を目指しています。

cluster-data

図1)ネットアップのノンストップ オペレーションを使用すると、計画的停止時と計画外停止時の両方でインフラが保護され、メンテナンス処理やライフサイクル処理もきわめてシンプルになります。

ネットアップのデータ / ネットワーク移行機能を使用すると、メンテナンス作業やライフサイクル作業を、システムを停止せずに実行できるようになります。ノンストップ オペレーションによって得られるメリットは計り知れず、その多くは収益向上に直接的に貢献します。

  • 新しいハードウェアやソフトウェアの迅速な導入:システムを停止させなければ、ハードウェアのアップグレードは不可能。なのに、当面システムは停止できそうにない-こういう悩ましい経験はないでしょうか。せっかくの新しいハードウェアを、何カ月も倉庫に放置したり、通路に置きっぱなしにしたりしていませんか?ROI(投資回収率)を低下させているのは、まさにこうした問題なのです。しかし、clustered Data ONTAPでノンストップ オペレーションを実現すれば、もう待ち時間は必要ありません。
  • 利用率の向上:計画停止まで待つことなく、必要に応じてストレージを追加できるため、ネットアップ クラスタの利用率をさらに高めることができます。十分な安心を得るために、予備のストレージ容量を備えておく必要はなくなります。
  • 運用の簡素化:一般的な計画停止では、運用中のアプリケーションを長時間オフラインにしなければならないケースが少なくありません。さらに、メンテナンスの完了後には、停止したアプリケーションを再起動し、すべて元どおりに動作することを検証する必要があります。ノンストップ オペレーションの場合は、こうした手間のかかる作業がないため、ストレージ関連の作業に意識を集中することができます。ネットアップは、使いやすいだけでなく、必要に応じて何度でもストレスなく処理を繰り返せるような、ノンストップ オペレーション用のツールを提供しています。

この記事では、ネットアップが提供するノンストップ オペレーション用のツールについて詳しく説明するとともに、ツールの機能を活用して、重要なメンテナンス作業とライフサイクル作業を実施する方法を紹介したいと思います。

「ノンストップ」の鍵を握る3つのツール

clustered Data ONTAPを導入すると、システムの耐障害性が強化され、日々の業務やメンテナンス作業を中断することなくストレージ インフラを変更できるようになります。つまり、ノンストップ オペレーションが実現するのです。これが可能なのは、物理リソースに直接アクセスする代わりに、clustered Data ONTAPが、Storage Virtual Machine(SVM)と呼ばれる論理構成を通じてすべてのデータ アクセスを実行しているためです。そのため、クライアント側やホスト側で変更や停止を行わなくても、SVMが使用する物理リソースを変更することができます。

clustered Data ONTAPのStorage Virtual Machine(SVM)は、物理ハードウェアからのデータ
                        アクセスを抽象化することで柔軟性向上を実現します。

図2) clustered Data ONTAPのStorage Virtual Machine(SVM)は、物理ハードウェアからのデータ アクセスを抽象化することで柔軟性向上を実現します。

この処理を実現するため、3つの標準ツールが用意されています。

  • DataMotion™ for Volumes(vol move):同一または別のクラスタ ノード上にあるアグリゲート間で、データ ボリュームを移動できます。
  • LIFの移動機能:clustered Data ONTAPでは、物理インターフェイスを仮想化し、LIF(論理インターフェイス)として使用できます。LIFの移動機能を使用すると、同一または別のクラスタ ノード上にあるネットワーク ポート間で、LIFを移動することができます。
  • ARL(アグリゲートの再配置)機能:HAペアを構成するコントローラ間で、データを移動させずに、アグリゲート全体を移動できます。

上記のツールを個別に、または組み合わせて使用すると、高速ディスクから低速ディスクへとボリュームを移動する、コントローラとストレージの全テクノロジを入れ替える、といったさまざまな操作を、システムを停止させることなく行えます。

DataMotion for Volumes

DataMotion for Volumes(通称vol move)は、SVM内のボリュームを、あるアグリゲート(ソース)から別のアグリゲート(デスティネーション)へと移動できる機能です。デスティネーションの場所は、同一ノード上でもクラスタ内の任意のノード上でも構いません。データの移動先と使用するデータ プロトコル(SANまたはNAS)にかかわらず、移動処理の間とその前後を通じて、クライアント / ホスト アプリケーションによるデータ アクセスは影響を受けずに維持されます。

ボリュームの移動プロセスは4つのフェーズで構成されます。ボリューム移動の開始後、それぞれのステージは自動的に進行しますが、各フェーズや下層で行われている処理について理解しておくことが重要です。

  • 検証フェーズ:デスティネーション アグリゲート上の空き容量とその他の要件について確認し、要求されたvol moveが可能かどうかを検証します。
  • セットアップ フェーズ:新しいボリュームをデスティネーション アグリゲート上に作成します。
  • 反復フェーズ:クラスタ ネットワークを介し、Snapshot™コピーをグループ単位で複製することにより、ソース ボリュームからデスティネーション ボリュームへとデータを複製します。また、1回の複製処理が終わるたび、ソースとデスティネーションの差分をチェックし、最後のレプリケーション処理が、定義済みのカットオーバー フェーズの時間内に完了できる量であるかどうかを確認します。このフェーズの実行中、クライアントやホストとソース ボリュームとの間のI/Oに影響はありません。
  • カットオーバー フェーズ:すべてのI/Oアクセスをキューに格納し、ソース ボリュームに対する要求をブロックします。レプリケーションの最終転送が完了したら、新しいボリュームの情報をボリューム データベースに反映します。その後、キューに入れたI/Oを、移動先のボリューム上で再開します。このカットオーバー処理は、クライアント / ホスト アプリケーションの許容可能な時間に収まるよう設定された、「カットオーバー期間」内に完了します。

指定したカットオーバー時間内にカットオーバーを完了できない場合は、カットオーバー フェーズを中止し、ソース ボリューム上でデータ アクセスを再開します。カットオーバー処理中にキューに格納され、保留されている要求がある場合は、要求を処理してから、反復フェーズを再開し、カットオーバーを再試行する必要がなくなるまで処理を繰り返します。

カットオーバーの長さは30~300秒の間で設定でき、デフォルトの値は45秒です。カットオーバー フェーズは、一連のプロセスの中で最も重要な部分です。そのため、このフェーズについて、vol moveは多くの制御機能を備えています。たとえば、一連の処理を行う際、管理者が起動するまでカットオーバーが実行されないように設定できます。この機能を使用すると、任意の時間でカットオーバーを完了できるようになります。

LIFの移動機能

LIFの移動機能は、ネットワーク接続の移動に関し、vol moveがデータ ボリュームに対して提供するのと同様の機能を備えています。LIFは、SANやNASのネットワーク接続を仮想化する際に使用される、論理ネットワーク インターフェイスです。LIFはSVMと関連付けられ、コントローラ上の物理ネットワーク ポート、インターフェイス グループ、VLAN(タギングが有効な場合)とマッピングされます。LIFは仮想インターフェイスなので、同一または別のクラスタ ノード上にある他の物理ポートにLIFを移動したとしても、LIFアドレスが変更されることはありません。NASの場合、クラスタ ノードの1台がダウンすると、HAペアでのストレージのフェイルオーバーと連動してLIFのフェイルオーバーが自動的に実行され、データ アクセスが維持されます。別のポートにLIFを手動で移すことも可能です。

各クラスタ ノードは最大262個のLIFをサポートし、そのうち6個は管理とクラスタ機能のために予約されます。データLIFはクライアントやホストにデータを提供するために使用され、SANとNASに対応しています。IPベースのLIF(NASとiSCSIに対応)にはIPアドレスが割り当てられ、FCベースのLIFにはWWPNが割り当てられます。SVMにはそれぞれ、1つ以上のLIFが必要です。通常の運用時には、ノードあたりのLIFの数を、128個以下にすることを推奨します。こうしておけば、HAフェイルオーバーが発生し、障害が起きたノードのすべてのLIFを引き継いだとしても、パートナー ノード上ではLIFの上限を超えることがありません。

データLIFのほかには、CLIまたはOnCommand® System Managerを介してクラスタにアクセスするための管理LIFと、クラスタ インターコネクト ネットワークで使用するクラスタ間LIFがあります。

LIFの移動機能を使用すると、物理ポート間またはインターフェイス グループ間で、IPベースのLIFを移動できます。SANデータLIF(iSCSIを含む)は移動の必要がなく、フェイルオーバーは行われません。代わりに、イニシエータを備えたホスト上で実行されるALUA処理とMPIO処理によって、パスの最適化とパス障害への対応が行われます。

LIFの移動機能は、すべてのデータLIF(言い換えれば全ネットワーク トラフィック)を特定のノードから移動して、ハードウェアのメンテナンスや入れ替えを実施する場合に使用できます。そのほかの使い方として、エントリレベルの2ノード スイッチレス クラスタ(clustered Data ONTAP 8.2の新機能)を、システムを停止させることなく、2ノードのスイッチ クラスタにアップグレードすることもできます。LIFの移動機能によってクラスタ間LIFの移動が可能となることで、データ フローを中断せずにスイッチを導入できます。スイッチ設置後は、随時クラスタを拡張して、構成を拡大していくことが可能です。

LIFの移動機能を使用すると、同一ノード上の別のポートにLIFを移動できます。たとえば、GbEポート上に設定されたLIFがあるとします。このLIFの帯域幅を増やす必要がある場合は、一時的または永続的に、このポートを同一ノード上の10GbEポートに移動することができます。

LIFの詳細と、clustered Data ONTAPのネットワーク関連のトピックについては、『Best Practices for Clustered Data ONTAP Network Configurations』(TR-4182)を参照してください。

アグリゲートの再配置機能

ARL(アグリゲートの再配置)機能は、clustered Data ONTAP 8.2で導入された新機能です。clustered Data ONTAPのクラスタ ノードはすべてHAペアとして構成されているため(シングルノード クラスタは除く)、ARL機能を利用して、HAペアの一方のコントローラから、もう一方のコントローラへと一時的に所有権を移転することで、データを退避することなく、アップグレード プロセスを容易に実行できます。

これまでのように、データを別のコントローラ ペアに移動し、既存のコントローラ ペアをアップグレードしてから戻すといった処理が不要なため、アップグレードにかかる時間を大幅に削減できます。ARLの仕組みや、使用する際のベストプラクティスについては、Julian Catesによって寄稿されたTech OnTap®の記事(『What’s New in Clustered Data ONTAP 8.2?』)で詳細に説明されています。

メンテナンス作業とライフサイクル作業の実行

基本的なツールについて理解できたところで、次はこうしたツールを使用して、メンテナンス作業とライフサイクル作業を実施する方法を見ていきましょう。表1に、該当するさまざまな作業を挙げ、システムを停止させずに処理を実行することによるメリットをまとめます。

表1)ライフサイクル作業とメンテナンス作業に関するノンストップ オペレーションの例

ライフサイクル処理 メリット
  • コントローラのパフォーマンスや、容量とディスク パフォーマンスのバランス、利用率の調整
  • 設備投資(先行投資)額の低減
  • ライフサイクル管理の改善
  • ホットスポットの解消 (パフォーマンスの向上、計画外停止発生リスクの低減)
  • ストレージ コントローラやディスク シェルフの追加
  • コントローラへのハードウェアの追加
  • パフォーマンスや密度の改善
  • 耐障害性の向上
  • ストレージ コントローラ、ディスク シェルフ、クラスタ スイッチのアップグレード
  • テクノロジ更新時のシステム停止が不要に
  • メンテナンス処理  
  • ストレージ ソフトウェアのアップグレード
  • 新しい機能をすばやく活用
  • システム、ディスク、スイッチ、ファームウェアのアップグレード
  • 潜在的なリスクの軽減
  • 障害が発生したコントローラやコントローラ内のコンポーネント(NIC、HBAなど)の交換、障害が発生したストレージ コンポーネント(ケーブル、ドライブ、I/Oモジュールなど)の交換
  • 管理オーバーヘッドが軽減
  • メンテナンス作業の実施

    ストレージ システムに格納されたデータの多くは、システムの寿命よりも長く使用されることになります。長期的には、いずれソフトウェアの更新や、ハードウェアの交換、修理を行う必要が生じます。

    ソフトウェアとファームウェアの更新

    ネットアップのNDU(オンライン アップグレード)は、ストレージ システム ソフトウェアとストレージ システム ファームウェア両方のアップグレードに適用できます。NDUは、包括的な機能であり、以下をスムーズにアップグレードできます。

    • オペレーティング システム ソフトウェア(Data ONTAP)
    • オペレーティング システム ファームウェア(BIOS)
    • シェルフ ファームウェア
    • ディスク ファームウェア
    • Alternate Control Path(ACP)ファームウェア

    アップデート処理では、I/Oの中断が常に短時間に抑えられます。また、アプリケーションの運用は継続されるため、ユーザへの通知や、手間のかかるダウンタイムのスケジューリング作業は必要ありません。ストレージのテイクオーバーとギブバック(ARLの一環として実施)をLIFの移動と併用すれば、HAペアのコントローラの片方ずつで順番にメンテナンス処理を完了でき、データ サービスを中断せずに済みます。NDUの計画を立てる際には、My AutoSupport™のUpgrade Advisorツールが役立ちます(ネットアップのサポート サイトへのアクセス権が必要)。このツールを使用すると、クラスタ全体のアップグレードに必要となる手順をすべてリスト化できます。

    clustered Data ONTAP 8.2よりも前のバージョンでは、オペレーティング システムをアップグレードする場合、「ローリング アップグレード」プロセスによってHAペアを1組ずつアップグレードしていく必要があり、大規模なクラスタではアップグレードに長い時間がかかっていました。clustered Data ONTAP 8.2以降では、ノード数が8台以上のクラスタで、バッチ アップグレードを選択できるようになったため、大規模クラスタのアップグレードの時間が以前より短くなりました。バッチ アップグレードを使用すると、複数のノード上で並行してアップグレード処理を実行し、クラスタ全体としてのアップグレードの合計時間を短縮できます。アップグレードの進行中、クラスタでは2種類のバージョンのclustered Data ONTAPを実行可能です。ただし、クラスタをmixedモードで実行する時間は、最小限にするのがベストプラクティスです。バッチ アップグレードは、この条件を達成しやすくします。

    ハードウェアの修理と交換

    clustered Data ONTAPによってノンストップ オペレーションが実現すると、ディスク ドライブやケーブルから、コントローラとシェルフまで、ストレージ サブシステム内のさまざまなハードウェア コンポーネントを、システムを停止させずに修理したり交換することができます。ディスク ドライブはRAIDで保護されており、標準的な手順で修理または交換できるため、通常は、上記のようなツールを使用する必要はありません。また、ケーブルなど、各種の冗長化されたコンポーネントで障害が発生した場合も、こうしたツールを使用せずに交換できます。

    ライフサイクル処理の実施

    ライフサイクル処理には、容量やパフォーマンスを調整して最適化する作業のほか、クラスタ内のテクノロジの拡張または更新に伴う処理が含まれます。clustered Data ONTAPのインフラは、何年も運用を続けていれば必ず発生するような、多くの変更に対する柔軟性と耐障害性を備えています。

    どれほど計画が優れていても、一部のアグリゲートの容量が足りなくなったり、反対に容量が余ったりすることは避けられません。こうした種類の容量の不均衡は、vol moveを使用して、利用率の高いアグリゲートから余裕のあるアグリゲートへとボリュームを移動することで簡単に修正できます。

    パフォーマンスの不均衡にも、同様の方法で対処可能です。ボリュームのパフォーマンスを高めたいなら、より高機能なコントローラ(mixedモードのクラスタの場合)、負荷の少ないコントローラ、または高速なメディアにボリュームを移動します。たとえば、パフォーマンス向上を必要とするボリュームがある場合、そのボリュームを大容量ディスクのアグリゲートから高パフォーマンス ディスクのアグリゲートに移動する方法のほか、Flash Cache™またはFlash Pool™アグリゲート(SSDとHDDを組み合わせたアグリゲート)を含むコントローラに移動する方法があります。その逆に、データセットのパフォーマンス要件が低下した場合は、関連する1つ以上のボリュームを、大容量ディスクで構成されたアグリゲートに移動させることもできます。

    clustered Data ONTAPクラスタの管理者にとって、vol moveは標準的かつ特にストレスなく実行できるツールであり、通常は変更申請なしで使用できます。vol moveを使用すれば、アプリケーションの要件に見合った適切なクラスのストレージへと簡単にデータを移動でき、パフォーマンスの高い高価なドライブを無条件にプロビジョニングして導入する必要がないため、ITチームは容量とパフォーマンスの目標を達成し、予算の範囲内で運用を最適化できます。

    テクノロジの更新

    ネットアップのノンストップ オペレーションをさらに魅力的なものにしているのが、システムを稼働させたままテクノロジを全面更新できる機能です。従来、ストレージ ハードウェアの交換にはシステムの停止を伴い、多くの時間とコストがかかるのが当たり前でした。事実、最近の調査によれば、古いストレージ アレイから新しいストレージ アレイへのデータ移行には、平均で約5カ月かかり、アレイの所有コストがほぼ50%も増えることがわかっています。

    clustered Data ONTAPでは、データをオフラインにしなくても、ハードウェアの全面更新をシンプルかつ簡単に行えるため、前述のような一見して気付きにくいコストの増大を回避できます。クラスタ構成に組み込むストレージ システムは世代やモデルが同じである必要はないため、FASプラットフォームを別のモデルに入れ替えたり、ストレージ インフラ全体を入れ替えたりすることが可能です。もちろんいずれの場合も、アプリケーションの運用や多忙なユーザの業務が中断されることはありません。これは、ネットアップ ストレージならではの特長だといえます。

    既存のストレージ コントローラをアップグレードする場合は、ARLを使用するとすばやく効率的に実行でき、ドライブとシェルフを含むフル アップグレードの場合は、vol moveの使用が効果的です。後者のケースでは、クラスタに新しいシステムを追加し、その新しいシステムに古いシステムのデータを移動してから、古いシステムの運用を停止するのが一般的です。

    こうしたテクノロジの全面更新は、理論上可能なだけでなく、多くの実例があります。たとえば、clustered Data ONTAPを長年愛用中のあるユーザは、20台以上のFAS6080を使用したクラスタから、それぞれ512GBのFlash Cacheストレージを搭載した16台のFAS6280に、システムを停止することなく移行を完了しました。総ストレージ容量はいずれも約1ペタバイトあり、更新の前後で変化はありません。

    移行作業は4台を1組として進められ、ITチームは4台の新しいノードを追加し、4台の古いノードのボリュームを新しいノードへと移動しました。次に、古いノードをシャットダウンし、サポート終了期限を迎えていないディスク シェルフを(一部のシェルフは非常に古く、廃棄処分が必要でした)、新しいノードの次のセットに転用しました。

    ユーザの皆様からは、スループットと体感パフォーマンスが著しく向上したという声や、アップグレードによってメンテナンス コストも削減されたという声が寄せられています。最も重要なのは、全プロセスがダウンタイムなしで実行されている点です。ARLを利用できるようになったことで、従来と同様のアップグレードを、シンプルに、そして格段に短い時間で行えるようになったのです。先見の明のある企業では、すでにARLが活用されており、データ移行やダウンタイムを一切必要とせずに、クラスタの全面更新を1日で完了した例もあります。

    まとめ

    clustered Data ONTAPは、ノンストップ オペレーションをワンランク上のレベルに進化させます。vol move、LIFの移動機能、アグリゲートの再配置機能という、数種のシンプルなツールを使用することにより、以前ならば計画停止と業務への多大な影響を避けられなかった、メンテナンス作業とライフサイクル作業がすばやく簡単に実行できるようになりました。また、システムを停止させる手間がなく、必要に応じて作業を実施できるため、ストレージ環境を最適化し、リスクを大幅に減少することが可能となります。

    ノンストップ オペレーションに関するご意見をお寄せください。

    ご質問、意見交換、情報提供は、ネットアップのコミュニティ サイトまでお願いいたします。
    Charlotte Brooks、テクニカル マーケティング エンジニア(TME)

    Tech OnTap
    ご購読はこちらから
    Tech OnTapは、ITに関する解説のほか、実用性の高いベストプラクティス、ヒントやツール、開発の舞台裏を探るインタビュー、デモ、ピア レビューなど、貴重な情報満載の月刊ニュース レターです。


    ネットアップ コミュニティのTech OnTap
    から今すぐご登録ください。

    Explore
    clustered Data ONTAP 8.2とノンストップ オペレーションの詳細

    先日、ネットアップでTMEを務めるJulian Catesが、バージョン8.2の新機能をレビューし、アグリゲートの再配置、サービス品質(QoS)、Microsoft® Windows®向けの拡張機能に関する詳細な記事を寄稿しました。まだお読みでない場合はぜひご一読いただければと思います。また、ノンストップ オペレーション、効率性、スケーラビリティがもたらすビジネス上の利点について考察した、新しいホワイト ペーパーも併せてご利用ください。

    『What’s New in Clustered Data ONTAP 8.2?』

    『Remove IT Constraints and Speed Response to Business Changes with Clustered Data ONTAP』
    Explore
     
    TRUSTe
    お問い合わせ   |   購入方法   |   フィードバック   |   採用情報  |   登録   |   プライバシーポリシー   |   © 2013 NetApp