NetApp Tech OnTap NetApp Logo
NetApp Tech OnTap
     
【IT インフラの「いま」を可視化、成長に向けた「これから」へ ~OnCommand Insight (OCI)~】
シェアするNetAppオフィシャルFacebook   ツイート

 

第 4 回は性能分析について記載します。多くのお客様にて、OCIの性能分析機能を利用いただいております。今回は、仮想基盤での個々の仮想マシンのトラブルシューティング、全体の負荷の傾向把握、新機能の Cognitive Analytics、他の環境での性能取得について順に記載させて頂きます。

個々の仮想マシンの性能

OCI では、FAS などのストレージ装置の性能だけでなく、vSphere に代表される仮想環境の性能を可視化することができます。vSphere と NetApp の組み合わせで利用いただいている場合、OCI サーバが vCenter サーバに接続することで、vCenter で取得している情報を OCI 側に取り込みます。さらに OCI サーバがFASに接続することで、Volume 毎のパフォーマンス情報を取得することが可能です。ここでポイントなのが、OCI サーバがそれぞれの ESXi 上で稼働している仮想マシンを認識することができるので、どの仮想マシンが FAS のどの Volume に配置されているかがわかります。もちろん vCenter でも仮想マシンの負荷は確認できますし、NetApp が無償で提供している OnCommand Performance Manager でも FAS の負荷は確認できますが、それを一気通貫で確認できるが OCI の優れた点の1つです。

以下の例では、仮想マシンのレイテンシが平均 100ms を超え、最大では 750ms の遅延が発生しています。ストレージに起因する遅延は平均して 20ms を超えたときが一般的な目安になりますが、この例では、平均100msを超えているので何かしらの問題が発生していると考えられます。この画像内の上のグラフはレイテンシを、下のグラフは IOPS を、青色の線が仮想マシンの性能情報、茶色の線がストレージの性能を表しています。グラフでは、午後2時過ぎに仮想マシンとストレージのレイテンシが上がり、ストレージの IOPS が減り、仮想マシンの IOPS が増えていることが確認できます。

ここが OCI をお勧めするポイントなのですが、右側に表示されている「 Top correlated resources 」に現在表示されている仮想マシンの負荷と相関関係が高いリソースが順に表示されます。この例では、負荷の高い仮想マシンと仮想マシンが格納された Volume と相関関係が高く、その負荷が非常に高くなっています。この場合、一般的な対処方法として、OCI の話と逸れてしまいますが、FAS の HA のコントローラで片ノードだけ負荷が高い場合は、別のノードに移したり、1 ノード当たり 1 Volume で運用していた場合には、複数 Volume に分けて FAS の CPU コアの利用を分散させたりすることが考えられます。

OCI Image

全体の負荷の傾向把握

OCI は、OCI サーバと DWH サーバの 2 つのサーバにて参照系の機能を提供しています。OCI サーバ側では、直近の情報の参照を JAVA の UI にて、 DWH サーバ側では中長期的な傾向を Web の UI にて提供しています。DWH サーバは、Cognos ベースでのレポート機能を提供しており、標準でいくつかのレポートを提供しています。その標準レポートの 1 つに「 VM Capacity and Performance 」というレポートがあり、仮想マシンの負荷状況や容量をメインに、ストレージとの相関をいくつかのグラフに分けて提供しています。

あるお客様では、左下の仮想マシンのピークの CPU 利用率(X軸)と IOPS (Y 軸)が一目でわかるだけで、非常に有用とのお言葉を頂きました。また、右下のグラフでは、利用していない仮想マシンの割合を提供しています。こちらも、仮想基盤の容量が足りないと思っていたが、思っていた以上に利用していない(グラフでは Inactive の)仮想マシンが多く、容量の追加ではなく、これらの仮想マシンを削除することが先ということを決めたお客様もいらっしゃいます。

OCI Image

さらに「 ESX vs VM Performance 」というレポートがあり、ESXi サーバ毎にレイテンシや仮想マシン毎の利用状況などの情報を提供しています。このレポートも運用後、負荷が偏りがちなESXiサーバの平準化に役立ちますし、新しいシステムの仮想マシンをどの ESXi サーバやストレージに割り当てるかの参考になります。

OCI Image

Cognitive Analytics の機能

最近流行りの Cognitive という単語ですが、OCI にも Cognitive Analytics のエンジンが組み込まれています。これは、仮想マシンやストレージの負荷を学習し、OCI が学習した結果と大きく異なる(期待される値とかけ離れた)値を検出し、アラートを出力する機能で、最新の OCI7.2 のバージョンから搭載されています。

例えばバックアップを取得すると大量のデータがストレージ装置に書き込まれます。実はストレージ装置としての負荷は、日中より夜間のバックアップのほうが高いお客様が多かったりします。また DB サーバなどは日中の OLTP 処理と夜間のバッチ処理では、負荷状況(スループットと IOPS )は全く異なります。そのため OCI のようなツールは、中長期的な傾向を把握して、傾向に対して、異常を通知する機能は非常に重要です。

OCI Image

以下はあるお客様の FAS の利用率(レイテンシ、IOPS 、利用率)を OCI で取得したものです。取得したレイテンシ、IOPS、利用率それぞれに対して、強い相関関係があるように見えます。そのため、Cognitive Analytics 機能を使って、傾向分析することで、性能や容量の限界に対する予兆検知、通常とは異なる挙動の予兆検知に利用できます。さらには容量や性能が予測可能となることで、最適なインフラ投資の意思決定支援に利用できると考えています。

OCI Image

他の環境での性能取得

OCI は、vSphere の環境以外に Hyper-V ホストや OpenStack の環境の性能取得も可能です。Hyper-V に関しては、vSphere の環境と取得できる情報が若干異なります。例えば、仮想マシンの swap rate (スワップ領域)の情報は取得できません。これはハイパーバイザー層で取得している情報の違いによるものです。

また、Cisco 製、旧 Brocade 製、Qlogic 製の SAN Switch の情報も取得することが可能です。一般的には各 SAN Switch から、SNMP にてインベントリやパフォーマンスの情報を取得します。元々の OCI の製品コンセプトは、バラバラに導入された SAN 環境を見える化する製品です。US での一般ユーザ様の事例では、複雑な SAN 環境と少しの NAS 環境というヘテロ環境での採用が一般的です。

まとめ

第 4 回では、性能に関して記載させて頂きました。リソースの有効活用、トラブル時の初動はどの組織でも共通の悩みだと考えています。OCI を利用することで、個々の仮想マシンのトラブルシューティングから仮想基盤の全体負荷の傾向、分析エンジンによる負荷傾向の把握など、お客様環境の可視化に、ぜひ OCIを活用いただけたらと思っています。次回は、今回少しご紹介したレポート機能を踏み込んでご紹介したいと思っています。

 

池田 正一(いけだ しょういち)
ネットアップ株式会社
システム技術本部 コンサルティングSE部 コンサルティングシステムズ エンジニア 国内のSIerを経てNetApp入社、写真は2016年のMS Tech Summit登壇時のもの

OCI Image

関連情報

関連情報
【IT インフラの「いま」を可視化、 成長に向けた「これから」へ
~OnCommand Insight (OCI) ~】


第 1 回: OCI 概要

第 2 回: DC 可視化

第 3 回:容量管理・最適化

第 4 回:性能分析

第 5 回:レポート
  • 掲載予定


第 6 回:まとめ
  • 掲載予定

関連情報
Go further, faster
お問い合わせ   |   購入方法   |   フィードバック   |   採用情報  |   登録   |   プライバシーポリシー   |   © 2016 NetApp