NetApp Tech OnTap NetApp Logo NetApp Logo
NetApp Tech OnTap
     
「NetApp ビッグデータソリューション
NetApp Open Solution for Hadoop の全貌」
シェアする NetAppオフィシャルFacebook

今月で本テーマの最終回となります。まずは、これまでのおさらいを簡単にしたいとおもいます。いきなりこの回から来られた方は先に以下の各回のサマリを読んでいただけると良いと思います。

第一回:「NetApp もビッグデータに取り組んでいます!」

はじめに、みなさんにはビッグデータをいかにしてビジネスに活用しなければならないか、今まさにそれが急務であるというお話から、そうはいいつつもなかなかそこに至っていない企業様もまだ多いというお話をしました。そして、NetApp では自社が展開するビッグデータのソリューションを通じて少しでも早くお客様の気づきを与えられるよう努めています。ビッグデータと一言でくくられているものを ABC という 3 つの領域にわけ、各領域にハードウェアとソフトウェアの組み合わせで最適なデータ管理インフラをご提供できるようソリューションをご用意しています。このうち「A」は「Analytics (解析・分析)」を示す領域であり、ここにはソフトウェアとして Hadoop、ハードウェアとしてEシリーズを使った組み合わせで Hadoop ソリューションをご提供しています。本連載ではこのソリューションである「NetApp Open Solution for Hadoop」をテーマとしてお話しています。

第二回:「Hadoop とは?」

Hadoop のソリューションの話をするために、まず Hadoop について知っている必要があります。ここで Hadoop 概要をお話しています。昨今 Hadoop はビッグデータ業界でだいぶメジャーなキーワードとなっており様々なベンダーが取り上げるようになっています。Hadoop は元は Google が使っていたインフラの技術が応用されており、いくつかの OSS で提供されているソフトウェア(群)です。いくつか Core となっているのは HDFS という分散ファイルシステムと MapReduce とよばれる分散フレームワークです。管理系のソフトウェアも含め全体でエコシステムを形成します。

Hadoop がメジャーになってきた理由の 1 つとしてはその特徴的な活用方法です。一言でいうと Hadoop は「大量データを短時間で処理する並列分散処理基盤」となります。多くのデータが集め処理する例としては、SNS やアクセスログなどの行動分析わかりやすい例です。みなさんがお買い物をする時に Web サイトなんかで「○○○なんかもどうですか?」とか「これを買った人はこんなのも買ってます。」とか出てくるアレです。バックグラウンドでは、みなさんが購入した履歴や、足あと、アクセスルートなどのログから同じような傾向のあるパターンを照らしあわせてお勧めするというレコメンデーションシステムです。海外ではそれ以外も金融機関のトレンド分析や、医療機関の薬作用分析、セキュリティ分野でも活用され、活躍の場を広げています。少し前では、基幹系のバッチ処理の置き換え程度のイメージしかなかった Hadoop は今や分野を問わず(例えばリアルタイムな処理でさえも)活用されはじめています。

第三回:「ホワイトボックスの Hadoop が抱える課題」

Hadoop をうまくビジネスに活かせている企業様がある一方で、運用していく中での課題も浮き彫りになってきました。その課題提起をしています。並列分散処理が可能ということでどんどんスケールして規模を大きくしていくことができる、といったところから浮き彫りになってきた課題が主です。Hadoop の元々持っている潜在的に弱いポイントや、処理ノードに障害が発生した時のオーバヘッド、そして規模が大きくなった時の運用性などです。これらは特にインフラを運用していく中では真新しいポイントではないのですが、先進的に利用されている企業様はそれをホワイトボックスで構成しているため、影響度が大きいのです。

第四回:「NetApp Open Solution for Hadoop でエンタープライズへ」

第三回の問題提起を受けて、弊社 Hadoop ソリューションでの解決アプローチをお話しています。具体的なコンポーネントとしては、ハードウェアとして「FAS シリーズ」「 E シリーズ」、ソフトウェアとして Hadoop のディストリビューションである「CDH(Cloudera’s Distribution including Apache Hadoop)」の組み合わせソリューションです。これらにより、Hadoop の潜在的な課題解決、高密度で大容量を確保でき且つ、容量の効率化やパフォーマンス向上により Hadoop の特性を最大限に活かすことができます。運用においては、CDH で提供される管理ツールを用いる事で大きな Hadoop クラスタとなってもプロビジョニングやメンテナンスが容易なものとなっていることをお伝えしています。

そして、今回この Hadoop ソリューションを使った弊社自らの事例をご紹介します。

AutoSupport システムを通じて実感した Hadoop の凄さ

このソリューションが生まれたきっかけは、実は NetApp 本社の抱えている課題にありました。そのターゲットとなるシステムが NetApp AutoSupport のシステムです。

NetApp AutoSupport

  NetApp AutoSupport

AutoSupport システムの事を簡単にお話しますと、お客様のストレージシステムから自動的に AutoSupport メッセージなるものがこのシステムに送られます。この中にはシステム情報、ログ、リソース使用状況など様々なものが含まれています。これを使って、NetApp のサポート担当はお客様の問題解決に役立てています。更に、例えば障害のある HDD の情報が含まれていれば代替えパーツの自動発送まで行なってしまいます。お客様が障害に気づいてから手配する場合よりも早くメンテナンスすることが可能です。また、お客様自身も My AutoSupport ポータルを通じてストレージ容量、利用率、効率性、パフォーマンス、健常性といった分析をすることができます。これにより NetApp サポートやお客様双方でのプロアクティブなシステム運用管理が可能となります。

では、AutoSupport システムはどのような課題を抱えていたのでしょうか。それは以下のようなものです。

生成されるデータは 16 ヶ月で倍増
240 億件の非構造化データへのクエリ処理が 4 週間かかっている
もはや上記以上のクエリ処理は現実的に不可能

大容量のデータが対象となるため、IO ボトルネックとなり多くのマイニング要求をみたせなくなる可能性がでてきました。お陰様で多くのお客様にシステム導入いただいているという事になるのですが、バックエンドのシステムではお客様の満足度を損なわないようにするため課題解決が急務となっていたわけです。

そこで、NetApp は Hadoop に注目しました。具体的に検討していく中でもいくつか課題が発生しました。それは以下のようなものです。

AutoSupport データの取り込みに、4.3GB のスループットが必要
パースとロードには 8GB /分のスループットが必要
80% は Read 処理

つまり、我々が期待する SLA を満たすためにはかなりのスループットが必要でした。主に非構造化データを扱う Hadoop のワークロードに対してこれらも満たすよう検討する必要がありました。我々がこれまで得意としていた FAS ストレージではこれらを満たす事は効率性も含めると困難なものでした。そこで E シリーズのストレージを適用した本ソリューションの形を構成したことになります。

NetApp Open Solution for Hadoop

さて、一番気になるのは適用した結果かと思います。AutoSupport システムの改良にソリューションを適用してどのような結果を得たでしょうか。

NetApp Open Solution for Hadoop

4週間かかっていたクエリ処理がたったの 10 時間で完了できるようになりました。また、その 10 倍の量 2400 億件の処理も 18 時間、1 日もかからず完了することができる処理基盤を手に入れることができました。結果、完全に SLA を満たすことができました。

さらには、ここが Hadoop の特有なところにもなりますがこれまでの保守分野の利用だけでなく、これまで AutoSupport データの中で利用されていなかったデータも活用することによって、セールス活動や今後の開発プラン・企画などにも活用し、意思決定にも役立てることができるようになりました。データを余すことなくEシリーズに貯めることができ、且つ Hadoop によりこれまで実現できなかった処理ができるようになり、様々な結果からビジネスに活用できる基盤を得ることができたのです。

「ビッグデータをビジネスに活用するための NetApp Open Solution for Hadoop」

「NetApp Open Solution for Hadoop を使用して AutoSupport 分析を迅速化」

我々が実現したものは Hadoop 活用の 1 つのリファレンスとなり得るものと考えています。特に日本の方々にもわかりやすい実現例ではないでしょうか。前回までお話させていただいたように、特に本ソリューションは Hadoop のスケールアウト型の分散処理基盤を十分に効率よく活かすために最適化されていることも今後企業様が導入を検討する上での後押しができるものと思っています。

是非これを機にみなさんのデータを活用してみてはいかがでしょうか。NetApp が Hadoop で協業しているパートナー様とご一緒にお手伝いさせていただきます。

終わりに

冒頭でもお伝えしたとおり、今月で本テーマの最終回となります。これまでご購読いただいたみなさまには大変感謝いたします。今後も本ソリューションや他のビッグデータソリューションの活用をテーマに連載できればと考えております。

ご愛読ありがとうございました。

倉持健史(くらもちたけし)

倉持健史(くらもちたけし)
パートナーSE 部 システムズエンジニア
NetApp




東京電機大学情報科学科卒、UNIX 系 SIer、Linux HA クラスタソフトウェアメーカを経て 2011 年 9 月パートナー SE として入社
プリセールス SE としてパートナー支援を中心に活動、本年度からは BigData ソリューションも担当
1978 年 8 月 22 日 東京生まれ
基本はインドアだが登山も好き、TEKKEN はポールでゴリ押し
関連情報
関連情報
第一回:NetApp ビッグデータソリューション
第二回: NetApp ビッグデータソリューション
第三回: NetApp ビッグデータソリューション
第四回: NetApp ビッグデータソリューション
関連情報
 
Go further, faster TRUSTe
お問い合わせ   |   購入方法   |   フィードバック   |   採用情報  |   登録   |   プライバシーポリシー   |   © 2013 NetApp