NetApp Tech OnTap NetApp Logo
NetApp Tech OnTap
新連載:ビッグデータを考える
第3回:ビッグデータがNetAppにもたらしたモノとは?
シェアする NetAppオフィシャルFacebook


第2回では市場におけるビッグデータの動向、Hadoopの登場とエンタープライズ用途における課題をご説明しました。Hadoopの分散コンピューティング技術は低いコストで高速なデータ分析環境を手にするためには優れたものであることに変わりありません。しかし、その特長を活かしつつ、高い信頼性やパフォーマンスによってエンタープライズ用途でさらに効果的に使うこともできると思います。今号お伝えする第3回ではそのためのソリューションと実践したネットアップがどのような効果を得られたのかを紹介します。

NetAppはどのようにビッグデータの課題を解決するのか

Hadoopを使えば、コモディティサーバを複数連携させることで、大量のデータを分散処理することができるため、非常に高速な処理環境を低コストで構築することが可能な一方で、エンタープライズ用途に求められる、柔軟な拡張性や高信頼性、そして容易な管理などの要求を満たせないことをすでにお伝えしました。NetAppはHadoopをエンタープライズクラスの要求を満たすビッグデータ活用のためのソリューションとして、NetApp Open Solution for Hadoopを提供しています。

NetApp Open Solution for Hadoopは従来のコスト重視でコモディティハードウェアを採用するHadoopソリューションにおいて課題となる信頼性や拡張性、管理面を解消するためのソリューションです。

 NetApp Open Solution for Hadoopは従来のコスト重視でコモディティハードウェアを採用するHadoopソリューションにおいて課題となる信頼性や拡張性、管理面を解消するためのソリューションです。

NetApp Open Solution for Hadoopを導入することで、TCO削減を実現しつつ、高効率、高柔軟、高パフォーマンスのHadoop基盤を構築・運用することができます。次にNetApp Open Solution for Hadoopが提供するメリットをご説明していきたいと思います。

ネームノードの強化し、耐障害性を実現

NetApp Open Solution for HadoopではHadoopの要であるHDFS(Hadoop Distributed FileSystem)のネームノードの単一障害点を回避することで可用性を高めています。サーバはActive/StandbyのHA構成をとり、重要なメタデータの配置場所としては、ネットアップが提供する高信頼性ストレージシステム「FASプラットフォーム」で構築します。FASシリーズの採用によってHDFS上のデータ喪失を避け、また、ネームノード障害時であっても、リカバリの時間を短縮することができます。

ディスク障害・データノード障害にも強いデザイン

一般的にはサーバの内蔵ディスクで構築するデータノードを高密度でパフォーマンスに優れたネットアップの「E-Series Storageプラットフォーム」上に配置することで、ディスク障害で発生してしまうタスクの再振り分け、分散ブロックの再複製処理、またそれに伴うパフォーマンス劣化を回避します。また、万が一障害が発生した場合でもリカバリ処理はストレージシステム側にオフロードされるため、サーバは継続してタスクを処理できます。

パフォーマンス

HDFSの分散データの配置場所として1台のE2660を利用し、8つのデータ ノードを稼働した環境で検証したところ、優れたパフォーマンスを実証しています。また、ストレージシステム側にオフロードできることで、Hadoopによるレプリカカウントを少なくすることができるため、サーバの負荷、データノード間のトラフィック軽減および、容量効率も上げる事に貢献します。

パフォーマンス

CPUとストレージを分散

エンタープライズのお客様からのご要望に対して柔軟に対応するために、NetApp Open Solution for Hadoopにおけるデータノードの構成はCPUとストレージが分離されています。Hadoopクラスタが拡大するにあたってCPUだけや、ストレージだけといった拡張が柔軟に可能となります。

汎用性・オープン性

NetApp Open Solution for HadoopはディストリビューションとしてApache Hadoopと同じデザインであり、オープンなソリューションである事が特徴であるCloudera社のCDH(Cloudera's Distribution including Apache Hadoop)を適用しています。ネットアップとCloudera社はビッグデータ分野で協業しており、Apache Hadoopのエンタープライズ利用における利用を推進しています。

NetApp AutoSupportでは全世界で稼働する膨大なNetAppの情報を活用

NetApp Open Solution for Hadoop最大級の採用事例が、NetApp AutoSupportです。NetApp AutoSupportは、お客様がご利用のNetAppストレージを安心・安全に運用するために無償で利用可能なプロアクティブサポートサービスです。お客様がご利用のNetAppストレージシステム上でNetApp AutoSupportを有効にすると、NetAppストレージのシステム診断情報やストレージの利用状況がネットアップによって自動的に収集されます。これらの情報はNetApp AutoSupportのデータベース上で自動分析され、システムアラートや週単位のログ、またはサービスポータルを通じて確認することができます。その結果、ストレージシステムの安定性やパフォーマンスに今後影響を及ぼす可能性のある問題点をすべて特定し、トラブルの未然防止を実現します。ネットアップの調査ではNetApp AutoSupportを有効にすることで障害発生率が20%も減少する例もあるなど、ROIの高いストレージの運用が可能にします。

お客様のサイトからネットアップテクニカルサポートセンターにされる受信データトランザクションは毎週600,000件を超えており、中でも週あたりの受信データの約40%は週末の18時間に集中して転送されます。このため、Service-Level Agreement (SLA)に影響を与えるI/Oのボトルネックが想定されました。さらにNetApp AutoSupportを導入するお客様が増加するにつれて、AutoSupportデータも月あたり約7TB増加しており、関連するストレージ要件は、16カ月ごとに倍増していたのです。

従来導入していたデータ解析基盤に限界。Hadoopの採用に。

ネットアップはこのようなデータ解析プラットフォームにOracle Exadataを採用し、活用してきました。しかし、前述したようにデータ量の爆発的な増加に追従するためにはOracle Exadataそのものを継続して拡張しなければなりません。この場合、拡張のためのコストも膨大なものとなってしまいます。ネットアップとしてはNetApp AutoSupportがお客様への優れたソリューションではあるものの、適切なコストで運用することが必須条件でもあったのです。この観点もまたお客様と同じ視点でROIを考えなければならないところです。

ネットアップは全世界のNetAppストレージシステムの稼働情報が集まる巨大なデータベースの解析にApache Hadoopを採用することを決定。そして、さまざまな要件をクリアするためのストレージソリューションとして、NetApp Open Solution for Hadoopを開発、導入しました。

 ネットアップは全世界のNetAppストレージシステムの稼働情報が集まる巨大なデータベースの解析にApache Hadoopを採用することを決定。そして、さまざまな要件をクリアするためのストレージソリューションとして、NetApp
                            Open Solution for Hadoopを開発、導入しました。

NetApp AutoSupportに導入されたNetApp Open Solution for Hadoopは、4台のNetApp E2600ストレージ システムと1台のNetApp FAS2040システム上に20ノードのHadoopクラスタで構成されており、非常に要求の厳しいAutoSupportワークロードにも対応する高可用性と優れたパフォーマンスを実現しています。優れたパフォーマンスを誇る並行データ処理によって膨大な数にのぼるお客様のNetAppストレージシステムの健常性を迅速に解析できるとともに、単一点障害(Single Point of Failure)を排除することで、24時間365日体制の高い信頼性を確保し、厳しいSLAにも対応しています。

その優れたパフォーマンスの実証例を紹介します。NetApp Open Solution for Hadoop上の240億レコードに対してクエリを実行したところ、Hadoopクラスタに大量の非構造化データをロードすることにより、わずか10時間半でクエリの結果を出すことができました。以前は、データウェアハウスを通してデータをロードし、クエリを処理していましたが、それには4週間を要していました。こうしたパフォーマンスの向上に伴い、従来よりも詳細な分析を行うことでお客様のNetAppストレージシステムをより効果的に監視し、適切なトラブルシューティングを行うことも可能となりました。

NetApp AutoSupportに導入されたNetApp Open Solution for Hadoopは

NetApp Open Solution for HadoopはHadoopワークロードをサポートし、構造化データと非構造化データの並行処理を行うことで、詳細なデータ分析を高速に行っています。効率的なHadoop処理が実現することで、数百テラバイトのデータを即座に調査し、お客様のシステムでのイベントとパフォーマンス データをリアルタイムに分析し、問題の迅速な解決を実現しています。また、この分析機能はネットアップ社員だけではなく、My AutoSupportポータルを通じてお客様に提供することにもつながっています。NetApp Open Solution for Hadoopは、Hadoopアプリケーションとネットアップ ストレージの間を緊密に統合することで、CAPEX(設備投資)とOPEX(運用コスト)の全体的な経費が削減することと、Hadoop分析によって、NetAppストレージ システム固有のデータを、お客様のビジネスを支援するための情報に変えることに貢献しています。

まとめ

このようにエンタープライズ用途でHadoopを導入するためには単に低コストということだけでは要件を満たすことはできません。ネットアップもまたお客様と同じく信頼性の高さや可用性をHadoopに求めました。その結果がNetApp Open Solution for Hadoopにつながっています。NetApp Open Solution for Hadoopはネットアップ自身が持つ課題を克服し、自社のテクノロジーとオープンテクノロジーを組み合わせることで、もっともROIの高く、要件を満たした、実証済みのソリューションとして開発されたものです。このメリットはお客様にも同じように提供できると考えております。


平野 和弘 (ひらの かずひろ)
ビジネスアライアンス部 エバンジェリスト
NetApp




3 年間の外資系ストレージメーカー勤務を経て 2003 年 CTC 営業部長 として入社。
2007 年から大阪支店長として支店の開設に携わり、2009 年には東京に戻り ERP ソリューション推進を担当。
2012 年からは Bigdata も担当に加わり、Hadoop による分析ソリューションも推進。
1962 年 8 月 24 日生まれ
関連情報
関連情報
新連載:ビッグデータを考える
第1回:いま注目を集めるビッグデータ。データに価値を見出し、活用する
第2回:ビッグデータで注目されるHadoopとは?
関連情報
Go further, faster TRUSTe
お問い合わせ   |   購入方法   |   フィードバック   |   採用情報  |   登録   |   プライバシーポリシー   |   © 2013 NetApp