NetApp Tech OnTap NetApp Logo
NetApp Tech OnTap
新連載:ビッグデータを考える
第2回:ビッグデータで注目されるHadoopとは?
シェアする NetAppオフィシャルFacebook

はじめに

第1回ではビッグデータについての状況をご説明しました。現代社会ではさまざまなソースで生成されたもので溢れており、これらからいかに価値を見出し、ビジネスに活用することが求められるようになったというお話しです。技術的にはインターネットやモバイルデバイスの普及がもたらしたわけですが、人々がそれらを受け入れライフスタイルが変わってきています。もはや世の中そのものが変わっている中で、このような消費者の動向をデジタルデータとして収集し、ビジネス面で新たな活路を見出す必要に迫られているのです。

第2回ではこうした大量のデータをいかにして活用できるようにするかをご説明します。

ビッグデータの転換期

IDCが発表した調査結果によると、全世界のデータ量は毎年約50%の割合で増加しており、拡大の一途をたどっています。2006年では161エクサバイト、2007年では225エクサバイト増加したとされ、2011年ではついに1.8ゼッタバイト(1.8兆ギガバイト)を超えるとされています。ビッグデータの活用とは私たちは今までは考えられない情報量をコントロールする必要性があり、そのためには相応の処理能力を備えたインフラが用意しなければなりません。それに加えて活用を難しくしていた要因が多種多様なデータ形式です。このような多様性を持った大量のデータを選別し、価値を見出すのは簡単なことではありません。

そのような中、ビッグデータの流れを加速する大きな出来事として挙げられるのが、米国政府が2012年3月24日に発表したビッグデータの研究開発に$200Mを投入するという発表です。この報道以降、米国ではNational Science Foundation(NSF)、President’s Council of Advisors on Science and Technology (PCAST)、National Institutes of Health (NIH)、そしてU.S. Geological Survey (USGS)などを筆頭に、ビッグデータに対するさまざまなプログラムが本格化することになりました。このような流れは世界中に波及し、日本政府としても内閣が発表した成長戦略の柱の一つにも反映されています。

たとえば、このような政府の取り組みの1つにオープンデータという考え方があります。総務省でワーキンググループを作り、平成25年1月末よりdatameti.go.jpを試験的な運営など、今まで手続き上届けられてきた情報を蓄積するだけに留めていたものを、産業の二次利用に活用可能なデータとして公開していくものです。欧米諸国ではすでに10年以上も以前からこうした産業用への転用が行われており、G8でも取り組んでいない国は日本だけというのが現状でしたが、今後さまざまな検証を経て、普及していくことになるかもしれません。

こうした活用が普及することになると、エネルギーマネジメントが主目的だったスマートメーターをホームセキュリティやメンテナンスサービスなどにも転用できることになったり、医療機関、健保、保険者で情報が共用活用できることで効率化を果たせるなど、さまざまな領域で活用できるようになります。

データベースによってデータを管理

話が大きくなりましたが、企業レベルでできることにお話しを戻します。過去をさかのぼって考えますと、大量の売上データや在庫管理データなど多くのデータはリレーショナルデータベースで管理されてきました。最初はアプリケーションが扱う情報だけで済んだわけですが、ビッグデータの時代になると、データベースに収まらない非構造化データが大半を占めているため、データベースの設計はますます困難を極めました。このことは設計者や開発者、そして運用管理者を大きく悩ませることになります。また。この領域ではパフォーマンスがもとめられるのは当然のことですので、多くの商用データベースはさまざまな機能拡張がなされています。たとえばクラスタリング技術もその1つです。大量のデータを扱うようになるとパフォーマンスや大容量データの操作に対応するために多くのリソースが必要となりました。その結果、データベースのライセンスコストは増え続けることが多くの企業の懸案事項となりました。この流れは垂直統合型のアーキテクチャであっても同じことがいえるのです。そのような流れから尋常なスピードで頻繁に生成され更新されているデータから、意思決定につなげるために大きな障壁となっているのです。

Hadoopとは?

こうした課題を解決するために注目を集めているテクノロジーの1つが「Hadoop」です。Hadoop(ハドゥープ)は、並列分散処理により高速なデータハンドリングを可能とするフレームワークで、米グーグル社が開発した技術を基に、Apacheプロジェクトの一つとしてオープンソースで提供されています。Hadoopを使えば、低価格のサーバを複数連携させることで、大量のデータを分散処理することができるため、非常に高速な処理環境を低コストで構築することができるのです。このことはビッグデータの活用にお悩みの企業がHadoopを採用する大きな理由となっています。

FacebookやYahooなど、すでにその有用性を享受している先進的な企業も出始めています。しかし、Hadoop自身も企業向けとしてまだ発展途上でもあるため、有用性がわかったところで手軽に一般企業が気軽に利用できるものではありません。管理者層や経営者層に対しては「Hadoopで何ができるのか?どのように活用したらよいか?何がもたらされるのか?」を伝えるために理解を深めると共に、技術者にとってはインフラとしてHadoopが抱える課題を把握することも大事です。

Hadoopが持つ課題

まず、4つに分類したHadoopビッグデータの利用パターンからそれぞれの課題を見てみましょう(図1)。グラフではコンピューティング能力を縦軸、ストレージ能力を横軸に据えており、どこもスタート地点は左下にある“カスタマイズされたHadoop”からスタートします。この時点でその多くは検証もしくは試験的な導入・運用に限られています。やがてビッグデータの有用性が理解されると実運用へとシフトします。

Hadoopが持つ課題

この考えに沿うと、エンタープライズクラスで必要とされるサーバのパワーとストレージ容量を拡張可能な環境を構築できるのではないかとお考えではないでしょうか。しかし、一瞬の遅れが損失につながるような場面ではリアルタイムの意思決定が極めて重要となりますので即応性の高さが要件となります。そうすると処理能力を重視されます。一方で、ひたすらディスクの容量が必要になるパターンもあるわけです。従って、処理能力だけ、容量だけを必要に応じて増やせるようなデザインを施さないと、エンタープライズの要件を満たすことはできないのです。その際には、高い拡張性だけではなく、信頼性、そして管理の容易性が重要になるのですが、従来のコスト重視でコモディティハードウェアを採用するHadoopソリューションでは、その要件を満たすことは厳しくなります。

また、可用性も重要です。一般的なHadoopソリューションには可用性に課題があります(図2)。

Hadoopが持つ課題

1つ目は分散データを統括するマスターノードが冗長化されておらず、単一障害点となっていることです。このため、マスターノードに障害が発生するとデータ損失のリスクが生じます。2つ目は、ディスク障害が発生した場合にはリカバリ処理が行われますが、この処理によってパフォーマンスに影響を及ぼす可能性があることです。3つ目は、分散ノード障害が発生することでジョブの再投入が余儀なくされますが、そのことで処理の完了遅延が発生し、パフォーマンス要件を満たせなくなります。このように高可用性が実現されないとエンタープライズの厳格なSLAを満たすのが極めて難しいのです。

まとめ

このように低価格だけに注目して従来のHadoopソリューションをエンタープライズ用途で導入した場合、その活用にはさまざまな課題がついでまわることになります。時間の経過とともに、データが増加し続ける中、それに対応し続けたHadoop基盤は巨大で、複雑になることでしょう。こうするとパフォーマンスや可用性を担保することが難しくなるだけではなく、管理負荷が大きくなることで、ユーザの手に負えなくなるやもしれません。

どのようなシステムでも同じことではありますが、システムの有益性が認められ、さまざまなユーザニーズを取り込んだ結果、拡張に拡張を続けるようになる可能性があります。そうなると規模も大きくなり、基幹系システムと同じような要件が求められてしまうことにもなりかねません。本来のHadoopの考え方からすれば、このようなことになるはずではなかった、というところだと思いますが、残念ながらもはやシステムの入れ替えや停止なども難しくなってしまいます。

ではどうすればよいのかという答えを、具体的なユースケースを交えて、連載第3回でご紹介したいと思います。


平野 和弘 (ひらの かずひろ)
ビジネスアライアンス部 エバンジェリスト
NetApp




3 年間の外資系ストレージメーカー勤務を経て 2003 年 CTC 営業部長 として入社。
2007 年から大阪支店長として支店の開設に携わり、2009 年には東京に戻り ERP ソリューション推進を担当。
2012 年からは Bigdata も担当に加わり、Hadoop による分析ソリューションも推進。
1962 年 8 月 24 日生まれ
関連情報
関連情報
新連載:ビッグデータを考える
第1回:いま注目を集めるビッグデータ。データに価値を見出し、活用する
関連情報
Go further, faster TRUSTe
お問い合わせ   |   購入方法   |   フィードバック   |   採用情報  |   登録   |   プライバシーポリシー   |   © 2013 NetApp