「NetAppビッグデータソリューションNetApp Open Solution for Hadoop の全貌」
NetApp Tech OnTap NetApp Logo NetApp Logo
NetApp Tech OnTap
     
「進化を遂げた
NetAppビッグデータソリューションfor MapR」
シェアする NetAppオフィシャルFacebook

はじめに

こんにちは。今回と次回で新たなソリューションのお話をさせていただきます。7月にプレスも出ているためご覧になられた方はある程度ご存知かもしれませんがテーマの中心となるのは、二年ほど前にこちらで掲載させていただいたビッグデータソリューションのHadoop に関連した第2弾です。

以前のソリューションTech ONTAP の記事はこちら。

まだご覧いただけてない方はこちらのプレス記事もどうぞ。

詳細はこちら

さて、新しくなったネットアップのビッグデータソリューションをご紹介していきたいと思いますが・・・今回は具体的な中身というより、私が感じる、私の視点でみた本領域の状況の話からはじめたいとおもいます。

ビッグデータの今

第1弾からだいぶ間が空いてしまいましたが、その後データ利活用についてはいかがでしょうか。以前よりも更に活用の幅が広がってきているように思えます。実際にIDC調査でも、IT部門において認知度・利用率ともに昨年よりも増加しているという結果が発表されています。(参照リンク) しかしながら取り組みの度合いは企業・業種・業態によって非常に幅があり、未だにどこから、何をはじめたらよいかというも多く聞きます。NetAppはストレージベンダーであるため、多くのデータを扱っている・保持しているお客様はたくさんいらっしゃるものの「データの利活用」を先進的に取り組んでらっしゃるお客様はまだまだごく一部のようです。空いてしまった間に、関連する声としてよく耳にしたものが以下のようなものでした。

既にホワイトボックスをスケールさせることでデータ基盤を運用している
データはファイルサーバに格納しているが整理がついておらず運用が雑になってしまっている
データが置かれているところがあちこちに点在している
ビッグデータがなんか儲かりそう
やらなければいけなそうだから、やってみろと経営層からのお達しがあるが、何をしてよいやらがわからない(何から手をつけていいかわからない)
ビッグデータ活用へ取り組みたいが専任の技術者がいない
データサイエンティストがいない
エクセル分析をやっている
DWHのコストがとても大きい
基盤は作ったがどう活かしていいか、先がわからない
事例が欲しい
"ビッグデータ"なんかない(そんな大量なデータはないの意)

などなど思いつくだけでこのくらいの取り組む上の課題・疑問の声があります。

実は、これらの中で特に課題視されているお客様の声を解決するような情報が多く巷には存在してきたように感じています。幾つか私の気づいたポイントを上げてみます。

データサイエンティスト

「ビッグデータ」というお題目の雑誌・書籍は以前よりも多く取り上げられるようになってます。おそらく「ビッグデータ」という言葉が生まれた当初はベンダーよりな定義が強かったのではないでしょうか。しかし今はもう少し具体的に語られている事が多いようです。取り組むために何が必要であるや、自身の成功例や市場の流れから語っている雑誌やムックを多く見かけます。また書籍に関しては毎月のように関連本が出ているように思えます。そんな中、特に見かけるようになったのは「データサイエンティスト」を銘打っている雑誌、書籍です。データサイエンティストってどんな人でしょうか?(というのはもはや少しWeb検索しただけでも情報はでてきますが)実際、今日本に「データサイエンティスト」をきちんと職務としている人はそう多くはないでしょう。それだけ今は貴重でありビッグデータ利活用には中心的存在感を持っています。特集されている文献を読んだだけでデータサイエンティストになれるかというとそうではないのですが、少なくとも「どんなデータが必要?データの集め方?データがあって次に何をしなければいけないか?したらいいか?すべきか?」という点で迷われている方にとっては道標になるでしょう。そこで中心的に必要になるのは「統計学」であることもいくつも書物を選んだり読んだりするなかで感じました。ただこれらのいずれの雑誌、書籍は「統計学」を思い切り全面に押し出しているものはほとんどありません。なぜならそこを語り始めるとデータ理活用という本質を伝えるまでに時間がかかってしまうためです。あくまでもエッセンスを含みつつ(後ろではしっかりとした統計学の活用・論法が隠れている)どんなビジネスマンでも理解できるように情報として集められています。私もその気付かされた一人で、正直学生時代は苦手で思い切り避けて通ってきた「確率・統計」を勉強し直しています。今このような職務についているからかもしれませんが、非常に楽しく勉強しています。おそらく学問としてだけでなく、実際のビジネスへの活用まで結びつけて実業務に紐づけて経験しながら学べるからだと思います。統計学を勉強していく過程で、ビッグデータというキーワードにとらわれず、データを活用するために何が必要で何をしなければいけないか、そしてデータサイエンティストがどういう人物像かというのがわかってきます。これからデータ利活用を検討されている方は、少しだけでも統計学に触れてみるのもよいかもしれません。あなたの中でビッグデータのいくつかのキーワードがぼんやりしているようであれば、それらがつながる手助けになると考えてます。読み物以外でも各種セミナーなんかも多く開催されています。無償も有償等あり、それらからも文献類と同じような気づきを得られるでしょう。

一方で「データサイエンティスト」は数年後にはいなくなる、という話されている統計家の方もいらっしゃいました。これはより技術・ソフトウェアが進歩し、サイエンティストな力がなくても、それこそUIから数クリックするだけでだれでも簡単にデータから新たな知見を即座に得られ、新たなアクションに繋げられ、更にそれを継続的にPDCAで回す事ができ非常に効率的かつスピーディーにビジネスに貢献することができるようになる、という事が予測できるからです。今でさえ、まだまだ理想として完璧ではないにしてもいくつかの機能を有しているソフトウェアも現れています。今後は更に加速しそうです。その実現手法もまた2年前よりも増えてきています。データサイエンティストを育てる環境も整いつつありますが、データ利活用、きっかけの即効性という意味ではこういったソフトウェアを使ってみるのもよいかもしれません。

チームで取り組む

はじめ、ビッグデータのキーワードである Hadoop はベンダー先行型でメッセージされていたこともあり、基盤としての情報が多く出回り過ぎていた感がありました。そのため、それを使ってどう活かすかが後手にまわってしまうことも多々有りました。最近は活かすイメージはつきつつも、次はどう実現させていいか困惑する企業が存在します。それに対して、データ利活用を先進的に行っている企業が口をそろえて語る事は「チームでの取り組み」です。ビジネス、アナリティクス、IT技術が三位一体となってこのデータの利活用を行っているという実態があります。それぞれあえて説明すると、ビジネスサイドの人間は経営・マーケティングなどの方々が中心で、アナリティクスはデータ分析者、IT技術はまんまそのエンジニアリングな方々です。当然これらをすべてこなせるスーパーマンがいればそれに越したことはないですが、そうはないでしょう。そのため、それぞれの分野でメンバーを募りクロスファンクションなチームで自社のもつデータ利活用に取り組んでいるということです。ここで、いわゆるビッグデータの「事例」そのものは多くあり、それを情報として得ることはできるとおもいますが、はっきりいって自身の企業に同じことをしてみろといってもそれは無理です。そのまんま同じことはできないとおもいます。事例はその企業自身のもつ独自のデータを対象としているわけで、競争優位に立つための“企業秘密“をそこまで明らかにする企業はいないからです。事例からエッセンスは流用できるかもしれません。それを具体化するために、事例そのものの真似ではなく先の「チームでの取り組み」は真似出来ると考えています。そこでネックになるのが3つの中でもアナリティクスの分野かもしれません。人材を得るのに手法はいろいろあるかとおもいますが、育てるという観点では、ここは私の考えで前節にもつながりますが、ぜひ「統計学」からかじることをおすすめします。今出回っている書籍の新しいもののほとんどが、「統計学」という学問のみではなく昨今の「ビッグデータ」にのっかってシナリオを書いているのでビジネスに活用するのに非常に参考になります。

バッチだけでなくリアルタイムも

Hadoop は高速なバッチ処理システムとして当初認知されていたかと思います。いまやその領域だけにとどまらず様々なミドルウェアが開発されリアルタイムな処理系にも適応されています。昨今多くの方が利用されている大規模なSNSの基盤を支えているのはそれらの組み合わせだったりします。特に大規模なデータを活用している彼らのニーズは刻々と変化しており、自身の要求仕様に足らないようであれば自ら開発し組入れ、且つそれをオープンにしています。また、Hadoopでは従来MapReduce というフレームワークが使われていましたが、ビジネスへの活用が広まるにつれ、更に高速に分析結果を得たいというニーズが発生し新たな並列データ処理のフレームワークが広まってきています。Apache Sparkはその1つであり現在ホットなフレームワークです。日進月歩とはこのことで、非常に速いスピードでデータの基盤技術またそれに関連する活用技術が進化しています。

このようなポイントだけでも、1、2年前とくらべてビッグデータを取り巻く環境は変化しそのスピードが速いと感じています。それでもまだ着手できていない方々も多いと思われます。特にエンタープライズのお客様にとってはこれらのスピードに追従するのも難しく、また仕組みや技術の選択肢が広がるのは柔軟性が高まる反面、はじめのとっかかりや設計について複雑に考えがちになってしまうという側面もあります。我々はそのようなお客様向けに少なくとも基盤にかかるコスト(純粋な金額面でなく、手間、時間や、容量なども含め)がネックとならないようなソリューションを考えて今回リリースしました。

お客様のデータ利活用のはじめのきっかけとなるビッグデータソリューション

ということで、ここから少しだけ本編にふれていきます。まずリリース文面をかりて記載すると特徴は下記のようになります。

「NetApp ビッグデータソリューション for MapR の特徴」

単なるデータ保存先ではない、データ処理と分析能力のあるストレージ ソリューション
CPUとストレージの分離による柔軟な拡張性
事前検証済みのリファレンスアーキテクチャと構成単位での拡張により導入コストを削減

図2: HDFS ビルディングブロック

ソリューション概略図

次回の紹介に向けて少し以下のように構成要素を含めて特徴を落としこんで記載してみます。

Hadoop ディストリビューションに 「MapR」を採用しより、エンタープライズ向けへ
NetApp E-Series に最新モデルのE5500を採用し更なるハイパフォーマンス対応
Cisco UCSサーバとE-Seriesのみで構成されるビルディングブロックでシンプルスケールアウト

次回は、以前のソリューションと変わったところも踏まえながら具体的な内容および、本ソリューションを使ったハイタッチなアプローチをご紹介していきます。

倉持健史(くらもちたけし)

倉持健史(くらもちたけし)
システム技術本部 システムズエンジニア
NetApp




東京電機大学情報科学科卒、UNIX 系 SIer、Linux HA クラスタソフトウェアメーカを経て 2011 年 9 月パートナー SE として入社
Soution SE 社内外の技術支援を中心に活動、clustered Data ONTAP はもとより、BigData関連他、Flash技術、
IaaS Platform(OpenStack)等担当
1978 年 8 月 22 日 東京生まれ
基本はインドアだが登山も好き、TEKKEN はポールでゴリ押し
Go further, faster TRUSTe
お問い合わせ   |   購入方法   |   フィードバック   |   採用情報  |   登録   |   プライバシーポリシー   |   © 2014 NetApp