NetApp Tech OnTap NetApp Logo
NetApp Tech OnTap
     
皆様のITインフラは本番環境においてAIワークフローに対応していますか?
シェアするNetAppオフィシャルFacebook   ツイート

 

現在、どの企業も、企業データから得られる分析情報の質を高め、新しいサービスを導入していく手段として人工知能 (AI) のテクノロジを活用しようと躍起になっています。しかし、社内のデータ サイエンス チームの多くは、コンセプト実証(PoC) の段階を終えてディープ ラーニングの運用準備に取りかかるとき、データ管理の問題に直面します。必要とされるパフォーマンスの実現に向けて苦労があるのも事実ですが、データを移動、コピーする作業や、拡大し続ける大規模なデータセット用のストレージを最適化する作業が困難であることに気づくという場合もあります。

AI プロジェクトの成功に不可欠なデータ フローはデータセンターだけに隔離されたものではありません。 IoTAI のテクノロジを導入するとき、エッジからコアへ、コアからクラウドへのデータの移動という課題に直面するのは、どの業種の企業も同じです。

ホストOS設定

たとえば、ネットアップとパートナー関係にあるいくつかの自動車企業では、増え続ける自動車からデータを収集しています。こうしたデータは、自動運転に必要な AI アルゴリズムのトレーニングに使用されます。そのプロセスにおいて、自動車企業はITテクノロジを文字どおり制限速度いっぱいまで加速しています。

また、小売業の企業は、世界中に展開された数百もの店舗の POS デバイスから集めたデータに基づいて、推論モデルを構築しています。ほとんどの店舗にとって 11 月下旬から新年までが年間で最も忙しい時期なので、年末のデータ量の急上昇は容易に想像がつきます。

AI で直面するデータの課題は、パフォーマンスの実現に関するものだけだ」とお客様に納得してもらおうとする AI ソリューション ベンダーも中にはいます。しかしそうした主張は、そのベンダーの提供するソリューションが役割を果たす AI パイプラインの中核だけに当てはまる話です。ネットアップ データ ファブリックの各種テクノロジは相互に連携して、取り込みからアーカイブまでのデータ フロー全体を網羅するので、データ運用を成功に導くと同時に、各フェーズで最適なパフォーマンス、効率、コストを実現します。

当記事では、AI インフラの課題について、そしてディープ ラーニングを可能にするデータ パイプラインの構築にネットアップがどのように役立つかについてお話ししたいと思います。ディープ ラーニングは計算処理と I/O の両方の観点から見て最も要求の厳しい AI ワークフローなので、ディープ ラーニング用に設計されたデータ パイプラインは他の AI ワークフローやビッグ データ ワークフローにも対応できます。

検証した環境

ディープ ラーニング パイプラインのデータ フロー

では、次の図に示したディープ ラーニング パイプラインに必要なワークフローについて考えてみましょう。

ストレージ設定

  • データの取り込み:データの取り込みは一般的に、自動車や POS デバイスからストリーミングされるデータをキャプチャするときのように、エッジで実行されます。ユースケースに応じて、取り込みポイントまたはその周辺に IT インフラが必要になる場合もあります。たとえば小売企業では、複数のデバイスから集めたデータを統合するための小型のインフラが各店舗で必要になるかもしれません。
  • データの前処理:トレーニング前のデータを正規化するには前処理が必要です。前処理はデータ レイクで行われます。 S3 階層形式のクラウドや、オンプレミスのファイル ストレージまたはオブジェクト ストレージなどが考えられます。
  • トレーニング:ディープ ラーニングの重要なトレーニング フェーズでは、データはデータ レイクからトレーニング クラスタに一定の間隔でコピーされるのが一般的です。このフェーズで使用されるサーバは、GPU で処理を並列化することで大量のデータに備えます。ここでは物理 I/O 帯域幅が非常に重要です。
  • 導入:トレーニングを終えたモデルは続いてテストに送られ、その後本番環境に移されます。また、ユースケースによっては、エッジでの処理に戻される場合もあります。本番環境から得られる結果は監視され、新しいデータ フローの形で、もしくは繰り返し処理が必要となる新しく入ってくるデータと一緒に、元のデータ レイクにフィードバックされます。
  • アーカイブ:繰り返し処理を終えたコールド データは無期限に保存することもできます。企業の AI チームの多くは、プライベート クラウドまたはパブリック クラウドのオブジェクト ストレージにコールド データをアーカイブしたいと思っています。

これまでにネットアップの多くのお客様が、クラウドまたはオンプレミスでコモディティ ハードウェアを使い、データ管理の手法を無理に当てはめてこのディープ ラーニング パイプラインを構築しようとしてきました。クラウドの外にデータを移動するには法外なコストがかかるので、いったんデータをクラウドに保管したら、パイプラインの残りのフェーズも結局はクラウドで実行することになるでしょう。データの保管先がクラウドの中であれ外であれ、本番稼働が進み、データ量が増えるにつれて、ボトルネックは必然的に生じます。

最大のボトルネックが発生するのはトレーニング フェーズです。このフェーズでは、ディープ ラーニング トレーニング クラスタで処理するデータをフィードするのに、膨大な I/O 帯域幅と極度の I/O 並列処理能力が必要になります。トレーニング フェーズで生成された推論モデルは多くの場合、超低レイテンシ アクセスのメリットがある DevOps 型のリポジトリに格納されます。

取り込みフェーズから始まるパイプライン全体でデータのフローがスムーズにいかない場合、そのディープ ラーニング パイプラインが完全な生産性を達成することはありません。さらには、パイプラインを管理するための作業時間を増やし続けることを覚悟しなくてはならないでしょう。

ネットアップとディープ ラーニング パイプライン

エッジからコアへ、コアからクラウドへと、ディープ ラーニング パイプライン全体のニーズを満たすのに必要なデータ管理テクノロジを提供できる製品はネットアップ データ ファブリックだけです。クラウド プロバイダはエッジには対応できませんし、必要とされ るI/O パフォーマンスの達成も容易にはいかないでしょう。他のストレージ ベンダーはトレーニング時の帯域幅の問題を解決しようとしているものの、超低レイテンシを実現することはできませんし、ワークフロー全体をカバーするのに必要なテクノロジも持ち合わせていません。このような、他社にはできない独自の優位性を持っているのがネットアップ データ ファブリックです。

まずエッジ部分には ONTAP® Select 配置します。この製品はコモディティ ハードウェア上で動作して、データ集約と高度なデータ管理を可能にします。また、新しく発表される Plexistor テクノロジは、極めて高速なデータ取り込みが要求される場面に対応できます。

データ レイクとトレーニング クラスタの両方のニーズに対処できるのが、ネットアップ のAll Flash FAS(AFF) ストレージです。この製品は、パフォーマンスとキャパシティの面で優れた結果を出すと同時に、時間のかかるデータ コピーの必要性を軽減します。ネットアップはAFFの機能をさらに拡張するため、NVMe over Fabrics(NVMe-oF)Plexistor の改良に取り組んでいま す。NetApp Private Storage(NPS) は、クラウドでディープ ラーニング パイプラインを構築する場合と同じメリットを多数提供します。

コールド データをアーカイブする役割は、定義済みのポリシーに基づいてオブジェクト ストレージにデータを自動的に移行する NetApp FabricPool テクノロジが果たします。

ストレージ設定

今後も AI やディープ ラーニングにまつわるテクノロジを取り上げていく予定ですので、楽しみにしていただければと思います。

2018 01

Go further, faster
お問い合わせ   |   購入方法   |   フィードバック   |   採用情報  |   登録   |   プライバシーポリシー   |   © 2017 NetApp