アカウントを作成
メニュー

NetApp ONTAPで実現-生成AIソリューション-前編

NetAppとAWS-広島大学との実証実験

picture of Hiroshima University sign and tower
目次

このページを共有

yoshiki fujiwara
藤原 善基

本記事は、Amazon Web Serviceブログで公開された「NetApp ONTAP を使用してオンプレミスのデータを活用するための RAG ベース生成 AI アプリケーション」に関して、ネットアップ合同会社の視点での説明を行うものです。

前後編の2本立てとなっており、前編では前述のブログに関する補足として、企業でよく使われているファイルサーバー上にあるデータをどのように生成AIで活用するのか、また、そのデータをどのようにセキュアに守るのか、国立大学法人広島大学(以下、広島大学)ならびにアマゾン ウェブ サービス ジャパン(以下、AWSジャパン)と取り組んだ実証実験の背景、および情報インフラの指針について解説します。

後編では、広島大学との実証実験の中でAWSジャパンと共同で開発したソリューションについて、主にNetApp ONTAPの機能と共にご紹介します。

生成AIの登場とデータの役割(執筆担当-井上)

2022年11月にOpenAIが開発したAIによるチャットサービスChatGPTが公開されてから、生成AIに関する話題は尽きることがなく、最近も新しいモデルが登場したことや、高度な目標に基づいて複雑なタスクを自律的に推論、計画、実行するように設計された Agentic AIに関する動向など、インターネット上では毎日がお祭り騒ぎの様相です。従来から、画像分析やスパムメールの判定など、AIの技術の応用は一部では使われていたのですが、生成AIはなぜここまで盛り上がりを見せているのでしょうか。

一般的に、これまでのAI技術は特定の問題解決に特化したものを、専門のエンジニアやサイエンティストが開発したモデルをアプリケーションに組み込む形となり、どちらかと言えば専門性が高い領域でした。しかし、ChatGPTに代表されるようなTransformerモデルの場合、莫大な量のデータを学習させることで一般的な知識に基づく様々なタスクを扱うことができるようになりました。結果として、ChatGPTのような誰でも触って試せるUIが人気を集め、現在ではあらゆる人がAIを利用できる環境(=AIの民主化)が実現されたことが、一つの大きな理由でしょう。

また、Transformerモデルは、データ量・パラメーター数・計算量を増やしていけば、モデルの性能が上がっていくというスケーリング測が提唱されており、多くのIT企業がモデル開発に乗り出しています。今できないことであっても、1年後、いえ、数ヶ月後に出てくるモデルならできるようになっているという期待も、生成AIの盛り上がりの一助になっていると考えられます。

このように盛り上がりを見せる生成AIですが、一方で、企業での活用を見据えると、一般的な知識だけでは上手く活用できないというユースケースも多くあることが分かってきています。AIは作るにも、使うにも、データが必要となるものであり、企業内に含まれるデータをどのように活用すれば良いのか、悩まれている方々も多いことかと思います。

さらには、生成AIを企業内で活用することを考えると、セキュリティに関しても意識をする必要があります。実際、OWASPという団体が公開している「OWASP Top10 for LLM Application」や、経済産業省が公開している「AI事業者ガイドライン」においても、以下のような生成AIに関するリスクへの警鐘を鳴らしています。

Diagram showing OWASP Top10 for LLM Application

本Blogでは、企業でよく使われているファイルサーバー上にあるデータをどのように生成AIで活用するのか、また、そのデータをどのようにセキュアに守るのか、広島大学ならびにAWSジャパンと取り組んだ実証実験をもとに、掘り下げていきます。

生成AI利活用におけるデータの課題と、これからの情報インフラに求められること(執筆担当-川端)

前述のとおり、生成AIの時代 においてはAIモデルの開発ならびにその利活用という2つの軸がありますが、そのどちらにおいても、インターネットに公開されていない社内情報などのいわゆるクローズドデータの重要度が増しています。

企業や組織のデータが蓄積されているのは社内のファイルサーバもしくはセキュリティ対策が施されたクラウド上であり、蓄積する場所に求められる課題としては、「ただデータを備蓄する・守るための容器としての役割であること」とともに、「AIの取り込みを素早く・燃費良く・安全に進めるためにデータを連携する供給装置としての役割であること」と考えます。

広島大学内においても、これら課題の重要性を認識されておりました。

  • 研究データにおいては、大量化・多様化するデータを10年保存できることは保証したいが、需要予測や負担するコストも不透明であり、且つ、アクセス権の考慮など具体的な利用計画の策定が必要である
  • 教育データにおいては、データを蓄積するシステムが増加し教育の質の向上や個別学習支援の期待が高まっているものの、部門ごとにシステムが独立し統合的な利活用に至らない、且つデータを利活用するスキルが不足している、更にはサイバー攻撃やデータ流出のリスクが増加している
  • インフラにおいては、レガシーシステムに依存し近代化に遅れている、オンプレミス、クラウド、ハイブリッド環境が混在し分散化された運用が必要、更にクラウドサービスの急な仕様変更やサイバーセキュリティ対応など、管理負荷の増大と人材不足が顕著に表れている

これらの課題を踏まえて、広島大学 情報メディア教育センター 准教授 渡邉 英伸先生は、今後の大学における情報インフラが求められることとして、以下の点を挙げられています。

  1. ハイブリッドクラウド
    • 機密データはオンプレミスとし分析処理はクラウドとするなど、ローカル環境とクラウド環境の最適な組み合わせを実現する
    • 機密性の高い研究データや教育データをセキュアに管理しつつ、クラウドの柔軟性と拡張性を活用する
  2. DevSecOpsの導入による運用効率化
    • 安全性を保ちながら、開発と運用の連携によってシステムの変更と展開を迅速化する
    • 学内のアプリ開発・運用を効率化する
    • データ管理システムや生成AI基盤の迅速なアップデートと安定運用に取り組む
  3. FinOpsの導入によるコスト最適化
    • リアルタイムコスト監視による予算超過の防止
    • 学術研究の予算管理への応用
    • リソース配分の透明性向上により、学内関係者間の合意形成を支援する
  4. AI技術の導入と生成AIの活用
    • クローズドデータを活用すべく、RAG(Retrieval-Augmented Generation)の仕組みと大学業務への応用
    • AIによる教育・研究の効率化
    • 将来的には、データ統合から高度なAIモデルへの入力まで、一貫したパイプラインを構築する
Diagram illustrating requirements for the information infrastructure of universities in the future

これらの方針については、VUCAと呼ばれる複雑かつ予測不能な現代において、各企業や組織が情報インフラに対して取り組む際の指針としても参考にしていただけるのではないかと考えています。

NetAppとAWSでの共同ソリューション開発の要点

このような課題やこれからの情報インフラの指針をもとに、広島大学との実証実験を進める中で、データを既存のオンプレミスのストレージに保持したままAWS が提供する生成 AI 機能にてデータを活用するためのソリューションを AWSジャパン と NetApp の 2 社で開発しました。

開発にあたって考慮した点は、以下の2点です。

  1. データの可搬性とそのシンプルさ
    • 生成AI自体はパブリックに公開されているデータを学習したものであり、企業や組織内に蓄積されているクローズドデータは学習していない。このため、RAGを用いてクローズドデータを生成AIに参照させる仕組みを構築する。
    • クローズドデータを生成AIに参照させるシンプルな仕組みが必要になるが、クラウドベンダーが提供するオブジェクトストレージやそれに類するサービスに格納させる場合にはセキュリティ設計など追加の負担が強いられる。
  2. データの主権とセキュリティリスクへの対策
    • クローズドデータを生成AIに参照させることから、意図しない情報漏洩や権限を越えた閲覧などのリスクが生じる。このため、生成AIに参照させるデータは、ユーザー自身が把握し、データの保護や削除・破棄含めて全てユーザーが行える”主権”を握る仕組みが必要である。決してクラウドサービスの仕様に依存されるべきではない。
    • 生成AIが参照するクローズドデータの品質が、生成AIの性能や回答結果に大きな影響を与える。このため、クローズドデータ保護の観点から、ランサムウェアによるデータ改ざん・削除・暗号化への対策を施し、監視とログによる監査可能な環境でデータを保全することが重要になる。また、適切に保全されたデータを生成AIに参照させるために、作成・蓄積されたデータ自体を適切に保全されたデータとする仕組みやタイミングについては考慮する必要がある。

後編では、共同開発ソリューションならびにソリューション内で活用するNetApp ONTAPの機能についてご紹介します。

また、このソリューションの構築・利用を体験するためのハンズオンコンテンツも作成しています。ソリューションのデプロイに関するお問い合わせや、ハンズオンのご要望などがありましたら、以下よりご連絡をお願いいたします。

本ソリューションに関するお問い合わせ: https://www.netapp.com/ja/forms/sales-contact/

*コメント欄に本ブログを見て問い合わせしたとご記入いただけますようお願いいたします。

ブログ共同執筆者名

Headshots and names of the blog co-authors

井上耕平
前職SIerにて、IoT/AIに関わるシステムの提案からデリバリーまで幅広く経験。現在は、AI/IoTシステムをストレージの観点から支援するソリューションを担当。

川端 卓
これまでにサーバー/ストレージのベンダーにてプリセールスからポストセールスまで経験。現在は西日本のお客様に向けてAI/生成AIやサイバーレジリエンスのソリューションを中心に提案活動・ハンズオンなどを担当。

小寺 加奈子
AWSパートナーにてクラウド事業の責任者を経て、ネットアップではSales SpecialistとしてAWSへのマイグレーションを中心に、導入支援やマーケティング活動等に従事。
JAWSクラウド女子会運営メンバー。

藤原 善基

前職ではネットワークエンジニア、AWSエンジニアを経験。AWS Japanから2024 AWS Japan Top Engineerの認定を受けており、AWSのユーザコミュニティではCommunity Builderとして、全国各地で活動しています。

藤原 善基の投稿をすべて見る

次のステップ

Drift chat loading