

ネットアップ合同会社(以下、NetApp)と国立研究開発法人理化学研究所 生命機能科学研究センター・脳コネクトミクスイメージング研究チーム(林拓也チームディレクター。以下、理研チーム)は、2025年よりアステック株式会社、株式会社Fusicとともに、NetApp FlexCache を活用したハイブリッドHPC(High Performance Computing)基盤の技術検証に取り組んでいます。本プロジェクトは、脳科学研究におけるデータ活用の高度化を目的とし、オンプレミスとクラウドをまたぐ研究基盤の最適化を目指しています。
近年のHPC環境では、データの増大、解析ワークロードの多様化、そしてGPUノード需要の増加により、オンプレミスのみのアーキテクチャでは柔軟性に限界が生じています。理研チームが扱う研究データは数百TBにも及び高解像度脳 MRI(層構造解析や霊長類との比較 MRI など)は、1セッションで数百GB級のデータが生成され、さらに前処理・ノイズ除去・モデリング・トラクトグラフィーなど一連の処理が長時間の計算資源が必要です。
これらの状況を踏まえると、「データはオンプレミスに保持しつつ、必要なときにクラウドへ計算リソースを拡張する」ハイブリッドHPCのアプローチが最適解となります。そこで理研チームは、オンプレミスの NetApp ONTAP、AWS上で提供される Amazon FSx for NetApp ONTAP、NetApp FlexCache、そして AWS ParallelCluster を連携させ、データの一貫性を維持しながらクラウドバーストできる環境を構築しました。

オンプレミスのHPC環境では、データ移動の手間や容量の問題、計算リソース不足といった課題が顕在化していました。これらを解消するために理研チームが採用したのが、FlexCache を中核に据えたハイブリッドHPC構成です。
この構成では、オンプレミスのONTAPに保存された研究データをクラウドへ移動する必要はありません。AWS上のAmazon FSx for NetApp ONTAP(以下、FSx for ONTAP)にはキャッシュのみが展開されます。ONTAPがキャッシュと元データの整合性を自動管理するため、研究者は意識することなくクラウドでの分析が可能になります。
解析ジョブは AWS ParallelCluster (以下、ParallelCluster)によってオンデマンドにクラウドへスケールアウトします。GPUノードや大規模CPUノードは必要なときにだけ起動し、ジョブが完了すると自動的にスケールインされます。オンプレミス側の環境と同様の運用感で利用が可能です。
今回のハイブリッド構成の鍵となるのが、NetAppが提供するFlexCache機能です。FlexCache は、ONTAP の リモートキャッシュ機能です。FlexCache ボリュームはONTAPストレージシステムにおいて、遠隔地や異なるクラスター上に、疎(sparse)なキャッシュとして作成され、メタデータを常に同期し、実データはアクセスされた分だけオンデマンドで取得してキャッシュします。そのため、データセット全体をクラウドへ事前コピーすることなく、必要なデータのみを効率よくクラウド側へ近接配置できます。理研チームはオンプレミスのボリュームを基点に、AWS上のFSx for ONTAPへキャッシュボリュームを作成しています。
この仕組みにより、クラウドでオンプレミスのデータをローカルファイルシステムのように扱うことが可能になりました。実データを移動しないためコスト効率が高く、メタデータのみを送信するため、負荷も最小限に抑えられます。また、データ整合性も担保されます。
さらに、書き込みワークロードにも柔軟に対応できる点も特徴です。解析後の派生データをAWS側で保持し、そのまま次の処理に回すようなワークフローも構築可能です。
FSx for ONTAP はオンプレミスのONTAPと同一のOSを採用しているため、NFSやSMB、iSCSIといったプロトコルを含め、使い慣れた運用モデルをクラウドにそのまま拡張できます。
HPC向けの高いスループット性能やメタデータ処理性能も備えており、クラウド側での解析時にもオンプレミス同等の性能を発揮します。
また、研究プロジェクト単位で柔軟にボリュームを切り分けられるため、急激なストレージ需要増にも対応でき、研究サイクルにあわせてスケールさせることが可能です。
ParallelCluster は、クラウド上にHPCクラスターを自動構築するためのツールです。ヘッドノードやコンピュートノードの構築、FSx for ONTAP のマウント、SLURMベースのジョブ管理まで、必要な環境がYAML定義一つで構築できます。
研究者がジョブを投入すると、SLURMが必要なリソース量を判断し、GPUノードやCPUノードがオンデマンドで起動します。コンピュートノードはFSx for ONTAPのキャッシュを直接参照するため、研究データを移動することなく高速なI/Oを実現できます。ジョブ終了後は自動でスケールインされ、コスト最適化にも寄与します。
今回の技術検証では、FSx for ONTAP と ParallelCluster の連携によって、オンプレミスの研究データを移動せずにクラウド側で計算を高速実行できることを確認しました。特に、ParallelCluster による並列解析では、少数ノード構成の段階で研究者から十分な性能が得られていることが確認され、クラウドHPCが研究現場の要件に応えられることが明らかになりました。
この成果を踏まえて、理研チームでは大規模な解析パイプラインの実行に向けて、クラウド側のノード数を1000ノード規模に拡大する検討が進みました。GPU を必要とする Diffusion 解析、CPU を大量使用する MATLAB 解析など、多様な研究パイプラインが同時にクラウドへバーストするため、より高い並列度が求められています。
本プロジェクトの進展と実運用での知見を踏まえ、NetAppでは FSx for ONTAP と ParallelCluster の連携が将来的にどのような研究基盤へ発展し得るかについて、いくつかの構想を描いています。
まず、FSx for ONTAP の S3 アクセスポイントを介して研究データを Amazon QuickSuite と連携させることで、解析後データの可視化やレポーティングを大幅に効率化できる可能性があります。QuickSuiteは自然言語での質問から即座にチャート作成や洞察提示ができるほか、AIエージェントによるレポート生成やワークフロー自動化にも対応します。研究者がコードを書かずに結果を可視化できる環境は、解析後の意思決定を大幅に加速する未来像を描きます。
さらに、ParallelCluster のスケールアウト機能を活かし、必要に応じて GPU クラスターをオンデマンドに立ち上げられる AI 研究基盤を構築するアプローチも考えられます。
QuickSuite の QuickFlows(AI駆動ワークフロー自動化)や AI チャットエージェントと組み合わせることで、モデル学習・解析・可視化・レポート生成までを一気通貫で自動化する「AI 主導研究パイプライン」も将来的に視野に入っています。
今回の技術検証と実運用で得られた知見は、研究現場がクラウドHPCを活用して柔軟にスケールし、短期間で成果を出すための可能性を大きく広げるものでした。今後、NetAppとしてもこうした方向性について検討を深め、研究者のイノベーションを支える基盤構築に貢献していく予定です。
AWSパートナーにてクラウド事業の責任者を経て、ネットアップではSales SpecialistとしてAWSへのマイグレーションを中心に、導入支援やマーケティング活動等に従事。 JAWSクラウド女子会運営メンバー。