

現代のアプリケーション デリバリーは、動的なコンテナ環境内で何が起こっているかを把握し、理解し、それに応じて行動する可視性に依存しています。NetAppITのプラットフォーム エンジニアリング チームは、Kubernetesクラスタ全体にわたってリアルタイムの可観測性とセキュリティを、複雑さやコストを増やすことなく確保するという、よくある課題に直面していました。
実験として始まったものはすぐに、業界標準のツールを当社独自の NetApp ソリューションの 1 つである NetApp Data Infrastructure Insights (DII) に置き換えるという段階にまで発展しました。
以前はKubernetesクラスターの監視にSysdigを使用し、その可観測性とセキュリティ機能に頼っていました。しかし、プラットフォームに最新のSDLCセキュリティ スイートを導入したため、ツール戦略を見直す必要がありました。
同時に、DIIは急速に成熟しつつありました。DIIの可観測性機能を評価した結果、Sysdig Monitorを廃止し、ランタイム保護のためにライセンスをSysdig Secureに再割り当てし、DIIをコア監視・診断プラットフォームとして採用するという戦略的な決定を下しました。
「これは決して軽々しく決断したものではありません」と、NetAppプラットフォーム エンジニアリング チームリーダーのDavid Fox氏は述べています。「DIIも、他の外部ツールと同様に綿密に検証しました。特に本番環境で問題が発生した場合、必要な洞察を提供してくれると確信する必要がありました」
私たちのチームにとって、可観測性はミッションクリティカルです。接続の切断やパフォーマンスの低下といった問題には迅速に対応する必要があります。DIIは、根本原因を特定し、インシデントを迅速に解決するための頼りになるプラットフォームとなっています。
開発者が問題を報告した場合、DIIを使用してCPU使用率、メモリ負荷、ホスト使用率、エラー率などの指標を追跡します。DIIは、リソースの急増とポッドの構成や制限を相関させるのに役立ち、例えばCPUの上限に達したコンテナが広範囲にわたる混乱を引き起こす前に特定することができます。
DII の変更追跡機能も、画期的な機能の一つです。アプリケーション マニフェストの変更を時系列で追跡し、インシデントレポートと相関関係を分析できます。例えば、3 日前から何かが壊れ始めた場合、DII は何がいつ変更されたかを正確に示します。こうした履歴情報に基づく視点は、断続的な問題を解決する上で不可欠です。
DIIとの道のりは、決してスムーズなものではありませんでした。初期バージョンはSysdigと完全に同等の機能を備えておらず、互換性の問題もありました。しかし、私たちは単独で進めたわけではありません。DII製品チームと緊密に連携し、機能強化のリクエストを提出し、新機能がリリースされるたびに検証を重ねました。
「多くの点で、私たちは顧客であると同時に協力者としての役割も担ってきました」とFox氏は述べています。「DIIの方向性を形作る上で貢献してきたことは、この道のりの中でもユニークでやりがいのある点です」
この緊密な連携により、NetApp IT はツールの開発に直接影響を与えることになります。これは、社内ソリューションを扱う場合には稀で貴重な立場です。
DII が進化し続けるにつれ、私たちはプラットフォーム間のより緊密な統合、自動化の強化、そしてマルチクラスターおよびマルチクラウド環境のサポートに向けて取り組んでいます。
Amazon FSx for NetApp ONTAPなどのサービスを活用して、パブリック クラウド環境にもこの可視性を拡張しています。FSxfor ONTAPは、Tridentを活用し、DIIプラットフォームと緊密に統合されており、オンプレミス環境とクラウド環境の両方で一貫した監視と自動化の標準を維持しています。
DII は、健全性、パフォーマンス、コスト、アプリケーションの動作に関する大規模な分析情報を提供することで、当社のより広範な可観測性と FinOps 戦略の基盤にもなりつつあります。
この移行は単なるツールの変更ではなく、運用の卓越性、プラットフォームの復元力、そして NetApp IT のハイブリッド インフラストラクチャ全体にわたる統合された観測可能性の提供に対する当社の取り組みの一環です。
Robert Rubin is the Director of Platform Engineering at NetApp, responsible for building and supporting our modern developer platform. In his role he enables faster, safer, and smarter software development and deployment. Rob ensures developers are able to deploy highly scalable and resilient traditional and AI/ML applications in a hybrid cloud environment as efficiently as possible.