NetApp Tech OnTap
100年アーカイブ
対策は万全ですか?

100年前に書かれた本を読むのは、それほど難しくありません。しかし、バックアップテープの場合、それがわずか10~20年前のものだとしても、読み取る作業は本よりもずっと厄介です。テープを読み取れるハードウェアがあり、さらにテープ自体が劣化していない場合でも、データの記録フォーマットの特定や解読用のアプリケーションが必要になります。状況によっては作業がより複雑化し、しかも時間の経過に伴い事態は悪化する一方です。

ここで「そんなに長い期間データを保存する必要はないから、自分には関係ない」と思った方は、もう一度よく考えてみてください。

Data retention requirements

図1)要求されるデータ保存期間出典:SNIAによる調査
Source: SNIA Survey

Storage Networking Industry Association(SNIA)は2007年、世界中のさまざまな組織に所属する数百人を対象に、データの保存に関する総合的な調査(英語)を実施しました。調査結果では、50年以上にわたって情報を保存する必要があると回答した人が実に80%以上に達していました。100年以上と回答した人は68%でした。さらに、保存した情報を50年後に読めるかどうかについては、70%の人が非常に懸念していると回答しました。回答者が最も不安に感じているのはどのような種類のデータでしょうか。電子メール、顧客データ、ビジネスアプリケーションデータ、データベース─つまり、私たちが日常的に取り扱っている情報です。

これでお分かりになりましたか?

この記事では、長期アーカイブの問題点を明らかにし、今すぐ活用できるいくつかのベストプラクティスを紹介するとともに、私が議長を務めるSNIAのLong Term Archive and Compliance Storage Initiative(LTACSI)で行われている活動について説明します。

長期アーカイブの問題点

図2を見ると、データの長期保存の難しさが分かります。

図2)ストレージシステム、アプリケーション、および物理記録メディアの一般的な寿命と情報の保存期間

情報の保存に必要な年数は(たとえば50年という、控えめな年数であっても)、ディスクやテープなどのストレージシステムおよびアプリケーションの一般的な寿命よりもはるかに長いといえます。物理メディアでさえも、保存に必要な期間よりずっと前にメディア自体の劣化が始まり、データを読み取れなくなる場合があります。

現状では、3~5年ごとにデータを(物理的にも論理的にも)移行するのが慣例となっています。物理的なデータ移行の場合、物理的な可読性、アクセシビリティ、および完全性を維持するために、物理ストレージシステム間またはメディアフォーマット間での情報の移動が必要になります。メディア障害、メディアまたはストレージシステムの陳腐化、システムの変更、および運用コスト(人件費、電力費、スペース)などがその主な理由です。

論理的なデータ移行の場合、可読性と相互接続性を維持するために、論理フォーマット間での情報の移動が必要になります(アプリケーションの旧バージョンから新バージョンへ、など)。アプリケーションフォーマットの変更、アプリケーションの陳腐化および合併などがその主な理由です。どちらの場合も、コスト、複雑性、膨大な情報量、および時間や予算の制約などが移行を妨げる要因になります。

これに対し、前述したSNIAの調査は、このような単なる論理的および物理的なデータの移行では、現在および将来のニーズにコスト効率よく対応できるソリューションとはならないと結論付けています。実際、3~5年ごとにディスク上のデータを移行していると回答したのは、調査対象者の30%に過ぎませんでした。デジタル情報の長期保存について、法務、コンプライアンス、ビジネス、コスト、およびスケーラビリティの各面での要件を満たす、新しいアプローチが必要なのは明らかです。

 

暫定的なソリューション

現在のストレージシステムやアプリケーション上の制約は、すぐに解消できるものではありません。では、データの長期保存に関する問題の解決に向けて、早急に実行できる対策とは何でしょうか。現時点で最良の推奨事項は、アプリケーション、運用、およびデータリポジトリに関する正式なライフサイクル管理プロセスを実装し、データが有効である限り効率的に管理できるようにすることです。ベストプラクティスは次のとおりです。

  • すべての関係者(IT、法務、ビジネス、セキュリティの各部門)間での緊密な協力体制を通じた、あらゆるニーズへの対応
  • 既存の資産とリソースの明確な分類
  • 情報の分類による個別の保存ニーズの明確化
  • 保存、保護、セキュリティ、コンプライアンスなどに関する要件の確立
  • 要件に適合するサービスの実装
  • 追跡調査および改善

次のような対策も有効です。

  • 少数の一般的な分類ルールにより情報を分類する
  • 保存期限を設定し、期限切れのデータを削除する
  • 保護用として保持するデータのコピー数を抑制する
  • 監査ポリシーを設定して実行する
  • 標準ベースのストレージプラットフォームを使用する

長期保存に関するポリシーには、ビジネス、法務、およびコンプライアンスの各面での目標を含めるだけでなく、各ストレージリポジトリにおいて順守すべきベストプラクティス(物理的な移行と論理的な移行の両方)を明記しておく必要があります。さらに、物理的な移行については、固定(3~5年)の移行期間から、「必要に応じて」移行できるようなストラテジーへの転換を目標にします。このような場合、Data ONTAP® GXで稼働するNetApp®ストレージといった標準ベースで拡張性に優れた仮想化ストレージシステムを使用すると、中断を伴わずにデータの移行を完了できるため、作業の複雑さや労力を最小限に抑えることができます。

論理的な移行については、データの信頼性(書き込まれたデータがオリジナルのままであることの証明)が維持されなければなりません。この場合もやはり、必要に応じて移行を実現できるようにする必要があります。一部のデータの保存については、標準フォーマット(XML、PDFなど)への変換、ハードコピーの保存(必要な場合)、マイクロフィルムの使用といった選択肢を検討するのも良いでしょう。

これらの作業は、一見複雑なようにも見えます。いずれの移行の場合も、作業は必要に応じて実行しなければなりませんし、2つとも同時に実行できるとは限りません。しかし、長期保存データの可読性を保つための選択肢は、現時点では決して多くはありませんし、この状況を打開するための重要な取り組みも進められています。

標準化への取り組み

ストレージ業界はこれまで、データの長期保存の問題に関しては、それほど大きな努力を払ってこなかったと言えるでしょう。現在、アプリケーションのアーカイブには各ベンダーが独自のデータフォーマットを使用しているため、ユーザは特定のソリューションでの解決策しかない状態(ロックインと呼ばれる)にあり、それが、将来的なデータの移行をさらに複雑化させる要因となっています。ただし、この状況は着実に変わりつつあります。

15年以上のデータの長期保存における最大の課題は、論理的な移行です。物理的なデータ移行については、効果的なライフサイクル管理プロセスを行い、(独自のストレージフォーマットとは対照的な)最新の標準ベースのストレージテクノロジを活用することで、適切に対処できます。各ベンダーが長期保存ニーズに適合するハードウェアを商品化するようになれば、状況はさらに改善されるでしょう(具体例については、右上の「長期アーカイブに関する共同研究」を参照してください)。
これに対し、論理的な移行については、従来どおりアプリケーション間での違いがあるため、重要なプロセスの自動化は容易ではありません。完全な「保存」を実現するには、単にデータの可読性と相互接続性を保つだけでなく、それぞれのデータ上に、データの由来、参照情報(コンテキスト)、およびデータの完全性と信頼性を保証するメカニズムを組み込んだメタデータを記録する必要があります。

LTACSIでは、この方法の実現に向けて、デジタル情報の長期保存に関するテクニカルワーキンググループを結成し、カプセル化の研究を行うことをSNIAに提案しました(右上を参照)。カプセル化を行えば、コンテンツ(データ)およびそれに関連する保存用メタデータで構成された「保存重視の」論理コンテナの定義が可能になります。

カプセル化はOAIS Archival Information Package(AIP)でモデル化できます。図2に、OAIS AIPコンテナの内容を示します。

図3)保存される情報コンテンツと、コンテンツの内容を記述するメタデータの両方を含むOAIS AIP(出典:SNIA)

カプセル化の特徴の1つに「自己完結性」があります。コンテナには、情報のデータ、メタデータ、参照情報、完全性/信頼性チェック、アクセス制御、およびログが含まれています。これにより、情報自体に設定した要件に従ってコンテナを管理できるため、アプリケーションが不要になり、コンテナの移植性とストレージの独立性が保証されます。

もう一つの特徴は「自己記述性」です。コンテナはさまざまなタイプのシステムで読み取れます。また、コンテナ自体にリーダーを組み込めば、アプリケーションに頼らずにコンテンツを解析できるようになります。これは、データの長期保存にとって重要な機能です。カプセル化によって、どのようなアプリケーションでも認識できるようフォーマットを標準化でき、理論上、アーカイブ化されたコンテンツ(ECM、法務、移行、保存など)にすべてのアプリケーションからアクセスできるようになります。

図4)カプセル化により、論理的にビット層(物理メディア)とアプリケーションの
間に標準のデータ層が作成される(出典:SNIA)

最終的な目標は、論理的な移行を不要にすることにより、アプリケーションの変更に伴う定期的なデータ更新の手間や複雑性を省き、ユーザが長期保存されたアーカイブデータに必要に応じてアクセスできるようにすることです。

NetAppと長期アーカイブ

以前よりNetAppはハードウェアの観点から、(アーカイブ目的かどうかに関わらず)物理的なデータ移行には複雑な作業が伴い、中断が引き起こされる場合があるという事実を認識していました。そのためNetAppでは、階層型ストレージをサポートするスケールアウト型のハードウェアアーキテクチャ(コンプライアンス要件を満たすWrite Once, Read Many [WORM]ボリュームなど)の開発を進め、階層間でのデータ移行を中断なしで容易に実行できるようにしてきました。このアーキテクチャでは、新しいストレージのビルディングブロック(物理メディア、ストレージコントローラ)を既存のストレージと透過的に組み合わせることができるため、物理的な移行プロセスを大幅に簡易化できます。

NetAppのオープン規格であるSnapLock®テクノロジを使用すると、NetAppストレージ上にWORMボリュームを作成できるため、物理的に個別のストレージシステムを使用しなくてもコーポレートガバナンス要件や規制要件を満たすことができ、アーカイブとコンプライアンスの要件への対応も可能になります。NetAppはSymantec、Zantaz、CommVaultなど、業界大手のアーカイブパートナーと協力することで、NetApp製ハードウェアおよびソフトウェアの独自機能を活用したソリューションを提供していきます。データの長期保存に関するソリューションについても、各パートナーと共同研究を行っていきます。

NetAppでは、論理的な移行におけるアーカイブの短期的な問題は、包括的なソリューションの実現により解決できると考えています。当社では早くから業界標準の必要性を認識し、標準化への取り組みを率先してきました。NetAppでの私の主な仕事には、LTACSIの議長職があります。LTACSIは、デジタル情報の長期保存、アーカイブ、およびストレージのコンプライアンス適合に対する諸問題の解決に関心のあるエンドユーザ、IT技術者、ベンダー、システムインテグレータ、およびサービスプロバイダによって構成される団体です。

現時点での課題

物理的および論理的な移行が必要な何テラバイトものデータを抱えて立ち往生するという危機的な状況を回避するためには、今すぐ対策を講じることが最も重要です。そのための最善策は、「暫定的なソリューション」で説明したガイドラインに従い、可能なかぎりオープンスタンダードを採用することです。オープンスタンダードを使用すれば、移行に関して非常に多くの選択肢が提供されるだけでなく、ロックインの回避にも役立ちます。

まだ何も対策をしていない企業では、データ分類法の採用を検討することで、データへの理解を深め、ライフサイクル管理を行うと良いでしょう。その後、ハードウェアとソフトウェアの両面でポリシーを策定し、物理的な移行プロセスの簡易化に向けたソリューションの検討を行います。現時点でこれらの作業を済ませておけば、数年後には具体化していく、データの長期保存に関する新たな標準を活用できるようになるでしょう。

Robert Quimbey Gary Zasman
ワールドワイドプラクティスディレクター
NetApp

GaryはSNIAでLTACSIの議長を務めています。また、ビジネスアプリケーションやデータベース統合に関するNetAppのベストプラクティス開発について、世界中の研究活動を統括しています。Garyは2006年にNetAppに入社する以前は、ILMソリューションおよびコンサルティングサービスの開発を中心に、複数の大手ストレージベンダーでさまざまな役職を歴任してきました。2001年、Garyが所属するチームは、履歴を視覚化できるデジタルアーカイブの開発により、権威あるComputerworld Smithsonian Awardの最優秀賞に選ばれました。

関連情報