メニュー

データ重複排除とは

トピック

このページを共有

データ重複排除は、データの余分なコピーを排除し、ストレージ容量の要件を大幅に削減するプロセスです。

重複排除は、データがストレージ システムに書き込まれるときにインライン プロセスとして実行することも、データがディスクに書き込まれたあとに重複を排除するためにバックグラウンド プロセスとして実行することもできます。

NetAppでは、重複排除をデータ損失ゼロを実現するテクノロジとして、インライン プロセスとバックグラウンド プロセスの両方で実行して削減効果を最大限に高めます。クライアント処理を妨げないように状況が許せばインライン プロセスとして実行しつつ、最大限の削減効果が得られるようにバックグラウンドで包括的に実行されます。重複排除はデフォルトで有効になっており、すべてのボリュームとアグリゲートに対して自動的に実行されるため、手動操作の必要はありません。

クライアントの読み取り / 書き込みドメインとは別の専用の効率化ドメインで実行されるため、重複排除処理のパフォーマンス オーバーヘッドは最小限に抑えられます。重複排除は、実行されるアプリケーションやデータへのアクセス方法(NASまたはSAN)にかかわらず、バックグラウンドで実行されます。

重複排除による削減効果は、データがDRサイトにレプリケートされたとき、バックアップされたとき、オンプレミス、ハイブリッド クラウド、パブリック クラウドの間で移動されたときなど、データが移動しても維持されます。

重複排除は、重複したデータ ブロックを破棄することで、ボリュームに必要な物理ストレージの量を削減します。

重複排除の仕組み

重複排除は、FlexVol®全体とアグリゲート内のすべてのボリュームにおいて4KBのブロック単位で機能し、重複するデータ ブロックを排除して一意のデータ ブロックのみを格納します。

重複排除の中核となるテクノロジはフィンガープリントです。フィンガープリントとは、すべての4KBデータ ブロックに対応する一意のデジタル署名です。

データがシステムに書き込まれると、インライン重複排除エンジンが受信ブロックをスキャンし、フィンガープリントを作成してハッシュストア(インメモリ データ構造)に格納します。

フィンガープリントの計算が完了すると、ハッシュストアで検索が実行されます。ハッシュストア内でフィンガープリントが一致すると、重複するフィンガープリント(ドナー ブロック)に対応するデータ ブロックがキャッシュ メモリ内で検索されます。

  • 見つかった場合は、完全に一致することを検証するために、新しいデータ ブロック(受信ブロック)とドナー ブロックの間でバイト単位で比較が行われます。検証時には、受信ブロックがディスクに実際に書き込まれることはなく、一致するドナー ブロックに共有されます。共有する詳細情報を追跡できるように、メタデータのみが更新されます。
  • キャッシュ メモリ内にドナー ブロックが見つからなかった場合、ドナー ブロックはディスクからキャッシュにプリフェッチされ、完全に一致することを検証するためにバイト単位で比較が行われます。検証時には、受信ブロックがディスクに実際に書き込まれることはなく、重複としてマークされます。共有する詳細情報を追跡できるように、メタデータが更新されます。

バックグラウンドの重複排除エンジンも同様に機能します。アグリゲート内のすべてのデータ ブロックをスキャンし、ブロックのフィンガープリントを作成して、誤検出を排除するためにバイト単位で比較することで、重複が排除されます。また、このような手順を踏むため、重複排除処理中にデータが失われることもありません。

NetAppの重複排除のメリット

NetApp®の重複排除には、次のように大きなメリットがあります。

  • NetAppまたは他社のプライマリ ストレージ、セカンダリ ストレージ、アーカイブ ストレージで動作する
  • アプリケーションに依存しない
  • プロトコルに依存しない
  • オーバーヘッドが最小限で済む
  • NetApp AFFFASで動作する
  • 検証はバイト単位
  • 新しいデータのほか、これまでボリュームやLUNに格納されていたデータに適用できる
  • オフピーク時に実行される
  • 他のNetApp Storage Efficiencyテクノロジと統合されている
  • NetApp SnapMirror®レプリケーション テクノロジやFlash Cacheインテリジェント キャッシングの使用時にも重複排除による削減効果を引き継げる
  • 無料

重複排除のユースケース

重複排除は、どのような種類のワークロードでも効果を発揮します。テスト / 開発やアプリケーションの導入に複数の仮想マシンを使用する仮想環境では、最大限のメリットが得られます。

デスクトップ間の重複データがかなり多くなることから、重複排除は仮想デスクトップ インフラ(VDI)でも有用です。

OracleやSQLなど、一部のリレーショナル データベースでは、重複排除から大きなメリットは得られません。これは、データベース レコードごとに一意のキーが設定されていることが多く、重複排除エンジンがデータベース レコードを重複として識別できないためです。

重複排除の設定

AFFシステム上のすべての新規ボリュームとアグリゲートでは、重複排除が自動的に有効になります。他のシステムでは、重複排除をボリューム単位またはアグリゲート単位で有効にできます。

重複排除を有効にすると、インライン処理とバックグラウンド処理の両方が自動的に実行され、最大限の削減効果が得られます。

Drift chat loading