メニュー

データ重複排除とは

立方体
トピック

データ重複排除は、データの余分なコピーを排除し、ストレージ容量の要件を大幅に削減するプロセスです。

重複排除は、データがストレージシステムに書き込まれるときにインラインプロセスとして実行することも、データがディスクに書き込まれたあとの重複を排除するためにバックグラウンドプロセスとして実行することもできます。

ネットアップでは、データ損失ゼロの重複排除テクノロジをインラインプロセスとバックグラウンドプロセスの両方で実行し、最大限の削減効果を実現します。このプロセスは、クライアントの操作に干渉しないようにインラインプロセスとして適宜実行され、節約を最大化するためにバックグラウンドで包括的に実行されます。重複排除はデフォルトで有効になっており、すべてのボリュームおよびアグリゲートに対して手動操作なしで自動的に実行されます。

クライアントの読み取り / 書き込みドメインとは別の専用の効率化ドメインで実行されるため、重複排除処理のパフォーマンスオーバーヘッドは最小限です。アプリケーションの実行状況 やデータへのアクセス方法( NAS または SAN )に関係なく、バックグラウンドで実行されます。

重複排除による削減効果 は、データが DR サイトにレプリケートされたとき、データがバックアップされたとき、またはオンプレミス、ハイブリッドクラウド、パブリッククラウドの間を移動したときに維持されます。

重複排除機能の仕組み

重複排除機能は、 FlexVol ® 全体、およびアグリゲート内のすべてのボリュームにおいて、 4KB のブロックレベルで動作します。重複するデータブロックを排除し、一意のデータブロックのみを格納します。

重複排除機能を実現する中核となるテクノロジは、フィンガープリントです。フィンガープリントは、 4KB のすべてのデータブロックに適用される一意のデジタル署名です。

システムにデータが書き込まれると、インライン重複排除エンジンが受信ブロックをスキャンし、フィンガープリントを作成して、フィンガープリントをハッシュストア(メモリ内データ構造)に格納します。

フィンガープリントの計算が完了すると、ハッシュストアで検索が実行されます。ハッシュストア内でフィンガープリントが一致すると、重複するフィンガープリント(ドナーブロック)に対応するデータブロックがキャッシュメモリ内で検索されます。

  • 見つかった場合、正確に一致することを確認するために、現在のデータブロック ( 受信者ブロック ) とドナーブロックの間でバイト単位の比較が行われます。検証時に、受信者ブロックは、実際にディスクに受信者ブロックを書き込むことなく、一致するドナーブロックと共有されます。メタデータのみが更新され、共有の詳細が追跡されます。
  • ドナーブロックがキャッシュメモリ内に見つからない場合、ドナーブロックはディスクからキャッシュにプリフェッチされ、バイト単位の比較を行って完全に一致することを確認します。検証時に、ディスクへの実際の書き込みを行わずに、受信者ブロックが重複としてマークされます。メタデータが更新され、共有の詳細が追跡されます。

バックグラウンドの重複排除エンジンも同様に機能します。アグリゲート内のすべてのデータブロックがスキャンされ、ブロックのフィンガープリントが比較され、 1 バイトずつ比較されて誤検出が検出されないため、重複が排除されます。また、この手順により、重複排除処理中にデータが失われることはありません。

ネットアップの重複排除機能のメリット

ネットアップ の重複排除機能には、次のような大きな利点があります。

  • ネットアップまたは他社のプライマリストレージ、セカンダリストレージ、アーカイブストレージで動作します
  • アプリケーションに依存しません
  • プロトコルに依存しません
  • 最小限のオーバーヘッド
  • NetApp AFF 、FAS 、およびで動作します E シリーズストレージシステム
  • バイト単位の検証
  • 新しいデータまたは以前のデータに適用できます ボリュームと LUN に格納
  • オフピーク時に実行されます
  • 他のネットアップの Storage Efficiency テクノロジと統合されています
  • 重複排除による削減効果は、 NetApp SnapMirror® レプリケーションテクノロジまたは Flash Cache インテリジェントキャッシングを使用している場合に継承できます
  • 無償

重複排除のユースケース

重複排除は、ワークロードの種類に関係なく有効です。テスト / 開発環境とアプリケーション環境に複数の仮想マシンを使用する仮想環境では、最大のメリットが得られます。

デスクトップ間での重複データが非常に多いことから、重複排除機能には仮想デスクトップインフラ( VDI )も非常に適しています。

OracleSQL などの一部 のリレーショナルデータベースは重複排除のメリットをあまり受けません。これは、データベースレコードごとに一意のキーがあることが多く、重複として重複が検出されないようにするためです。

重複排除の設定

AFF システム上のすべての新規ボリュームとアグリゲートでは、重複排除が自動的に有効になります。他のシステムでは、重複排除をボリューム単位またはアグリゲート単位で有効にできます。

有効にすると、インライン処理とバックグラウンド処理が自動的に実行され、最大限の削減効果が得られます。