データ重複排除は、データの余分なコピーを排除し、ストレージ容量の要件を大幅に削減するプロセスです。
重複排除は、データがストレージ システムに書き込まれるときにインライン プロセスとして実行することも、データがディスクに書き込まれたあとに重複を排除するためにバックグラウンド プロセスとして実行することもできます。
NetAppでは、重複排除をデータ損失ゼロを実現するテクノロジとして、インライン プロセスとバックグラウンド プロセスの両方で実行して削減効果を最大限に高めます。クライアント処理を妨げないように状況が許せばインライン プロセスとして実行しつつ、最大限の削減効果が得られるようにバックグラウンドで包括的に実行されます。重複排除はデフォルトで有効になっており、すべてのボリュームとアグリゲートに対して自動的に実行されるため、手動操作の必要はありません。
クライアントの読み取り / 書き込みドメインとは別の専用の効率化ドメインで実行されるため、重複排除処理のパフォーマンス オーバーヘッドは最小限に抑えられます。重複排除は、実行されるアプリケーションやデータへのアクセス方法(NASまたはSAN)にかかわらず、バックグラウンドで実行されます。
重複排除による削減効果は、データがDRサイトにレプリケートされたとき、バックアップされたとき、オンプレミス、ハイブリッド クラウド、パブリック クラウドの間で移動されたときなど、データが移動しても維持されます。
重複排除は、FlexVol®全体とアグリゲート内のすべてのボリュームにおいて4KBのブロック単位で機能し、重複するデータ ブロックを排除して一意のデータ ブロックのみを格納します。
重複排除の中核となるテクノロジはフィンガープリントです。フィンガープリントとは、すべての4KBデータ ブロックに対応する一意のデジタル署名です。
データがシステムに書き込まれると、インライン重複排除エンジンが受信ブロックをスキャンし、フィンガープリントを作成してハッシュストア(インメモリ データ構造)に格納します。
フィンガープリントの計算が完了すると、ハッシュストアで検索が実行されます。ハッシュストア内でフィンガープリントが一致すると、重複するフィンガープリント(ドナー ブロック)に対応するデータ ブロックがキャッシュ メモリ内で検索されます。
バックグラウンドの重複排除エンジンも同様に機能します。アグリゲート内のすべてのデータ ブロックをスキャンし、ブロックのフィンガープリントを作成して、誤検出を排除するためにバイト単位で比較することで、重複が排除されます。また、このような手順を踏むため、重複排除処理中にデータが失われることもありません。
NetApp®の重複排除には、次のように大きなメリットがあります。
重複排除は、どのような種類のワークロードでも効果を発揮します。テスト / 開発やアプリケーションの導入に複数の仮想マシンを使用する仮想環境では、最大限のメリットが得られます。
デスクトップ間の重複データがかなり多くなることから、重複排除は仮想デスクトップ インフラ(VDI)でも有用です。
OracleやSQLなど、一部のリレーショナル データベースでは、重複排除から大きなメリットは得られません。これは、データベース レコードごとに一意のキーが設定されていることが多く、重複排除エンジンがデータベース レコードを重複として識別できないためです。
AFFシステム上のすべての新規ボリュームとアグリゲートでは、重複排除が自動的に有効になります。他のシステムでは、重複排除をボリューム単位またはアグリゲート単位で有効にできます。
重複排除を有効にすると、インライン処理とバックグラウンド処理の両方が自動的に実行され、最大限の削減効果が得られます。