NetApp Tech OnTap
NetApp Tech OnTap
     
從基礎談起:Deduplication 重複資料刪除技術

這個月,Tech OnTap 很榮幸為您帶來「從基礎談起」的第二篇連載文章,這系列文章將討論廣受歡迎的 NetApp 技術,幫助您瞭解及開始使用它們。

NetApp 在 2007 年推出 Deduplication 重複資料刪除技術,大幅降低客戶的儲存容量需求。NetApp Deduplication 重複資料刪除技術會在位元組層級執行驗證檢查,找出完全相同的資料區塊,並將這些區塊取代為指向單一共享區塊的參照,藉此提高效率。這項技術能夠消除位於相同磁碟區或 LUN 中的重複資料區塊,因此可以大幅減少儲存容量需求。

NetApp Deduplication 重複資料刪除技術是 NetApp Data ONTAP® 作業環境及 WAFL® 檔案系統的關鍵組成要素,可以管理 NetApp 儲存系統上的所有資料。重複資料刪除技術是在「幕後」工作,無論您執行何種應用程式或如何存取資料,它的負荷都很低。

我們經常聽到這個問題:「您可以節省多少空間?」我們稍後會回頭深入探討,但一般而言,這個答案取決於您環境中所含的資料類型與重複資料數量。以總部設在亞特蘭大、專門設計及增強新建與現有水泥廠的 Polysius 公司為例,我們將說明 NetApp Deduplication 重複資料刪除技術,在他們混合了商業與工程資料的環境中帶來哪些價值。

過去 Polysius 的正式作業環境儲存需求是以每年 30% 的速度遽升。將 Deduplication 重複資料刪除技術應用到混合了 AutoCAD 檔案、Microsoft® Office 文件與其他非結構性檔案的環境之後,Polysius 已經恢復 47% 的儲存空間。某些磁碟區的已用容量甚至減少達 70%。結果,公司可以延後購買新儲存設備的時程,而且磁碟上的備份資料保留時間也延長兩倍。欲知更多詳情,請閱讀 Polysius 成功案例

NetApp Deduplication 重複資料刪除技術還有更多重大優點:

  • 可在 NetApp 或協力廠商的一線、二線與歸檔儲存設備上運作
  • 不受應用程式限制
  • 不受通訊協定限制
  • 負荷極低
  • 可在 NetApp FAS 與 V 系列儲存系統上運作
  • 會檢查每一個位元組
  • 可以套用到新資料,或是先前儲存在磁碟區或 LUN 中的舊資料
  • 可在離峰時間執行
  • 能與其他 NetApp 儲存效率技術整合運用
  • 使用 SnapMirror® 或 Flash Cache 時,可以承續 Deduplication 重複資料刪除技術所創造的效益
  • 評估工具簡單易用
  • 完全免費

本章「從基礎談起」將探索 NetApp Deduplication 重複資料刪除技術的實作方式、最常見的使用案例、執行重複資料刪除技術的做法等內容。

Data ONTAP 執行 Deduplication 重複資料刪除技術的方式

NetApp Deduplication 重複資料刪除技術主要仰賴一項歷久彌新的電腦科技:參用計數 (reference counting)。之前 Data ONTAP 只會追蹤區塊是否為可用或正在使用中。有了 Deduplication 重複資料刪除技術,它也會追蹤使用的區塊數量。使用 Deduplication 重複資料刪除技術之後,NAS 與 SAN 組態可以參照單一區塊高達 255 次。檔案並「不知道」它們使用的是共享區塊,因為 WAFL 內的記錄作業是暗自處理這些細節。

FAS6200 系列。

圖 1)NetApp Deduplication 重複資料刪除技術的運作方式。

Data ONTAP 如何判斷兩個區塊是否可以共享?答案是:它會針對每個區塊計算「指紋」,也就是區塊資料的雜湊 (hash)。指紋相同的兩個區塊就可以進行共享。

啟用 NetApp Deduplication 重複資料刪除技術時,它會計算磁碟區中所有使用中區塊的指紋資料庫(稱為「收集」程序)。完成這項初始設定之後,資料就準備好進行重複資料刪除了。

為了避免拖慢正常作業,重複資料的搜尋工作是以獨立的批次程序進行。在正常使用情況下寫入資料時,WAFL 會建立這個資料的指紋目錄。這個目錄會不斷累積,直到下列其中一個由儲存系統管理員決定的事件觸發重複資料刪除為止:

  • 手動發出重複資料刪除 "start" 命令
  • 進行已排定的重複資料刪除程序
  • 對磁碟區寫入 20% 的新資料
  • 完成 SnapVault® 轉移時

一旦開始重複資料刪除程序,便會將已變更區塊的指紋當作索引值,開始進行排序作業。這份排序清單會與指紋資料庫檔案合併。每當這兩份清單中出現相同的指紋時,即代表有可以合而為一的相同區塊。此時 Data ONTAP 可以捨棄其中一個區塊,將它取代為指向另一個區塊的參照。由於檔案系統隨時都在變更,我們當然只能在兩個區塊確實還在使用中且包含相同資料時才進行這個步驟。為了確保兩個區塊真的完全相同,我們會在找出候選區塊後,逐一比較每個位元組。

執行 NetApp Deduplication 重複資料刪除技術時,可以利用 WAFL 的一些特殊功能,來降低重複資料刪除的成本。例如,磁碟上的每個資料區塊都受到 checksum(總和檢查碼)保護。

NetApp 使用這個 checksum 做為指紋辨識的基礎。由於我們無論如何都會計算資料區塊,辨識結果只是「順便」獲得的資料,因此並不會對系統造成額外的負荷。此外,因為 WAFL 絕不會覆寫使用中的資料區塊,因此指紋會一直有效,直到該區塊被釋出為止。NetApp Deduplication 重複資料刪除技術與 WAFL 的緊密整合,也表示變更記錄作業會變得非常有效率。如此一來,Deduplication 重複資料刪除技術就可以適用於各式各樣的工作負載,而非像其他重複資料刪除技術那樣,只限用於備份一途。

使用案例

NetApp 自從推出 Deduplication 重複資料刪除技術以來,便不斷衡量此技術可以在真實環境中帶來哪些優點。最廣為週知的使用案例是 VMware® 及 VDI(虛擬桌面基礎架構)、起始目錄資料,以及檔案服務。有關 Microsoft SharePoint® 及 Exchange 2010 的應用也迅速受到注目。

許多 Tech OnTap 文章都強調 Deduplication 重複資料刪除技術在 VMware 與 VDI 環境中的獨特優點,這是因為每個虛擬機器都使用近乎完全相同的作業環境,因此檔案先天上就非常適合進行重複資料刪除。下表總結整理各種環境的典型結果。

表 1)典型的 Deduplication 重複資料刪除技術空間節約效益。

資料集類型 應用程式類型 只使用 Deduplication 重複資料刪除技術

檔案服務 / IT 基礎架構

30%

虛擬伺服器與桌面

70%

資料庫

Oracle® OLTP

0%

Oracle DW

15%

SQL Server®

20%

電子郵件、協同作業

Exchange 2003/2007

3%

Exchange 2010

15%

工程資料

30%

地理震測

3%

歸檔資料

25%

備份資料

95%


在典型的 VMware 或 VDI 環境中,您可能擁有許多虛擬機器 (VM),它們多多少少都安裝了相同的作業系統與應用程式,而造成一大堆的重複資料。

如果您有 100 台執行相同 OS 的 VM,每台虛擬機器需要 10GB 到 20GB 的儲存空間,那表示有 1TB 到 2TB 的儲存空間用在幾乎相同的複本上。套用 NetApp Deduplication 重複資料刪除技術可以減少大量繼承而來的冗餘重複資料。

概括來說,如果您將 X 台虛擬機器指派到一個儲存磁碟區,經過重複資料刪除之後,您只需要未刪除重複資料的環境中大約 1/X 的作業系統儲存容量。您實際達到的結果明顯取決於磁碟區中擁有多少台 VM 以及它們的相似情況。

實際上,客戶通常可在 ESX V13 環境中看見 50% 以上的空間節約效益,有些客戶甚至獲得高達 90% 的空間節約效益。這個重複資料刪除技術可用於整個 VMware 儲存環境,包括應用程式資料,而非只有作業系統而已。在 VDI 環境中,客戶通常可以看見高達 90% 的空間節約效益。

NetApp 也針對某些受歡迎的工程與科學應用程式所建立的非結構性檔案資料儲存庫,調查重複資料刪除技術可以帶來哪些優點,調查對象包括 Siemens 的 Teamcenter PLM 軟體、IBM 的 Rational ClearCase SCM 軟體,以及用來分析地震資料的 Schlumberger Petrel 軟體。

Teamcenter 利用相對來說屬於小型的中繼資料資料庫,結合大型的「保管庫」(vault),來儲存工程設計檔案。每次當工程師在 Teamcenter 內儲存一項設計時,就會在保管庫中存入該設計檔案的完整複本,即使只是設計稍作更改也一樣。

NetApp 與 Siemens PLM 密切合作,模擬建立許多設計檔案的多個修訂(如同正常使用期間會發生的情況),然後採用 Siemens 的效能與可擴充性基準工具,來評估 Deduplication 重複資料刪除技術在 Teamcenter 環境中的價值。Deduplication 重複資料刪除技術的成果,是讓保管庫達到 57% 的空間節約效益。真實世界中的節約成果甚至更高,因為在大多數情況下,檔案修訂的數量可能比我們模擬的數量多上許多 (當然,一般來說,使用模擬程式來衡量潛在的 Deduplication 重複資料刪除技術節約效益時必須非常小心。在許多情況下,模擬的資料是以人工方式建立龐大的重複資料,因為客戶焦點通常放在效能,而非資料型態上。)

與 Teamcenter 相似,IBM 領先的軟體組態管理解決方案 Rational ClearCase 含有一個中繼資料資料庫,並結合一個大型「版本化物件庫」(或稱為 VOB)來儲存檔案。在需要製作 VOB 複本的情況下,Deduplication 重複資料刪除技術搭配 ClearCase 最為實用。此外,從實驗室環境的初步成果來看,在儲存了整個檔案的 ClearCase 環境中,使用 Deduplication 重複資料刪除技術可以達到 40% 以上的空間節約效益。

Schlumberger Petrel 用於解譯地震資料、將蓄水庫視覺化,以及模擬工作流程。它會建立包含大量檔案的專案目錄。當使用者建立、發送及歸檔資料時,便會在多個儲存裝置上儲存重複的資料物件。NetApp 發現對這些專案目錄套用 Deduplication 重複資料刪除技術,大約可以達到 48% 的空間節約效益。

使用 NetApp Deduplication 重複資料刪除技術

表 2 總結整理執行 NetApp Deduplication 重複資料刪除技術的基本需求。

表 2)NetApp Deduplication 重複資料刪除技術的基本需求。

需求 Deduplication 重複資料刪除技術

硬體

NearStore® R200
FAS2000 系列
FAS3000 系列
FAS3100 系列
FAS3200 系列
FAS6000 系列
FAS6200 系列
IBM N5000 系列
IBM N7000 系列
附註:從 Data ONTAP 7.3 開始,與上列 NetApp FAS 系統和 IBM N 系列閘道系統相對應的 V 系列系統也受到支援。

必備的最低 Data ONTAP 版本

Data ONTAP 7.2.5.1
(7-Mode 僅適用於 8.0.X)

需要授權

A-SIS
NearStore 授權(8.0 之前的 Data ONTAP 版本需要)

支援的磁碟區類型

僅 FlexVol®,無傳統磁碟區

磁碟區大小上限

若是 Data ONTAP 8.0.1,所有平台要進行 Deduplication 重複資料刪除技術的大小限制為 16TB。舊版 Data ONTAP 的「彈性磁碟區大小上限」則取決於 NetApp 機型,相關資料可在 TR-3505 中找到。

支援的通訊協定

全部

除了這些需求以外,留意最佳實務做法有助於採用 Deduplication 重複資料刪除技術以獲致成功。本節總結整理一些重要的最佳實務做法,以及結合其他受歡迎 NetApp 技術一起使用 Deduplication 重複資料刪除技術的相關資訊。如需完整詳細資料,請參閱 TR-3505《NetApp 重複資料刪除技術部署與實作指南》(英文)。

  • 您應該在部署前先衡量 Deduplication 重複資料刪除技術的效能影響,以及您在測試環境中的大小需求,尤其是針對 NetApp 先前尚未測試過的那些應用程式(如表 1 中總結整理)。
  • Deduplication 重複資料刪除技術會使用系統資源,並會變更磁碟上的資料配置。因為應用程式的 I/O 模式與 Deduplication 重複資料刪除技術均會影響資料配置,所以讀寫 I/O 的效能也會有所改變。這些空間節約效益與效能影響須視應用程式與資料內容而定。
  • 如果您的應用程式只會建立少量的新資料,就不需要經常執行 Deduplication 重複資料刪除技術,因為在此情況下頻繁執行並沒有太大的好處。執行 Deduplication 重複資料刪除技術的頻率應取決於彈性磁碟區中的資料變化率。
  • 同時執行的 Deduplication 重複資料刪除掃描程序越多,消耗的系統資源也越多。最佳選項是執行下列其中一項:
    • 擱置彈性磁碟區的重複資料刪除排程,讓重複資料刪除程序在其他日期執行,以降低同時執行過多程序的可能性。
    • 使用「自動」模式,使 Deduplication 重複資料刪除技術僅於有大量額外資料寫入每個彈性磁碟區時才執行 (在較小的環境中執行 Deduplication 重複資料刪除技術時,這自然會擱置執行)。
    • 手動執行 Deduplication 重複資料刪除技術。
    • 在夜間執行 Deduplication 重複資料刪除技術,讓要刪除重複資料的新資料量降至最低,進而縮短所需的完成時間。
  • 如果在 Deduplication 重複資料刪除程序完成之前便建立了 Snapshot® 複本,可能會導致空間節約效益變少。可能的話,請在建立 Snapshot 複本之前先執行重複資料刪除程序,務必等完成重複資料刪除程序之後,再建立 Snapshot 複本。
  • 若要正確執行 Deduplication 重複資料刪除技術,您需要保留一些可用空間給 Deduplication 重複資料刪除技術的中繼資料使用。若為 7.3 版之前的 Data ONTAP,每個彈性磁碟區都需要保留總資料量的 6% 當作可用空間。若為 7.3 版(含)之後的 Data ONTAP,則集合體應該保留總資料量的 4%(指紋 + 變更記錄檔)當作可用空間,以供所有已刪除重複資料的彈性磁碟區使用,而每個彈性磁碟區都應保留總資料量的 2% 當作可用空間。如需更多詳細資料,請參閱 TR-3505 第 5.3.3 節

Deduplication 重複資料刪除技術與其他 NetApp 技術

Deduplication 重複資料刪除技術設計為可與其他 NetApp 技術搭配運作。在許多情況下,結合運用這些技術可以獲得額外好處:

  • Flash Cache 快閃快取Flash Cache 提供智慧型快取功能,可加速 I/O 作業。NetApp Deduplication 重複資料刪除技術能夠增加快取命中的可能性。當 Flash Cache 中出現已刪除重複資料的區塊時,再次請求它的可能性也會比較高。這種效果稱為快取擴大效應,對伺服器與桌面虛擬化尤其有用。
  • 磁碟區 SnapMirror:當您利用磁碟區 SnapMirror 複製一個已刪除重複資料的磁碟區時,目標磁碟區會自動從來源磁碟區繼承已刪除重複資料的狀態。此效果對 VMware 的影響已於前期文章中說明。近期文章中也說明 Deduplication 重複資料刪除技術如何與所有形式的 SnapMirror 和 SnapVault 進行互動。
  • FlexClone 瞬間建立複本:FlexClone® 技術可立即將資料磁碟區與資料集複製為透明、虛擬的複本。在建立 FlexClone 磁碟區時:
    • 如果上層 FlexClone 磁碟區擁有重複的資料,則新的磁碟區會繼承此節約效益。
    • 複製的磁碟區會繼承上層磁碟區的重複資料刪除技術組態,例如重複資料刪除排程。
    • 從 Data ONTAP 7.3 開始,系統不會複製重複資料刪除技術的中繼資料檔案 (指紋資料庫與變更記錄檔),因為它們位於集合體的磁碟區外面。必須在複製的磁碟區上啟動 Deduplication 重複資料刪除技術,才能繼續進行完整的重複資料刪除作業。
  • Compression 壓縮:Data ONTAP 8.0.1 所推出的 NetApp 資料壓縮,是 Deduplication 重複資料刪除技術的高度互補功能。可能的空間節約效益與使用案例已於前期 Tech OnTap 文章中說明。
  • Thin Provisioning 資源隨需配置:Deduplication 重複資料刪除技術也可以結合 NetApp Thin Provisioning 隨需配置一起運作,以達到最大的空間節約效益。若為 NAS 磁碟區,則組態設定非常簡單直覺。若為 LUN,您可使用下列設定來達到最大空間節約效益 (如需完整詳細資料,請參閱 TR-3505 第 6.4.18 節):
    • LUN 空間保留值 = 關
    • 磁碟區部分保留值 = 0 到 100 的任意值
    • 磁碟區保證 = 無
    • 快照保留 = 0%
    • 自動刪除 = 開
    • 自動調整大小 = 開
    • Try_first = volume_grow

結論

Deduplication 重複資料刪除技術是一項重要的儲存效率工具,可以單獨使用,也可以搭配其他如 NetApp 資源隨需配置、FlexClone 等儲存效率解決方案一起使用。若要深入瞭解 Deduplication 重複資料刪除技術,請務必參閱 TR-3505《適用 FAS 與 V 系列的 NetApp 重複資料刪除技術部署與實作指南》(英文)。本指南經常更新,涵蓋主題相當廣泛,包括:

  • 組態設定與操作
  • 調整大小以獲得效能與空間效益
  • 搭配其他 NetApp 技術一起使用
  • 最佳實務做法,包括搭配特定應用程式(VMware;Microsoft Exchange、SQL Server 及 SharePoint;Lotus Domino;Oracle;以及其他應用程式)一起使用的最佳實務做法
  • 疑難排解
 對於 Deduplication 重複資料刪除技術有任何意見嗎?

您可以透過網路,在 NetApp 社群上提出問題、交換意見,並分享您的想法。

Carlos Alvarez
NetApp 資深技術行銷工程師


Carlos 從 2008 年起便效力於 NetApp,全部心力都投注在儲存效率上,對於 Deduplication 重複資料刪除技術、資料壓縮與 Thin Provisinoing 資源隨需配置擁有高度的專業知識。他定期提供如何將最有效且最適當的 NetApp® 儲存效率技術整合到客戶組態的指引。Carlos 擁有 20 年以上的業界經驗,曾受命建立許多實作指南、技術白皮書、參考架構、最佳實務做法,以及解決方案指南。


Tech OnTap
立即訂閱
Tech OnTap 每月提供 IT 見解,並有大量可助您瞭解真實世界的最佳實務做法、工作祕訣與工具、幕後工程訪談、示範、同儕評論,及更多其他相關資訊。

請到 NetApp 社群造訪 Tech OnTap,以立即訂閱。

 
瀏覽
瀏覽
Tech OnTap 的 Deduplication 重複資料刪除技術
想要深入瞭解 Deduplication 重複資料刪除技術嗎?您可能有興趣閱讀這些前期 Tech OnTap 文章:


更多「從基礎談起」
第一篇「從基礎談起」文章主要介紹 NetApp® Thin Provisioning 資源隨需配置。請仔細閱讀文章,以瞭解它的實作方式、最佳實務做法以及更多內容。

瀏覽
 
Go further, faster TRUSTe
與我們連絡   |   如何購買   |  意見反應   |   工作機會  |   訂閱   |   隱私權政策   |   © 2011 NetApp