NetApp Tech OnTap NetApp Logo NetApp Logo
NetApp Tech OnTap
     
運用叢集式 Data ONTAP 使營運永不中斷
Charlotte Brooks
技術行銷工程師

自從改用共享基礎架構以來,幾乎不必再安排停機時間來進行例行性維護。單一儲存系統可能在很多應用程式、許多不同利害關係人或許多組使用者之間虛擬化,因此,協調停機時間會相當費時,而且最終沒有任一方會感到滿意。此外,設備需要汰換時,即使盡力不造成運作中斷,升級和更換設備的過程仍然相當費時,而且需要複雜的規劃。

叢集式 NetApp® Data ONTAP® 可免除維護作業和生命週期作業所需的計劃性停機,以及硬體和軟體故障而造成的非計劃性停機。NetApp 的目標是確保彈性的儲存基礎架構永遠可供使用,完全不需停機。我們認為,所提供的資料應該達到與其他任何公共事業一樣的可靠性。當您打開水槽的水龍頭時,您一定認為會有水流出來。

NetApp 不中斷營運的能力可讓基礎架構避免計劃性及非計劃性停機時間,同時大幅簡化維護及生命週期作業。

圖 1)NetApp 不中斷營運的能力可讓基礎架構避免計劃性及非計劃性停機時間,同時大幅簡化維護及生命週期作業。

我們的資料和網路移動性功能,可在不造成停機的情況下完成維護及生命週期工作。不中斷營運所展現的效益相當顯著,其中許多與利潤息息相關:

  • 加速部署新的硬體及(或)升級軟體 : 您是否遇過新硬體早已送到,結果只能放在卸貨區或凌亂堆在走廊幾個月,您卻還在苦等停機時間以進行升級?這是投資報酬率很低的做法。對於不中斷營運而言,等待已經是過去式。
  • 提高使用率: 由於您可在必要時增加新功能,完全不需等候停機時間,因此能夠有效提高 NetApp 叢集的使用率。您不再需要維持經常閒置的儲存容量來做為大型防護網。
  • 簡化作業: 計劃性停機通常需要花費大量時間,讓執行中的應用程式離線。而在維護完成後,您還必須重新啟動應用程式,確認一切恢復正常運作。不中斷營運能讓您輕鬆專注於執行儲存工作。不中斷營運的 NetApp 工具相當容易使用,可視需要重複執行而不會造成壓力。

我將在本文中探討 NetApp 針對不中斷營運所提供的工具,並討論如何使用這些功能來完成重要的維護和生命週期工作。

銷售的工具

叢集式 Data ONTAP 能彈性因應故障情況,而且不需中斷運作即可變更儲存基礎架構,達到不中斷營運的效果,方便您進行日常作業和維護。這之所以可行,是因為在叢集式 Data ONTAP 中,所有資料存取都透過稱為「儲存虛擬機器 (SVM)」的邏輯架構來進行,而非直接存取實體資源。因此,完全不需任何用戶端或主機端進行變更或中斷運作,即可改變 SVM 所使用的實體資源。

叢集式 Data ONTAP 儲存虛擬機器 (SVM) 會從實際硬體設備上抽離出資料存取作業,以達到更大的靈活度。有三項標準工具能達成此目標:

圖 2)叢集式 Data ONTAP 儲存虛擬機器 (SVM) 會從實際硬體設備上抽離出資料存取作業,以達到更大的靈活度。

有三項標準工具能達成此目標:

  • DataMotion™ for Volumes(磁碟區搬移):可將資料磁碟區從一個集合體移到另一個集合體(可以位於相同或不同的叢集節點)。
  • LIF 移轉: 邏輯介面 (LIF) 會將叢集式 Data ONTAP 中的實體介面虛擬化。LIF 移轉則可將 LIF 從一個網路連接埠移到另一個網路連接埠(可以位於相同或不同的叢集節點)。
  • 集合體重新配置 (ARL): 可將整個集合體從 HA 配對中的一個控制器移到另一個控制器,完全不需搬移資料。

這些工具能夠分開使用或搭配使用,讓您不中斷地執行各種作業,例如將磁碟區從較快的磁碟移到較慢的磁碟,一直到進行完整的控制器和儲存技術更新,全都涵蓋在內。

DataMotion for Volumes

DataMotion for Volumes(通常稱為磁碟區搬移)可將 SVM 內的磁碟區從一個集合體(來源)移到另一個集合體(目的地)。目的地可以位於同一個節點上,或叢集中的其他任何節點上。無論資料要移到哪裡,無論所用的資料傳輸協定為何(SAN 或 NAS),在搬移用戶端 / 主機應用程式之前、期間和之後,都會以透明化的方式維持資料存取性。

磁碟區搬移程序分為四個階段。一旦開始搬移磁碟區,將自動進行各階段的進度,不過您應該瞭解每個階段的意涵與其基礎活動。

  • 驗證階段: 檢查目的地集合體的可用容量及其他要求,藉此驗證是否能夠進行所要求的磁碟區搬移。
  • 設定階段: 在目的地集合體上建立新的磁碟區。
  • 迭代階段: 透過叢集網路複製 Snapshot™ 複本群組,將資料從來源磁碟區複寫到目的地磁碟區。在每次迭代之後,將會檢查來源和目的地兩者間的差異,確認是否差異小到足夠在定義的轉換階段時間內完成最終複寫。來源磁碟區的用戶端和主機 I/O 在這個階段不受影響。
  • 轉換階段: 所有 I/O 存取都將排入佇列,對於來源磁碟區的要求也將予以封鎖。隨即進行最終的複寫傳輸,並以新的磁碟區資訊更新磁碟區資料庫。排入佇列的 I/O 將在新位置的磁碟區恢復執行。轉換作業必須在定義的「轉換期間」內完成,這段期間是指用戶端 / 主機應用程式可接受的時間長度。

如果無法在指定的轉換時間內完成轉換,則轉換階段將被中止,同時恢復來源磁碟區的資料存取。將會完成在轉換嘗試期間排入佇列的任何擱置中要求,而且會重新進入迭代階段,直到出現能夠重試轉換的條件為止。

轉換時間可定義為 30 到 300 秒;預設值為 45 秒。由於這是流程中最重要的一部分,因此磁碟區搬移提供您一些關於轉換階段的控制。例如,您可以繼續執行作業,不在您觸發啟動之前進行轉換。如此您就能在所選擇的時間進行轉換。

LIF 移轉

LIF 移轉也能讓您搬移網路連線,如同磁碟區搬移讓您移動資料磁碟區一樣。LIF 是一個邏輯網路介面,以視覺化的方式呈現 SAN 和 NAS 網路連線。LIF 繫結至 SVM,並與控制器上的實體網路連接埠、介面群組或 VLAN(使用標記時)相對應。由於 LIF 經過虛擬化,因此當 LIF 移轉到叢集中相同或不同節點上的其他實體連接埠時,LIF 位址仍然維持不變。如果其中一個叢集節點當機,NAS LIF 將會自動容錯移轉,同持搭配 HA 配對中的儲存設備容錯移轉來維持資料存取性。您也可以手動將 LIF 移轉到其他連接埠。

各個叢集節點均可支援多達 262 個 LIF,其中 6 個保留用於管理和叢集功能。您可使用資料 LIF 將資料提供給用戶端或主機,也可將其做為 SAN 或 NAS。IP 型 LIF(NAS 或 iSCSI)將獲指派 IP 位址,FC 型 LIF 則會指派 WWPN。各個 SVM 至少需要一個資料 LIF。在一般作業中,您應該將各個節點的資料 LIF 限制在 128 個以下。如此一旦發生 HA 容錯移轉,則即使接收故障節點的所有 LIF,也不會超過合作夥伴節點的限制。

除了資料 LIF 之外,也有透過 CLI 或 OnCommand® System Manager 存取叢集的管理 LIF,以及叢集互連網路的叢集間 LIF。

LIF 移轉可將 IP 型 LIF 從一個實體連接埠或介面群組移到另一個實體連接埠或介面群組。SAN 資料 LIF(包含 iSCSI)則不需要移轉,也不會進行容錯移轉。反之,您可在具備啟動器的主機上使用 ALUA 和 MPIO 程序來最佳化路徑,並處理路徑失敗。

您可使用 LIF 移轉來移走特定網路的所有資料 LIF(以及所有網路流量),以便完成硬體維護或更換。LIF 移轉的另一個用途是能夠不中斷地從入門級 2 節點無交換器式節點叢集(叢集式 Data ONTAP 8.2 的新功能)升級成 2 節點交換器式叢集。LIF 移轉能夠四處搬移叢集互連 LIF,因此不需中斷資料流也能加入交換器。一旦交換器放置定位,即可視需要擴充叢集,建立更大的組態。

您可使用 LIF 移轉,將 LIF 移到同一個節點上的不同連接埠。例如,您可能在 GbE 連接埠上設定了 LIF。如果該 LIF 需要更多頻寬,您可將它暫時或永久移到同一個節點的 10GbE 連接埠。

欲深入瞭解 LIF 和其他叢集式 Data ONTAP 網路主題,請參閱 TR-4182《叢集式 Data ONTAP 網路組態的最佳實務做法》(英文)。.

集合體重新配置

集合體重新配置 (ARL) 是叢集式 Data ONTAP 8.2 的新功能。由於叢集式 Data ONTAP 內的所有叢集節點均為 HA 配對的一部分(單一節點叢集除外),ARL 能夠暫時將擁有權從 HA 配對的一個控制器移交給另一個,以便進行升級程序而無需搬移資料。

使用 ARL 時,遷移資料至其他控制器、升級既有控制器及遷回資料所花的時間,會比以往明顯地減少許多。Julian Cates 最近的一篇 Tech OnTap® 文章「叢集式 Data ONTAP 8.2 有哪些新功能?」 深入探討了 ARL,並說明其運作方式和使用它的最佳實務做法。

執行維護和生命週期工作

瞭解基本工具之後,接下來讓我們繼續瞭解如何使用這些工具來完成維護和生命週期工作。表 1 摘要列出許多工作,說明不中斷營運而能完成工作的優點。

表 1) 不中斷營運的生命週期和維護作業範例。

生命週期作業好處
  • 重新平衡控制器效能、容量和(或)磁碟機效能,以及用量
  • 減少資本支出(前置成本)
  • 改善生命週期管理
  • 消除熱點(提升效能、降低非計劃性停機的風險)
  • 新增儲存控制器或磁碟櫃
  • 將硬體新增到控制器
  • 提升效能和密度
  • 提升恢復能力
  • 升級儲存控制器、磁碟櫃、叢集交換器
  • 避免會造成營運中斷的技術更新
維護作業 
  • 升級儲存軟體
  • 加快運用新功能
  • 升級系統、磁碟、交換器、韌體
  • 消除潛在風險
  • 更換控制器內故障的控制器或元件(例如 NIC、HBA)和故障的儲存元件(例如纜線、磁碟機、I/O 模組)
  • 降低管理例行成本

完成維護工作

許多儲存資料的壽命比儲存設備本身還長。經過一段時間,軟體需要更新,硬體也需要更換或修復。

軟體和韌體更新

不中斷營運的升級 (NDU) 包含儲存系統軟體和儲存系統韌體兩者的升級。NDU 是升級以下各項的全方位解決方案:

  • 作業系統軟體 (Data ONTAP)
  • 作業系統韌體 (BIOS)
  • 磁碟櫃韌體
  • 磁碟韌體
  • 備用控制路徑 (ACP) 韌體

這些工作都能在簡短的 I/O 中斷情況下完成。應用程式將可持續運作,不需通知使用者或進行複雜的停機排程。儲存接管和歸還(背景使用 ARL)並搭配 LIF 移轉,可讓您一次對 HA 配對中的一個控制器進行維護工作,完全不需中斷資料服務。您可使用 My AutoSupport™ 中的 升級顧問工具(需要存取 NetApp 支援網站),來協助規劃不中斷營運的升級。此工具會完整列出完成整個叢集升級所需的步驟。

在尚未推出叢集式 Data ONTAP 8.2 之前,您必須使用「輪流升級」程序(一次升級一個 HA 配對)的方式來升級作業系統。在較大的叢集中,這是相當費時的程序。從叢集式 Data ONTAP 8.2 開始,您也可以選擇在具有 8 個(含)以上節點的叢集中進行批次升級。這可縮短大型叢集完成升級所需的時間。批次升級可讓您平行進行多個節點的升級作業,縮短升級整個叢集所需的全部時間。進行升級時,叢集可以執行兩個不同版本的叢集式 Data ONTAP,不過,最好盡量縮短叢集處於混合模式的時間。批次升級有利於達成此項目標。

硬體修復和更換

不中斷營運功能可支援儲存子系統硬體元件的不中斷修復或更換,範圍從磁碟機和纜線、到控制器和磁碟櫃均涵蓋在內。磁碟機受到 RAID 保護,可使用標準程序進行修復和更換,完全不需使用先前所述的工具。像是纜線之類的許多備援元件,故障後也不需使用這些工具而能直接更換。

完成生命週期作業

生命週期作業包含平衡和最佳化容量及(或)效能的活動,以及擴充或更新叢集技術的作業。叢集式 Data ONTAP 基礎架構可彈性因應長年持續營運而導致的許多必要變更。

無論規劃多麼詳盡,有些集合體仍然不免容量短缺,有些則有剩餘的過多容量。只要使用磁碟區搬移,將磁碟區從擁擠的集合體移到仍有空間的集合體,即可解決這類容量失衡的問題。

效能失衡的問題也能以同樣的方式處理。需要較高效能的磁碟區可移到較多容量的控制器(在混合叢集中)、負載較輕的控制器,或速度較快的媒體。例如,您可將需要較高效能的磁碟區從高容量磁碟集合體移到由高效能磁碟組成的集合體,也可將它移到使用 Flash Cache™ 的控制器,或是合用 SSD 和傳統硬碟的 Flash Pool™ 集合體。相反地,如果資料集的效能需求減少,則可將一或多個相關的磁碟區移到由高容量磁碟組成的集合體。

對於叢集式 Data ONTAP 叢集管理員而言,磁碟區搬移是標準的低壓迫性事件,一般不需變更要求。磁碟區搬移能讓 IT 團隊達到容量和效能目標,並獲得最佳作業成效,完全不會超過預算,因為這能按照應用需求,將資料移到正確類型的儲存設備上,而不必在較昂貴的高效能磁碟機上進行所有的資源配置和部署。

技術更新

NetApp 不中斷營運的另一項優點,是能夠不中斷地執行完整的技術更新。更換儲存硬體向來會造成營運中斷,而且曠日耗時且所費不貲。事實上, 近期的研究指出,要將資料從舊儲存陣列移轉至新儲存陣列,平均需要大約 5 個月的作業時間,而且會增加將近 50% 的陣列擁有成本。

叢集式 Data ONTAP 讓您不需將資料離線,即可簡單輕鬆地完成所有的硬體更新作業,進一步省下這些隱藏成本。叢集式儲存系統不一定非得採用相同世代或機型的產品,因此您可將某個 FAS 平台更換成另一個平台(或是變更整個儲存基礎架構),而不必中斷執行中的應用程式或迫使忙碌的使用者中斷工作。這是其他儲存設備難以匹敵的一大優勢。

您可使用 ARL 快速便利地升級現有儲存控制器,也可使用磁碟區搬移來進行完整升級(包含磁碟機和磁碟櫃)。在後者情況下,一般可將新的系統新增到叢集,然後將資料從舊系統移到新系統,再汰換舊系統。

這不只是理論上可行,我們已經完成許多次全面技術更新。例如,一個叢集式 Data ONTAP 的長期使用者在不中斷營運的情況下,從 20 多部 FAS6080 系統轉換成 16 部 FAS6280 系統,其中每部系統都有 512GB 的 Flash Cache 快閃快取儲存控制器。更新前後的總容量大約保持在 1 PB 左右。

轉換作業是以每四個一組分批進行。IT 團隊共新增四個新節點,然後將磁碟區從四個舊節點移到新節點。之後,團隊關閉舊節點,並將任何仍受支援的磁碟櫃(其中有部分硬體相當老舊,必須淘汰)移到下一組新節點。

根據使用者回報,資料處理量和效能都有大幅提升,而且升級也降低了後續的維護成本。最重要的是,整個過程完全不必停機。請注意,相較於上述升級方式,使用 ARL 能夠更簡單快速地完成這類升級。某些早期採用者已經使用 ARL 在 1 天內更新好整個叢集,完全不需資料移轉或停機。

結論

叢集式 Data ONTAP 將不中斷營運提升到新境界。磁碟區搬移、LIF 移轉和集合體重新配置等等的許多簡單工具,能夠快速輕鬆地完成過去必須經歷計劃性停機和嚴重中斷才能完成的維護和生命週期工作。能夠視需要執行工作而不必再等候停機時間,代表著儲存環境已經最佳化,而且風險大幅降低。

 對於不中斷營運有任何意見嗎?

您可以透過網路,在 NetApp 社群上提出問題、交換意見,並分享您的想法。

作者:Charlotte Brooks | 技術行銷工程師

Charlotte 是叢集式 Data ONTAP 的技術行銷工程師。在 NetApp 服務 5 年多的期間,曾經撰寫並簡報許多關於叢集式 Data ONTAP 和儲存管理的主題。目前她專注於不中斷營運功能,以及不中斷營運的升級。

Tech OnTap
立即訂閱
Tech OnTap 每月提供 IT 見解,並有大量可助您瞭解真實世界的最佳實務做法、工作祕訣與工具、幕後工程訪談、示範、同儕評論,及更多其他相關資訊。

請到 NetApp 社群中瀏覽 Tech OnTap ,立即訂閱這份實用資訊。

Explore
瀏覽
深入瞭解叢集式 Data ONTAP 第 8.2 版和不中斷營運

如果您錯過了,上個月 NetApp 技術行銷工程師 Julian Cates 評論 8.2 版的新功能,並撰寫深度文章介紹集合體重新配置、服務品質和 Microsoft® Windows® 增強功能。敬請閱讀他的文章,以及探討不中斷營運之商業效益、效率和擴充性的新版白皮書。

Explore
 
TRUSTe
與我們連絡   |   如何購買   |   意見反應   |   工作機會  |   訂閱   |   隱私權政策   |   © 2013 NetApp