NetApp Tech OnTap NetApp Logo NetApp Logo
NetApp Tech OnTap
     
借助集群模式 Data ONTAP 实现无中断运行
Charlotte Brooks
技术营销工程师

随着共享基础架构的普及,安排停机来完成日常维护操作已变得越来越不现实。实现虚拟化的整个存储系统可能涉及许多应用程序、众多利益相关方或者多个用户组,因此即便历尽千辛万苦最终实现协商停机,也会耗费大量时间,给所有人带来不愉快的体验。此外,即便能够最大限度地减少中断,在设备生命周期内执行升级和更换流程也是一项非常耗时的任务,而且规划起来也是千头万绪,纷繁复杂。

集群模式 NetApp® Data ONTAP® 旨在消除维护和生命周期操作所引起的计划内停机,以及因硬件和软件故障而造成的计划外停机。NetApp 的目标是帮助您构建随时可用、灵活响应需求且停机时间为零的存储基础架构。NetApp 认为数据交付应该像任何其他公共设施一样及时可靠。就好比当您走到水池前打开水龙头时水自然而然地流出来一样。

NetApp 无中断运行可以消除基础架构计划内和计划外停机时间,同时还能够显著简化维护和生命周期操作。

图 1) NetApp 无中断运行可以消除基础架构计划内和计划外停机时间,同时还能够显著简化维护和生命周期操作。

利用我们的数据和网络移动性功能,无需停机便可完成维护和生命周期任务。无中断运行会给您带来众多优势,其中许多优势还会直接体现在收益上:

  • 加快部署新硬件和(或)升级软件。 您是否有过这样的经历?新硬件早已到货,但您却只能一直将它们堆在码头上,或者堆放在走廊上长达数月之久,只是因为您在等待合适的停机时间,才能安排升级。这正是一种低投资回报的表现。有了无中断运行,这种等待一去不复返。
  • 提高利用率。 由于您可以根据需要随时添加新容量,而不必再等待停机时间,因而能将 NetApp 集群的利用率提升到更高的水平。您不必为了保持高不可及的安全防线,而造成存储容量大量闲置。
  • 简化操作。 计划内停机通常需要花费大量时间,才能使正在运行的应用程序脱机。完成维护后,您还需要重新启动应用程序,并验证一切运行正常。借助无中断运行,您只需要专注地执行存储任务,无需执行上述繁琐复杂的操作。NetApp 的无中断运行工具易于使用,专为按需执行低压力重复操作而设计。

在本文中,我将详细介绍 NetApp 提供的无中断运行工具,以及如何使用这些功能来完成重要的维护和生命周期任务。

基本工具

集群模式 Data ONTAP 不仅可以灵活应对故障,而且支持您在不停机的情况下更改存储基础架构,从而实现无中断运行,顺利完成日常操作和维护。在集群模式 Data ONTAP 中,所有数据访问均会通过一个名为 Storage Virtual Machine (SVM) 的逻辑构造,而不是直接访问物理资源,因而可以实现上述目标。这样一来,在客户端或主机端无需进行任何更改,也不必安排中断时间,就可以更改 SVM 使用的物理资源。

集群模式 Data ONTAP Storage Virtual Machine (SVM) 从物理硬件抽象化数据访问以提高灵活性。

图 2) 集群模式 Data ONTAP Storage Virtual Machine (SVM) 从物理硬件抽象化数据访问以提高灵活性。

三款标准工具助您实现上述目标:

  • DataMotion™ for Volumes (vol move): 支持您将数据卷从一个聚合移动到另一个聚合,聚合可以位于同一个集群节点上,也可以位于不同的集群节点上。
  • LIF 迁移: 在集群模式 Data ONTAP 中,逻辑接口 (Logical Interface, LIF) 用于虚拟化物理接口。通过 LIF 迁移,您可以将 LIF 从一个网络端口移动到另一个网络端口,网络端口可以位于同一个集群节点上,也可以位于不同的集群节点上。
  • 聚合重新定位 (Aggregate Relocate, ARL): 支持您将所有聚合从高可用性对中的一个控制器转移到另一个控制器,而无需迁移数据。

通过单独或组合使用上述工具,您可以无中断地执行一系列操作,例如:将卷从存取速度较快的磁盘移动到存取速度较慢的磁盘、全面的控制器和存储技术更新,等等。

DataMotion for Volumes

借助 DataMotion for Volumes(通常称为 vol move),您可以将 SVM 中的卷从一个聚合(源)移动到另一个聚合(目标)。目标可以位于同一节点上,也可以位于集群中的任何其他节点上。无论数据迁移的目标位置为何处,也不论使用哪种数据协议(SAN 或 NAS),在针对客户端或主机应用程序执行迁移之前、之后以及迁移期间,始终能透明地进行数据访问。

卷移动流程包括四个阶段。一旦启动卷移动,就会自动执行后续各个阶段,但是您必须要了解每个阶段以及底层的活动。

  • 验证阶段: 通过检查目标聚合上的可用容量以及其他要求,确认是否可以执行所请求的 vol move。
  • 设置阶段: 在目标聚合上创建新卷。
  • 迭代阶段:通过集群网络复制 Snapshot 副本组,从而将数据从源卷复制到目标卷。在每次迭代之后,都会检查源和目标之间的增量,以核实增量是否足够小,可以在定义的转换阶段时间内完成最后的复制。在此阶段中,从客户端和主机到源卷的 I/O 不会受到影响。
  • 转换阶段: 所有 I/O 访问都会排队等候,并且对源卷的请求也会被阻止。完成最后复制传输后,将使用新卷信息更新卷数据库。然后,在新位置的卷上重新运行排队的 I/O。必须在定义的“转换时间段”内完成转换,因为这是客户端或主机应用程序可以接受的时长。

如果未能在指定的转换时间内完成转换,则将中止转换阶段,并在源卷上恢复数据访问。将完成在转换尝试期间排入队列的所有待定请求,并且仅当条件允许时,才会恢复迭代阶段,从而重新进行转换。

定义的转换时间可以在 30 到 300 秒之间,默认值为 45 秒。鉴于这是整个流程中最重要的部分,您可以通过 vol move 加强对转换阶段的控制。例如,您可以将操作设置为仅当您触发时才进行转换。如此一来,您便可以选择在适当的时间完成转换。

LIF 迁移

通过 LIF 迁移移动网络连接与通过 vol move 移动数据卷一样。LIF 是一种逻辑网络接口,可以虚拟化 SAN 和 NAS 网络连接。LIF 会连接到 SVM,并映射到控制器上的物理网络端口、接口组和 VLAN(如果使用标记)。因为 LIF 已进行虚拟化,所以即便 LIF 迁移到同一节点或者集群中其他节点上的另一个物理端口,LIF 地址仍保持不变。如果一个集群节点发生故障,NAS LIF 会自动进行故障转移,与高可用性对中的存储故障转移相互配合,从而维持数据访问。您也可以手动将 LIF 迁移到其他端口。

每个集群节点最多支持 262 个 LIF,其中 6 个留作管理 LIF 和集群 LIF。数据 LIF 用于向客户端或主机提供数据,并且指定为 SAN 或 NAS。为基于 IP 的 LIF(NAS 或 iSCSI)分配 IP 地址,为基于 FC 的 LIF 分配 WWPN。每个 SVM 均需要至少一个数据 LIF。在正常操作时,您应将每个节点上的数据 LIF 数量限制为不超过 128 个。如此一来,如果发生高可用性故障转移,即使由配对节点接管故障节点上的所有 LIF,也不会超出配对节点上的限制。

除了数据 LIF 之外,还有用于通过 CLI 或 OnCommand® System Manager 访问集群的管理 LIF,以及用于集群互连网络的集群间 LIF。

通过 LIF 迁移,您可以在物理端口或接口组之间移动基于 IP 的 LIF。SAN 数据 LIF(包括 iSCSI)无需迁移,并且也不会进行故障转移。相反,可以在主机上通过启动程序执行 ALUA 和 MPIO 流程,以优化路径并处理路径故障。

您可以使用 LIF 迁移将某特定节点上的所有数据 LIF(进而也包括所有网络流量)全部移出,以便完成硬件维护或更换。LIF 迁移的另一个用例是,它支持您从入门级双节点无交换机集群(集群模式 Data ONTAP 8.2 中最新推出的功能)无中断地升级到双节点有交换机集群。LIF 迁移支持四处移动集群互连 LIF,因此您无需中断数据流,便可以添加交换机。安装好交换机之后,您还可以根据需要扩展集群,从而构建更大规模的配置。

您可以使用 LIF 迁移将 LIF 移动到同一节点上的其他端口。例如,您可以在某个 GbE 端口上配置 LIF。如果该 LIF 需要更多带宽,您可以将其暂时或永久移动到同一节点上的某个 10GbE 端口。

要详细了解 LIF 以及有关集群模式 Data ONTAP 网络的其他主题,请参阅 TR-4182:《集群模式 Data ONTAP 网络配置最佳实践》

聚合重新定位

聚合重新定位 (ARL) 是集群模式 Data ONTAP 8.2 中推出的一项新功能。由于集群模式 Data ONTAP 中的所有集群节点都属于一个高可用性对(单节点集群除外),因此利用 ARL 功能,只需暂时将所有权从高可用性对中的一个控制器转到另一个控制器,无需移动数据即可完成升级过程。

较之首先将数据迁移到其他控制器,接下来升级现有控制器,然后再将数据迁移回来的过程,使用 ARL 完成控制器升级所需的时间明显缩短。Julian Cates 最新发表的 Tech OnTap® 文章《集群模式 Data ONTAP 8.2 的新增功能》从工作原理和最佳实践等方面对 ARL 进行了细致入微的介绍。

执行维护和生命周期任务

您对基本工具已经有了一定的了解,接下来我们来了解一下如何使用这些工具来完成维护和生命周期任务。表 1 汇总了大部分任务并说明了无中断完成这些任务的优势。

表 1) 无中断生命周期和维护操作示例。

生命周期操作优势
  • 重新平衡控制器性能、容量和(或)磁盘性能以及使用量
  • 降低资本支出(前期支出)
  • 改善生命周期管理
  • 消除热点(提高性能、降低计划外中断风险)
  • 添加存储控制器或磁盘架
  • 向控制器添加硬件
  • 提高性能和密度
  • 提高弹性
  • 升级存储控制器、磁盘架、集群交换机
  • 避免因技术更新而造成中断
维护操作 
  • 升级存储软件
  • 尽早利用新功能
  • 升级系统、磁盘、交换机、固件
  • 消除潜在风险
  • 更换发生故障的控制器或控制器内的组件(如 NIC、HBA)以及发生故障的存储组件(如缆线、驱动器和 I/O 模块)
  • 削减管理开销

完成维护任务

所存储的许多数据其保留时间比存储系统本身寿命长。随着时间的推移,不仅需要更新软件,还需要更换或维修硬件。

软件和固件更新

无中断升级 (Nondisruptive Upgrade, NDU) 包括存储系统软件和存储系统固件升级。NDU 是一种全面的升级解决方案:

  • 操作系统软件 (Data ONTAP)
  • 操作系统固件 (BIOS)
  • 磁盘架固件
  • 磁盘固件
  • 替代控制路径 (Alternate Control Path, ACP) 固件

完成这些任务时,不会造成长时间 I/O 中断。应用程序可以持续运行,不必通知用户或进行复杂的停机安排。通过将存储接管和交还(在后台使用 ARL)与 LIF 迁移相结合,您一次可以在高可用性对中的一个控制器上执行维护操作,而不必中断数据服务。您可以使用 My AutoSupport™ 中的 Upgrade Advisor 工具(需要访问 NetApp 支持站点)安排无中断升级。该工具会生成一个完整列表,说明升级整个集群所需执行的步骤。.

在推出集群模式 Data ONTAP 8.2 之前,必须使用“滚动升级”流程来执行操作系统升级,而这种流程一次只能升级一个高可用性对。在大型集群中,这是一个相当耗时的流程。从集群模式 Data ONTAP 8.2 开始,您还可以在具有 8 个或更多节点的集群上选择执行批量升级。这样可以缩短完成大型集群升级所需的时间。通过批量升级,您可以在多个节点上并行执行升级操作,从而减少升级整个集群所需的总时间。在执行升级期间,集群可以运行两种不同的集群模式 Data ONTAP 版本,但是最好尽可能缩短集群在混合模式下运行的时间。批量升级有助于实现这一点。.

硬件维修和更换

无中断运行支持无中断地维修或更换存储子系统中的各种硬件组件,包括磁盘驱动器和缆线以及控制器和磁盘架。磁盘驱动器通过 RAID 进行保护,并且可以使用标准程序进行维修和更换,一般不需要使用前文所述的工具。发生故障后,不使用这些工具也可以更换许多冗余组件(如缆线)。

完成生命周期操作

生命周期操作不仅包括平衡与优化容量和(或)性能的活动,还包括扩展或更新集群中的技术的操作。集群模式 Data ONTAP 基础架构的灵活性和弹性,足以应对多年持续运营过程中许多不可避免的变更。

无论您的计划多么完美,总会发生意外情况,像是一些聚合的容量不足,而另一些聚合的空间却超出需求。使用 vol move 可以轻松解决这种容量不平衡问题,只需将卷从拥挤的聚合移到空间充足的聚合上即可。

性能不平衡问题可以采用同样的方式解决。可以将需要更高性能的卷移动到功能更加强大的控制器(在混合集群中)、负载更轻的控制器或速度更快的介质上。例如,您可以将需要更高性能的卷从大容量磁盘聚合上移动到高性能磁盘组成的聚合上,也可以将其移动到包含 Flash Cache 或 Flash Pool 聚合(结合了 SSD 和 HDD)的控制器上。反之,如果某个数据集的性能需求降低,您也可以将关联的一个或多个卷移动到大容量磁盘组成的聚合上。

对于集群模式 Data ONTAP 集群管理员来说,vol move 是一个压力较小的标准流程,一般不需要提交变更请求。借助 vol move,您的 IT 团队不超出预算即可实现容量和性能目标并优化运营,因为他们可以根据应用程序需求轻松地将数据移动到类别适当的存储类型上,而不是像以前一样,想当然地在更加昂贵、性能更高的驱动器上配置和部署一切。

技术更新

无需中断便可执行全面技术更新的功能为 NetApp 无中断运行锦上添花。一直以来,更换存储硬件的流程总是非常耗时、昂贵,并且会造成中断。事实上,最新研究表明,将数据从旧存储阵列迁移到新存储阵列平均需要 5 个月时间才能完成,导致阵列的拥有成本几乎增加 50%。

借助集群模式 Data ONTAP,您可轻松容易地完成全面的硬件更新,而无需使数据脱机,由此避免这些隐性成本。由于不要求使用同一版本或型号的集群存储系统,因此您可将一个 FAS 平台更换为另一个,也可更改整个存储基础架构,而不会中断正在运行的应用程序或繁忙的用户。其他任何存储都无法做到这一点。

您可以使用 ARL 快速便捷地升级现有存储控制器,也可以使用 vol move 完成全面的升级(包括驱动器和磁盘架)。在后一种情形中,您一般需要向集群添加新系统并将数据从旧系统移动到新系统,然后才能停用旧系统。

这不仅仅在理论上可行,事实上,我们已经多次完成了全面的技术更新。例如,一个长期使用集群模式 Data ONTAP 的用户从一个由 20 多个 FAS6080 组成的集群无中断地过渡到由 16 个 FAS6280 组成的集群,其中每个 FAS6280 均采用 512 GB 的 Flash Cache 存储。更新前后的总容量保持在 1 PB 左右。

IT 团队将四个节点分为一组,完成了过渡。他们首先添加了四个新节点,将四个旧节点上的卷移动到这四个新节点上。然后,他们关闭了旧节点,并将任何仍受支持的磁盘架(其中一些硬件十分旧,必须停用)移动到下一组新节点上。

用户报告说,吞吐量和觉察到的性能都有明显提升,而且升级还降低了日常维护成本。最重要的是,整个过程的停机时间为零。值得一提的是,ARL 的推出可以使此类升级更加简单快速(相较于以前执行此类升级而言)。一些早期采用的企业使用 ARL 在 1 天时间内就更新了所有集群,无需进行任何数据迁移,也不会造成停机。

结论

集群模式 Data ONTAP 将无中断运行提升到一个新高度。vol move、LIF 迁移和聚合重新定位这些简单的工具有助于您轻松快速地完成维护和生命周期任务,颠覆了以前不安排计划内停机和经历大规模中断就无法执行这些任务的老套做法。您可以根据需要执行任务,而不必等待少有的停机时机,这意味着您的存储环境可以得到优化,同时还能显著降低风险。

 对无中断运行有任何见解?

请在 NetApp 社区中在线提出问题、交流观点、分享看法。

作者:技术营销工程师 Charlotte Brooks

Charlotte 是一名集群模式 Data ONTAP 技术营销工程师。在 NetApp 工作的五年多时间里,她撰写了大量文章,深入探讨了集群模式 Data ONTAP 和存储管理等话题。目前,她关注的焦点话题是无中断运行和无中断升级。

Tech OnTap
立即订阅
Tech OnTap 每月发布一次,为用户提供 IT 见解,以及对实际应用的最佳实践、技巧和工具、幕后技术访谈、演示、同行评论等的独家访问。.

访问 NetApp 社区中的 Tech OnTap ,立即订阅。

Explore
Explore
详细了解集群模式 Data ONTAP 8.2 和无中断运行

上个月,NetApp 技术营销工程师 Julian Cates 发表了一篇文章,其中回顾集群模式 Data ONTAP 8.2 版的新功能,并且深入介绍了聚合重新定位、服务质量和 Microsoft® Windows® 增强功能,如果您错过了这篇文章,请访问下面的链接。此外, 我们还提供了一篇新白皮书,帮助您了解无中断运行、高效率和高扩展性所带来的业务优势。

Explore
 
TRUSTe
联系我们   |   如何购买   |   反馈   |   招聘  |   订阅   |   隐私政策   |   © 2013 NetApp