NetApp Tech OnTap NetApp 标识
NetApp Tech OnTap
     
通过 AutoSupport 工具提高可用性

对大多数人来说,应用最佳实践就像练习 — 您知道自己能够做得比现在更好。因此,NetApp 将大量时间用于开发工具,这些工具可简化确定您哪些方面的存储最佳实践可进行改善的过程。

在过去几年中,我一直担任 NetApp 支持客户经理 (SAM),为澳大利亚某大型金融机构服务,在该机构中,我们亲眼目睹了使用这些工具所能带来的变化。我们只需以一致的方式使用 AutoSupport™ 工具、My AutoSupport 和远程支持诊断工具 (RSDT) 提供的数据,并进行微小的流程改善,便能够杜绝出现最为严重的事故(业务影响重大、影响多个用户或业务单位的关键故障)— 该银行已经两年半多未发生此类事故。此外,我们的可用性 SLA 也一直维持在 99.99% 至 99.999%。如果确实出现问题,我们能够更快地将其解决,不会产生大的影响。

在本文中,我会向可能不太熟悉所有这些工具的人进行简要介绍。我还会说明我们如何使用这些工具显著增强最佳实践合规性,从而提高存储系统稳定性、可用性、性能和效率。

My AutoSupport 风险报告。

图 1) 展示 AutoSupport、My AutoSupport 和 RSDT 的功能

AutoSupport 系列工具

首先,我要逐一简要介绍这三种工具。如果您已经了解这些工具,可以跳过此部分。不过您仍可以查看我提供的每个工具的链接,这些链接中包含很多宝贵信息。

你们大多数人可能会熟悉 AutoSupport,因为自 NetApp 早期便开始提供该工具。您在 NetApp® 存储系统上启用 AutoSupport 后,它会向您的管理员和 NetApp 发送系统警报和每周日志。NetApp 公司会自动分析此类信息,以确定任何可能影响未来存储系统稳定性和性能的问题。您可以在 NetApp 支持网站上阅读关于 AutoSupport 的更多信息。(需要 NetApp 支持登录帐户。)

My AutoSupport 是基于 Web 的工具,可使用 NetApp 存储系统中的 AutoSupport 数据来帮助您分析、建模和优化存储基础架构。具有有效硬件保修或支持合同的存储系统可以使用所有 My AutoSupport 功能,包括:

  • 通过主动检查生成风险报告
  • 性能概述报告
  • 设备可视化(系统、磁盘、RAID、qtree、容量)
  • 存储系统配置比较
  • 存储效率剖析
  • Data ONTAP® 升级顾问
  • 完整 AutoSupport 历史记录和事件
  • AutoSupport 内容查看器

您可以在此处了解关于 My AutoSupport 的更多信息。(需要 NetApp 支持登录帐户。)请务必查看页面底部的不同链接和视频。

远程支持诊断工具可帮助 NetApp 支持团队诊断存储系统问题,而无需您的 IT 员工干预。此工具可以显著加快问题解决速度,同时减轻您员工的负担。RSDT 可在您的存储系统与 NetApp 之间实现经过身份验证的安全通信。这样,NetApp 支持人员便可以实时上传核心文件及其他诊断数据,因此 NetApp 无需现场协助即可进行问题诊断。

考虑远程访问相关的潜在安全问题,我们特别采取了安全保护措施,包括:

  • 输出的 128 位加密 HTTPS 连接
  • 可防止欺骗行为的数字证书
  • 仅在问题鉴别分类期间收集数据
  • 您控制的安全策略
  • NetApp 操作全面检查日志

独立评估显示,RSDT 符合所有安全最佳实践。您可以在此处阅读关于 RSDT(包括第三方对 RSDT 安全性的评估)的更多信息。(需要 NetApp 支持登录帐户。)

充分利用 AutoSupport 工具

我作为 SAM 所服务于的金融机构拥有 120 多个 NetApp 存储系统。生产系统全部位于 HA 集群中,通过二级 HA 集群提供灾难恢复功能,通过其他独立系统进行备份(使用 NetApp SnapVault® 技术)。每月备份约 3.5 PB 数据。该存储基础架构为服务于不同业务单位的应用层、所有文件服务 (CIFS) 和 Exchange 提供存储。

该银行已在其多个存储系统中启用 AutoSupport,因此对我们而言,基本只需要确保涵盖所有系统,然后在部署 My AutoSupport 的功能后对其加以利用。由于该企业是一个金融机构,启用 RSDT 不是件易事,RSDT 获批用于各种支票和余额处理流程需要一段时间。但该银行坚信 RSDT 能够加快核心文件及其他诊断数据的访问速度,安全性团队最终确定 RSDT 符合该银行的所有数据和网络安全准则。

此机构取得成功的秘诀之一是 My AutoSupport 风险报告。My AutoSupport 会查找之前识别的风险签名并创建主动风险报告,该报告可识别可能降低存储系统可用性、性能或效率的问题。NetApp 的专家会根据现场经验和数据不断更新这些风险签名,因此每个报告始终会提供最新信息。My AutoSupport 还提供了用于消除或降低所识别的每个风险的流程。

My AutoSupport 风险报告。

图 2) My AutoSupport 风险报告。

My AutoSupport 风险报告与支持性剖析报告(见边栏)配合使用,可识别并记录每个风险、判断其重要性和风险剖析,以及制定化解该风险的行动计划。行动计划分为三类:

  • 能以无中断方式化解的风险
  • 能等到下次计划停机时再化解的风险
  • 需要尽快降低的风险

我和我的团队大约每两周对每个报告进行一次研究,并制定计划来化解未能提前识别的各个风险。然后,我们会将所有风险记录在“风险记录文档”中,等待运营团队解决。每次计划停机时都会参考此风险记录文档,以便完成未完结的工作。鉴于运营原因,部分风险无法在近期内化解;该银行认为那些风险可以接受。

结果

我和我的团队仅通过使用这些工具并对流程进行我所述的更改,便能显著提高存储系统稳定性。风险报告立刻发现了多种潜在的严重问题(例如几个故障的 FC-AL 环路),我们已实施行动计划来纠正这些问题。如表 1 所示,从 2010 年 7 月到 2012 年 1 月,我们在多个领域的最佳实践合规性得到显著提高。这对存储系统稳定性的提高产生了直接的促进作用。

表 1) 最佳实践合规性的提高。

合规性
 2010 年 7 月2012 年 1 月
运行 Data ONTAP 推荐版本的系统89%100%
最新 MB 固件32%99%
最新磁盘固件93%98%
最新磁盘架 FW/version93%98%
实施双重连接环路81%99%

 

总的来说,鉴于这些更改都得以实施,该银行对其 NetApp 存储的性能极其满意。NetApp 被誉为“典范供应商”,不光依靠稳定性和可用性,还有报告和前瞻性风险识别能力。

此外,通过实施 RSDT,出现了问题可以更快地解决。NetApp 技术支持能够立即下载核心文件及其他诊断数据,因此我们可以更快地解决已发生的问题,从而最大限度地减少该银行的运营中断。

结论

如果您尚未在自己的 NetApp 存储环境中利用 AutoSupport 系列工具,现在是时候开始行动了。这些工具提供了在风险造成问题之前对其进行识别和化解的简单方式,从而提高您的存储可用性、性能和效率。

 您对 AutoSupport 系列工具有何见解?

请在 NetApp 社区中在线提出问题、交流观点、分享看法。

NetApp
支持客户经理
Malcolm Chaney


Malcolm 于三年前加入 NetApp,担任澳大利亚的支持客户经理,最近得到晋升,负责管理其所在的团队。在 26 年的职业生涯(其中包括 19 年在 SGI 工作)中,他专注于提供最高质量的售后支持。他拥有 MBA 学位以及电气工程学士学位。


Tech OnTap
立即订阅
Tech OnTap 每月发布一次,为用户提供 IT 见解,以及对实际应用的最佳实践、技巧和工具、幕后技术访谈、演示、同行评论等的独家访问。

访问 NetApp 社区中的 Tech OnTap,立即订阅。

相关内容
相关内容
迈向无中断运营的重要一步

通过使用 AutoSupport 系列工具提供的可行情报和智能分析功能,本文所述的金融机构已经两年半未发生关键故障,同时可用性 SLA 也一直维持在 99.99% 至 99.999%。利用这些工具提高您的存储可用性并缩短停机时间。


支持性剖析报告

这种有价值的工具目前仅向具有支持客户经理 (SAM) 服务的 NetApp 站点提供,不过 NetApp 正在计划推广该工具。本报告选择了一系列存储系统,从 AutoSupport 数据中提取出他们的配置,然后将这些配置与一组最佳实践进行比较。生成的报告显示每个存储系统的合规性汇总以及详细信息,指出了要符合每项最佳实践而应当对每个存储系统进行的更改。

相关内容
 


TRUSTe
联系我们   |   如何购买   |   反馈   |   招聘  |   订阅   |   隐私政策   |   © 2012 NetApp