NetApp Tech OnTap
     

成功案例:实施企业级云服务

常言道,便宜没好货,这个理论也适用于云服务合同。在大多数情况下,如果付出的成本越少,获得的服务等级(服务等级协议, SLA)自然也就越低。然而, T-Systems 提供的云服务却颠覆了这个理论。 早在五年前, 在云计算还不为众人熟知的时候,T-Systems 就已经着手开发动态服务解决方案了。该动态解决方案传递了 T-Systems 的一个理念,即通过灵活的 IT 模式提供服务,帮助客户在提高效率、降低成本的同时,提高服务水平。 起初,我们认为,低成本且易执行的动态服务最能迎合低端市场的需求, 但是随后该服务却迅速获得了需要企业级 SLA 的高端用户的追捧。

如今,我们已能提供全套 IT 即服务(ITaaS)解决方案,包括提供存储即服务(SaaS)、基础架构即服务(IaaS),以及实施 SAP® 、Lotus Notes/Domino 和 Microsoft® Exchange 等常见应用。我们的解决方案还同时具备以下优势:

  • 与本地(内部) IT 服务相比,成本降低 30% 以上
  • 迅速提供新资源
  • 能在数分钟内通过自助服务方式进行恢复
  • 确保 100% 的备份 / 恢复成功率
  • 以七分之一的成本提供灾难恢复(DR)
  • 目标恢复点(Recovery Point Objective,RPO)为零,目标恢复时间(Recovery Time Objective,RTO)为 15 分钟
  • 为新客户简化迁移过程
  • 提供无中断的升级能力
  • 将存储效能提高 50%

我们之所以能做到以上这些,是因为我们结合了 NetApp 和 VMware 技术。在本文中,我将对我们采用的技术,它带给 T-Systems 及其客户的益处,以及它未来的发展计划和机遇进行阐述。

创建一个简单、标准的虚拟架构

为创建动态服务解决方案,我们需要建立一个能按需扩展的、由虚拟模块构成的简单架构。只有在服务器和存储上实现全面虚拟化,我们才能做到根据客户变化的需求,在确保低成本的前提下,灵活且迅速地扩展或缩小服务层级。

因此,我们最终选择在标准的服务器上运行 NetApp® 存储和 VMware® 技术解决方案。我们只有采用最高可用性的 NetApp 存储系统进行存储,才能确保即使在存储利用率相当高的情况下,仍能拥有最理想的性能。

NetApp 之所以能在诸多供应商中脱颖而出,是因为到目前为止,只有 NetApp 能满足我们所有的要求。我们每 90 天就向所有主要的存储供应商提供我们的需求目录,然而直到现在,仍然只有 NetApp 能满足我们提出的所有需求。

我们是通过网络文件系统(NFS)访问存储,而不是用存储区域网络(SAN)。选择基于以太网的存储方式可以避免 SAN 的庞大与繁琐,而且与传统的 SAN 设备相比,所需的管理时间也大幅度降低。出错率降低了,服务层级自然上升了。此外,我们还获得了更高的存储效能。整个网络的存储成本降低了,运作更灵活了。

例如,在我们原先的服务模式下,为一个客户上线一个完全的 SAP 解决方案需要 6 至 9 周的时间。而现在,通过动态服务,我们从规划、定制到建成一个满足客户需求的 SAP 系统,只需要 8 小时。

采用标准组件也是我们取得进一步成功的原因,这顺应了我们的“替换 VS. 修补”原则。如果一个组件坏了,如服务器,我们立即从备用组件库中选择一个相应的组件将其替换掉,因此我们不再需要焦急地等待技师前来修理以恢复运作,从而省去了昂贵的系统维护费用,并降低了运营成本。

满足或超越现有的企业SLA

采用上述基础架构模块作为基础架构,我们为客户提供的 SLA 与之前客户从内部 IT 基础架构获得的 SLA 相比,我们的服务层级毫不逊色,甚至是更高。

降低 RPO 和 RTO 以实现成本有效的恢复
客户最激进的 RPO 和 RTO 需求不外乎以最有效的成本实现最艰难的 SLA。复杂的集群软件由于管理强度高而导致成本上升,因此往往无法实现即定目标。我们看到,传统的集群解决方案的成功率只有 70% 到 80% 。

针对动态服务,我们决定采用一个更为简便的方法,即运用 NetApp MetroCluster 软件在被我们称为“双核 (twin-core)”的数据中心间进行同步镜像,那是两个相距 100 公里 以上的数据中心。 例如,在服务美国市场时,我们在德克萨斯州的休斯顿有一个数据中心,与之呼应的是位于德州韦斯特兰的另一个数据中心,两者相距 160 公里 。我们必须与 NetApp 合作,以确保 MetroCluster 能在如此大的跨度间成功运作。事实上, NetApp 的卓越表现超过了我们的预期。

依托 MetroCluster ,数据能在所有的双核数据中心间实现同步镜像。如果一个数据中心出了错,我们可以在另一个数据中心重新启动相关应用,从而实现数据零损失(RPO 为零),我们也能在 15 分钟或是更短时间内恢复该应用( RTO 达到 15 分钟)。

我们也采用 VMware HA 为运行在虚拟机上的应用提供高可用性。如果物理服务器上出现故障,受影响的虚拟机就会自动在其它有备用空间的工作服务器上重启,从而补充了 MetroCluster 的功能。 在存储和服务器层面,将物理故障的影响降到最低,或是直接实现无中断。

正因为 MetroCluster 解决方案的简便,与一个典型的集群解决方案要加收 2 至 3 倍的费用相比,我们只加收 30% 的增值费。这对我们的企业用户而言,无疑具有无限的吸引力。事实上,接受我们动态服务的所有大客户都为其最关键的数据选择了该解决方案。(您可从最近的 Tech OnTap 成功案例中获得更多关于实施 MetroCluster 的信息。)



图 1 ) T-Systems 存储基础架构

跟计划停机时间说再见
上文中提到的 MetroCluster 配置的另一个优势在于 ,在系统进行存储升级和维护时,不再需要预先安排当机时间。由于在多租户架构中,不同的客户共享相同的硬件设备,因此在维护时间上不可能预先达成一致。

有了 MetroCluster,我们只要对集群的一端进行人工关断,在另一端进行存储系统升级;然后在另一端进行关断,反向操作升级流程,从而实现无中断。

凭借 VMware VMotion™,我们服务器上的 VMware 虚拟机中的应用,也同样实现了上述功能。虚拟机的所有状态都载录在一系列文档中,并存入 NetApp 存储系统。采用 VMotion 的虚拟机能保存精准的执行状态、确定网络身份、建立主动网络连接, 并帮助用户实现零停机时间和无中断。因此,我们可以将虚拟机移到其它地方的另一台服务器上运作,可以是在同一个数据中心内,也可以是在与之相对应的另一个数据中心内;升级或维护服务器;在不发生中断的前提下将虚拟机移回原处。

基于磁盘的备份和自助文件恢复
我们之所以能为客户提供低成本的企业级 SLA 的另一个重要原因,就是免去磁带备份之烦。众所周知,磁带备份相当复杂,这使得它的管理成本居高不下, 其速度慢和易出错的特点也使恢复变得困难重重,甚至是不可能。

在我们原先的磁带环境中( T-Systems 托管原有的基础架构,再配上动态服务解决方案),我们每月平均要进行 50 次恢复测试,成功率在 75% 左右。而我们需要为客户提供更可靠且成本有效的解决方案。因此,我们决定在主存储上选用 NetApp Snapshot™ 副本,在二级存储上选择 NetApp SnapVault® ,以实现备份长期保存。对于应用而言, NetApp SnapManager® 套装通过协同高效的 Snapshot 方式与 SAP 、 Oracle® 、 Microsoft Exchange 等常见应用,为我们提供一致的、应用感知的备份模式。通常情况下,我们为每个客户保留 30 天的 Snapshot 副本。

无需 T-Systems 协助,客户可自行访问 Snapshot 副本并执行恢复操作。恢复过程也由原先的数小时缩短为几分钟,且恢复成功率为 100% 。

安全
安全也是 T-Systems 关注的一个重要问题。当客户了解到需要与其他客户共享基础架构时,他们都会对动态服务解决方案提出质疑,这也是情理之中的事。因此,我们会定期邀请外部的审计员为系统提供检查和入侵检测,为安全性提供认证。

为确保数据安全,我们采用 NetApp MultiStore® 软件,以实现在同一个存储系统中创建多个、分离的、完全私密的逻辑分区,确保多个客户在分享存储系统的同时,拥有私密性和安全性。 MultiStore 是 NetApp 存储的另一大特点,特别适合于云服务架构。

快速迁移服务
许多 T-Systems 的新客户需要将现有的应用和数据迁移到 T-Systems 后才能启用动态服务。NetApp 技术则通过精简这一过程,再一次帮助了我们。我们先通过在客户端安装 NetApp 存储系统以载入数据,然后采用 NetApp SnapMirror® 软件从客户站点将数据异步复制到我们的一个数据中心内,从而成功实现迁移。 最近,我们就运用此方法将一个客户的 PB 级数据成功迁移至我们的数据中心。

未来规划

从 2005 年推出动态服务解决方案至今,我们已取得了骄人的业绩。但我们不会为胜利冲昏头脑、驻足不前。事实上,动态服务(Dynamic Services) 2.0 已在酝酿中。

目前,基于数据能同步镜像到两个成对的站点,我们的双核数据中心设计已使我们在成对的数据中心间成功实现应用的透明移动。假设,如果我们要将一个应用迁移至某个数据中心,而数据尚未被镜像,那么我们是不可能像现在这样做到没有中断的。 NetApp Data Motion™ 的特点,加上 VMware VMotion ,才使得我们实现无中断地将任一应用迁移至任一数据中心。

数据中心的界限由于上述功能的实现而几近消失。我们能充分利用我们的数据中心和资源,在全球范围内提供真正的云服务。 我们将把每个数据中心的效能发挥到最大化,将根据需要迁移应用,平衡我们各个数据中心的负载。

了解更多T-Systems 的详情

想要了解更多有关 T-Systems 及其运用 NetApp 技术作为云服务组成部分的详情吗? 可参阅以下资料:


 想就 T-Systems 动态服务发表意见?

您可以在 NetApp 网上社区上提问、交流想法及分享心得。

Joshua Konkle

Stefan Bucher 博士
T-Systems
壳牌客户业务全球服务经理

Stefan Bucher 于 1998 年加入 T-Systems。此前,他已在业内积累了相当丰富的经验。 2000年起,他成为业务支持部门的负责人,带领全球团队为T-Mobile客户提供服务,并从中洞悉了服务大型国际客户的真谛。 2007年起,由Stefan 负责掌控的服务器数高达 36,000 台以上,每秒处理的机器语言指令达140,000百万条(140,000 MIPS),存储总量达8PB。通过把握稳步优化、最高安全、 正确配置、可用性和持续发展,他负责为客户提供高品质的主机托管和存储服务。此外,他在创新方面颇有造诣。

Stefan 毕业于德国的慕尼黑大学(全称路德维希马克西米利安慕尼黑大学,Ludwig-Maximilians University),获物理学博士学位。

Explore