企业级 AI 存储是指专为高性能、可扩展和安全的机器学习和人工智能工作负载而设计的专用基础架构。它是管理 AI 应用程序产生的大量数据的基础技术,可确保快速访问和处理速度,以加速 AI 开发和运维。
有效的 AI 存储解决方案采用特定功能构建,以处理 AI 工作负载的独特需求,这些需求与传统企业存储需求有很大不同:
企业级 AI 存储必须始终如一地提供高性能,以满足数据密集型工作负载的要求。这意味着支持每秒数 TB 的吞吐量和足以让最强大的 GPU 集群完全饱和的 IOPS。并行访问和优化的网络(例如 RDMA 和基于网络结构的 NVMe)在最大限度地减少瓶颈和减少端到端数据延迟方面发挥着关键作用。
这种性能不仅关乎原始速度,还关乎最大限度地减少昂贵计算资源的空闲时间。数据交付的效率直接影响 AI 团队的生产力以及模型训练和推理任务的吞吐量。随着 GPU 对企业级 AI 越来越重要,存储性能与整体 AI 系统性能密不可分。
从图像和视频到传感器日志和科学数据集,现代 AI 工作负载产生前所未有的非结构化数据。AI 存储平台必须从 PB 级扩展到 EB 级,同时保持性能和弹性。线性或近线性扩展意味着增加容量不会降低性能或影响访问时间。
AI 存储的可扩展性还通过其跨节点、数据中心甚至混合环境扩展的能力来衡量。企业需要那种不会随着数据的增长而产生孤岛或硬性限制的解决方案。弹性扩展与强大的数据管理相结合,可确保 AI 计划能够在每个增长阶段无需重新设计核心存储系统即可进行扩展。
AI 训练和推理会生成大量冗余 — 重复样本、增强数据集和迭代实验结果很常见。有效的企业级 AI 存储集成了数据精简技术(例如实时重复数据删除和压缩),用于最大限度地提高可用容量和控制成本。随着原始数据量的增加和保留期的延长,这些功能尤为重要。
数据精简不仅可以降低所需的存储占用空间,还可以通过减少计算层和存储层之间传输的数据量来提高吞吐量。通过压缩传输中的数据和静态数据,并消除不必要的副本,组织可以在优化支出和环境影响的同时保持性能。
传统的单体式存储设计经常与 AI 工作流程的规模和并发性发生冲突。分离式存储架构将存储与计算分开,使 AI 团队能够根据工作负载需求独立扩展每个层。此架构支持更大规模的部署、混合工作负载以及独立升级或维护,无需停机。
分离设计也使资源分配更加灵活。多个团队或项目可以共享一个公共存储池,并行访问数据而不会出现资源争用。此外,分离式存储与采用可组合基础架构和云原生的原则相一致,进一步提高了应对不断变化的 AI 需求的运维敏捷性。
企业级AI 存储必须支持各种数据访问协议,并与领先的 AI 和分析框架集成。常见要求包括与 NFS、SMB、S3、POSIX 和 HDFS 的兼容性,以及对 TensorFlow、PyTorch 和 Spark 等工具的直接支持。这种灵活性降低了集成的复杂性,加快了项目启动。
通过支持多种协议和对 AI 框架的原生钩子,组织可以确保其存储平台能够为不同的团队和项目提供服务 — 数据科学家、工程师和分析师可以使用他们选择的工具,而不会出现存储不兼容的情况。多协议支持还有助于针对不断发展的软件和工作负载要求进行面向未来的投资。
当数据构成 AI 模型训练和业务决策的基础时,保护数据至关重要。企业级 AI 存储必须提供安全功能,例如静态和传输中数据加密、访问控制、审计日志记录以及对治理框架的支持。鉴于数据集(包括专有算法和客户记录)的敏感性,遵守 GDPR 和 HIPAA 等法规通常是强制性的。
可靠性同样重要;不可变快照、擦除编码、地理复制和硬件故障的快速恢复等功能可最大限度地减少数据丢失和停机时间。这些功能不仅对于运维信心至关重要,而且对于随着 AI 解决方案投入生产而在用户和利益相关者之间保持信任也至关重要。
企业级 AI 存储越来越多地跨越本地数据中心和公有云。混合云兼容性可确保组织可以利用云的规模和经济效益,同时保持本地的性能和控制。AI 存储解决方案必须支持数据迁移、混合工作流和联合访问,确保数据位置不会妨碍处理或协作。
混合兼容性还提供了弹性和灵活性 — 工作负载可以在高峰期突发到云中,或者利用专门的 AI 服务,同时将敏感数据保留在本地。这种方法可帮助组织优化成本和治理,选择每个 AI 工作负载的运行位置,以获得最佳的整体结果。
NetApp ONTAP AI 是一种经过验证的参考架构,基于 NetApp ONTAP 构建,旨在支持企业级 AI 和机器学习工作流。通过将 NetApp ONTAP 与 NVIDIA DGX 系统相结合,作为经过验证的架构的一部分,ONTAP AI 为 AI 驱动的工作负载提供高性能、可扩展性和无缝数据访问。它确保数据管道保持高效、安全,并针对要求苛刻的 AI 应用程序进行了优化。
主要功能包括:
Dell PowerScale 是一个横向扩展的 NAS 平台,可满足企业级 AI 工作负载的性能、容量和安全性需求。它构建在 OneFS 操作系统上,支持跨边缘、核心和云环境灵活扩展的大型非结构化数据集。
主要功能包括:
Cloudian HyperScale 是一个支持本地高性能 AI 工作流的对象存储平台。它具有原生 S3 兼容性,并针对基于 GPU 的系统进行了优化,可与 AI 工具和框架集成,同时确保对非结构化数据的安全、多租户访问。
主要功能包括:
IBM AI Storage 是一个统一的软件定义平台,可大规模支持 AI、机器学习和分析工作负载。它将高性能文件和对象存储与从非结构化数据中提取意义的工具结合在一起,可实现更智能的 AI 模型和更快的洞察。
主要功能包括:
Huawei OceanStor 是一个 AI 优化的存储平台,可处理 AI 工作负载的扩展、多样性和强度。其架构支持用于训练和推理的数据处理,将全闪存和横向扩展存储系统与数据服务相结合。
主要功能包括:
统一的数据架构通过创建所有 AI 团队和相关利益相关者都可以访问的单一共享数据存储库来防止形成数据孤岛。集中存储简化了协作、版本管理和合规性实施,使团队能够访问最新的相关数据集,而无需重复的数据移动。有了该架构的支持,可在 AI 训练和评估中更快地进行实验并获得一致性。
实施统一存储还可以简化数据治理和安全性,为策略实施、审计和访问控制提供单一控制面板。对于企业来说,这最大限度地降低了数据碎片化和影子 IT 的风险,降低了总体成本,并简化了未来扩展或迁移到新平台的过程。还可以作为统一环境的一部分,充分利用其他可用的数据服务,如编目、谱系跟踪和数据脱敏。
在规划企业级 AI 的存储时,目标应该是持续为 GPU 提供数据。配置不足的存储会限制昂贵的 GPU 硬件发挥作用,导致投资浪费和 AI 迭代周期变慢。存储的规模、配置和联网应确保 AI 训练或推理的高峰阶段不会遇到带宽限制或延迟瓶颈。
实现 GPU 饱和需要端到端优化,包括确保足够的吞吐量、低延迟和并行数据访问。这可能涉及使用基于 NVMe 的存储、高速网络(如 InfiniBand 或 RoCE)以及针对读取密集型工作负载优化数据布局。在性能方面的前期投资将在整个 AI 项目速度、利益相关者满意度和资本回报率方面带来回报。
非结构化数据(如图像、文档和视频)在很大程度上依赖于对元数据的快速准确访问,以实现高效的索引、搜索和检索。应选择或调整企业级 AI 存储,以获得高元数据 IOPS,确保涉及数百万或数十亿个小文件的工作负载不会因目录或文件系统操作缓慢而停滞。这在模型训练期间尤其重要,因为经常需要快速随机访问。
选择具有分布式元数据体系结构或缓存的存储系统可以缓解这些瓶颈。AI 训练框架,如 TensorFlow 和 PyTorch,经常同时请求各种数据样本。糟糕的元数据性能可能成为一个隐藏的瓶颈,削弱原本高吞吐量的硬件。持续的基准测试和调整是识别和主动解决此类问题的明智投资。
在处理大量且多样化的 AI 数据集时,自动化数据生命周期管理至关重要。策略驱动的分层会根据使用频率、数据时效或项目状态等标准,自动在存储类之间移动数据,例如从快速 NVMe 移动到经济高效的对象存储。这不仅可以优化存储支出,还可以确保高价值、频繁访问的数据始终靠近计算资源。
实现自动化意味着更少的人工干预、更少的错误和更加可预测的存储成本。企业级平台配备了用于隔离、删除、归档或复制的精细策略引擎。定期审查和更新这些策略有助于保持监管一致性、安全性和控制性,因为数据使用模式会随着时间的推移而演变。
对存储和数据访问模式的完全可见性使组织能够识别性能热点、未充分利用的容量、合规性问题或异常活动。实施可观察性工具,例如监控信息板、警报和实时分析,使数据团队能够基于证据调整硬件分配、分层设置或工作负载放置。
可观察性还有助于容量规划,识别降低运维成本的机会,例如通过整合未充分使用的数据集、缩小过度配置的卷或调整数据移动策略。确保存储可观察性与更广泛的 IT 和 AI 管道监控相结合,为企业提供全面的洞察和控制,从而持续改善性能和支出。
对于企业级 AI 存储来说,端到端的安全性是必不可少的。从数据载入到处理、分析和存档,数据管道的每个阶段都必须包含访问控制、加密和审计审核机制。这可以保护专有模型、敏感客户信息和知识产权免受外部威胁和内部风险的侵害。
安全控制的自动化(例如基于策略的数据脱敏或访问令牌过期)可降低由于人为错误而导致数据泄露的风险。将存储安全与身份管理、SIEM 平台和合规执行相结合,可确保控制措施适应用户角色或法律要求的变化。随着新的 AI 用例和数据类型的出现,企业应定期评估和更新其安全状况。
随着各行各业对 AI 的采用不断增加,对数据存储基础架构的需求也在不断加剧。企业级 AI 存储必须提供高吞吐量、低延迟、可扩展性和强大的数据管理,以支持复杂的训练和推理工作负载。协议灵活性、集成安全性、混合部署支持和高效数据精简等关键功能对于大规模维持性能和控制成本至关重要。架构良好的存储基础不仅可以最大限度地提高 GPU 利用率并加速 AI 工作流,还可以确保随着数据量和用例的发展而具有长期的适应性。