什么是非结构化数据?

在粉色背景下排成 2 排的 7 个粉色立方体,其中一个白立方体不在一条直线上

在大数据的现代世界中,非结构化数据最为丰富。它非常具有优势,因为非结构化数据可能是任何内容:媒体、图像、音频、传感器数据、文本数据等。非结构化是指未以结构化数据库格式存储的数据集(典型的大型文件集合)。非结构化数据具有内部结构,但不是通过数据模型预定义的。它可能是文本或非文本格式的人为生成的数据或机器生成的数据。

获取白皮书

对象存储:管理极大规模的非结构化数据

非结构化数据可以理解为事务处理系统中未被主动管理的数据;例如,不位于关系数据库管理系统( RDBMS )中的数据。结构化数据可以理解为数据库环境中的记录(或事务);例如, SQL 数据库表中的行。

对于数据是结构化数据还是非结构化数据,没有任何偏好。这两种模式都具有允许用户访问信息的工具。非结构化数据的数量规模远比结构化数据大。

非结构化数据的示例包括:

  • 富媒体。媒体和娱乐数据,监控数据,地理空间数据,音频,天气数据
  • 文档收集。发票,记录,电子邮件,工作效率应用程序
  • 物联网 (IoT)。传感器数据, ticker 数据
  • 分析。机器学习/人工智能 (AI)

基于对象的存储出现之前,这种非结构化数据中的大部分(甚至全部)都存储在基于文件的系统中。

使用非结构化数据存在哪些挑战?

思考如何应对非结构化数据的挑战的方法是:企业在采用传统方法管理非结构化数据时会面临哪些挑战?

扩展

在许多企业中,遇到包含几百甚至上千亿个项目的非结构化数据集的情况很常见。这些项目,对象或文件的大小可以从几字节(例如,生产线设备的温度读数)到数 TB (例如,全长 8K 分辨率运动图片)。使用传统文件方法管理这种扩展速度很快就从困难变为不可能,因为仅仅为了保持服务器、文件系统、阵列等的 " 平衡 " ,就需要越来越多的资源。

协作

这些庞大的非结构化数据集越来越多地在共享后带来更多价值(例如,多家医院的研究人员共享大量常见的基因组序列)。采用传统方法时,要想跨地理位置、企业实体等共享大量非结构化数据集,要求进行极其昂贵的复制和监管。

使用对象存储克服这些挑战

今天的 对象存储解决 方案通过提供分布在不同地理位置的活动命名空间来应对扩展和协作的挑战。通过此命名空间,任何位置的用户都可以使用简单的 get 命令从任何位置检索对象或文件(无需指定数据中心、服务器、文件系统或控制器)。同样, 使用 PUT 命令可以载入数据,以便所有位置都可以轻松访问。同样, PUT 命令可以载入数据,以便所有位置都可以轻松访问。

单个全局命名空间的简便性和可扩展性与简单的无状态数据管理协议(例如 Amazon S3 和 Swift )相结合,可帮助组织跨地理位置、组织和应用程序边界提供可扩展的协作环境。

NetApp 和对象存储

您可以使用 NetApp® StorageGRID® 技术为私有云和公共云提供安全持久的对象存储,以便大规模存储和管理非结构化数据。借助 StorageGRID,您可以构建一个大规模(多位置)的单个命名空间,还可以将一个唯一的信息生命周期策略集成到该数据中。借助 StorageGRID 集成策略引擎,您可以确信数据可用:

  • 位于正确的地理位置
  • 在适当的性能级别
  • 在合适的持久性和保护级别
  • 在适当的时间,且能根据业务需求变化自动调整

继续阅读

Drift chat loading