什么是非结构化数据 — 定义和含义

主题

分享该页面

在现代大数据环境中，非结构化数据最为丰富。之所以能如此繁多，是因为非结构化数据可以是任何数据：媒体、图像、音频、传感器数据、文本数据等。非结构化只是指代不以结构化数据库格式存储的数据集（典型的大型文件集合）。非结构化数据具有内部结构，但不是通过数据模型预定义的。它可以是人工生成的，也可以是机器以文本或非文本格式生成的。

非结构化数据与结构化数据

非结构化数据可以被视为事务处理系统中未主动管理的数据；例如，不在关系数据库管理系统 (RDBMS) 中的数据。结构化数据可以被视为数据库环境中的记录（或事务）；例如，SQL 数据库表中的行。

对于数据是结构化数据还是非结构化数据，并没有高低之分。两者都提供允许用户访问信息的工具。非结构化数据只是比结构化数据更为丰富。

非结构化数据的示例包括：

富媒体。媒体和娱乐数据、监控数据、地理空间数据、音频、天气数据
文档集。发票、记录、电子邮件、工作效率应用程序
物联网 (IoT)。传感器数据、股票数据
分析。机器学习、人工智能 (AI)

在基于对象的存储出现之前，大多数（虽然不是全部）非结构化数据都存储在基于文件的系统中。

处理非结构化数据会带来哪些挑战？

在考虑如何应对非结构化数据的挑战时，可以进行以下提问：企业在采用传统方法管理非结构化数据时会面临哪些挑战？

扩展

在许多企业中，遇到数百亿或数千亿项规模的非结构化数据集是很常见的。这些项目、对象或文件的大小可以从几个字节（例如，生产线仪器的温度读数）到 TB（例如，8K 分辨率的完整版电影）不等。要想使用传统文件方法来管理如此庞大的规模，起初就会十分困难，随着规模的增长，难度逐渐加剧，最终变得无法实现，因为光是维持服务器、文件系统、阵列等之间的“平衡”，就需要不断追加资源方面的投入。

协作

这些庞大的非结构化数据集越来越多地通过共享产生价值（例如，多家医院的研究人员共享一个大型基因组序列库)。使用传统方法时，要在不同地理位置、公司实体等之间共享大量非结构化数据集，需要极高的复制和监管成本。

对象存储：在极大规模下管理非结构化数据

下载

利用对象存储克服挑战

当今的对象存储解决方案通过提供地理分布式活动命名空间来应对扩展和协作方面的挑战。通过此命名空间，任何位置的用户都可以使用简单的 GET 命令从任何位置检索对象或文件（而无需指定数据中心、服务器、文件系统或导向器）。同样，使用 PUT 命令可以载入数据，以便可以从所有位置轻松访问数据。

单个全局命名空间的精简性和可扩展性与简单的无状态数据管理协议（例如 Amazon S3 和 Swift）相结合，可帮助企业跨地理位置、组织和应用程序边界提供可扩展的协作环境。

NetApp 和对象存储

使用 NetApp^® StorageGRID^® 技术为私有云和公有云提供安全、持久的对象存储，从而大规模存储和管理非结构化数据。借助 StorageGRID，您可以构建大规模（多位置）单一命名空间，还可以将唯一的信息生命周期策略集成到这些数据中。使用 StorageGRID 集成策略引擎，您可以确信在以下条件下的数据可用性：

在合适的地理位置
在适当的性能级别
在合适的耐用性和保护级别
在适宜的时间，并随着业务需求的发展而自动变化