在大数据的现代世界中,非结构化数据最为丰富。它非常具有优势,因为非结构化数据可能是任何内容:媒体、图像、音频、传感器数据、文本数据等。非结构化是指未以结构化数据库格式存储的数据集(典型的大型文件集合)。非结构化数据具有内部结构,但不是通过数据模型预定义的。它可能是文本或非文本格式的人为生成的数据或机器生成的数据。
在大数据的现代世界中,非结构化数据最为丰富。它非常具有优势,因为非结构化数据可能是任何内容:媒体、图像、音频、传感器数据、文本数据等。非结构化是指未以结构化数据库格式存储的数据集(典型的大型文件集合)。非结构化数据具有内部结构,但不是通过数据模型预定义的。它可能是文本或非文本格式的人为生成的数据或机器生成的数据。
对象存储:管理极大规模的非结构化数据
非结构化数据可以理解为事务处理系统中未被主动管理的数据;例如,不位于关系数据库管理系统( RDBMS )中的数据。结构化数据可以理解为数据库环境中的记录(或事务);例如, SQL 数据库表中的行。
对于数据是结构化数据还是非结构化数据,没有任何偏好。这两种模式都具有允许用户访问信息的工具。非结构化数据的数量规模远比结构化数据大。
非结构化数据的示例包括:
在基于对象的存储出现之前,这种非结构化数据中的大部分(甚至全部)都存储在基于文件的系统中。
思考如何应对非结构化数据的挑战的方法是:企业在采用传统方法管理非结构化数据时会面临哪些挑战?
扩展在许多企业中,遇到包含几百甚至上千亿个项目的非结构化数据集的情况很常见。这些项目,对象或文件的大小可以从几字节(例如,生产线设备的温度读数)到数 TB (例如,全长 8K 分辨率运动图片)。使用传统文件方法管理这种扩展速度很快就从困难变为不可能,因为仅仅为了保持服务器、文件系统、阵列等的 " 平衡 " ,就需要越来越多的资源。
协作这些庞大的非结构化数据集越来越多地在共享后带来更多价值(例如,多家医院的研究人员共享大量常见的基因组序列)。采用传统方法时,要想跨地理位置、企业实体等共享大量非结构化数据集,要求进行极其昂贵的复制和监管。
今天的 对象存储解决 方案通过提供分布在不同地理位置的活动命名空间来应对扩展和协作的挑战。通过此命名空间,任何位置的用户都可以使用简单的 get 命令从任何位置检索对象或文件(无需指定数据中心、服务器、文件系统或控制器)。同样, 使用 PUT 命令可以载入数据,以便所有位置都可以轻松访问。同样, PUT 命令可以载入数据,以便所有位置都可以轻松访问。
单个全局命名空间的简便性和可扩展性与简单的无状态数据管理协议(例如 Amazon S3 和 Swift )相结合,可帮助组织跨地理位置、组织和应用程序边界提供可扩展的协作环境。
您可以使用 NetApp® StorageGRID® 技术为私有云和公共云提供安全持久的对象存储,以便大规模存储和管理非结构化数据。借助 StorageGRID,您可以构建一个大规模(多位置)的单个命名空间,还可以将一个唯一的信息生命周期策略集成到该数据中。借助 StorageGRID 集成策略引擎,您可以确信数据可用: