Menú

¿Qué son los datos no estructurados?

7 cubos de color rosa en 2 filas con un cubo blanco fuera de línea sobre un fondo rosa

En el mundo moderno de Big Data, los datos no estructurados son los que más abundan. Son tan prolíficos porque los datos no estructurados pueden ser de cualquier índole: multimedia, imágenes, audio, datos de sensor, datos de texto y mucho más. No estructurado significa simplemente que se trata de conjuntos de datos (colecciones grandes típicas de archivos) que no se almacenan en un formato de base de datos estructurado. Los datos no estructurados tienen estructura interna, pero no están predefinidos por modelos de datos. Pueden generarlos los seres humanos o una máquina, en formato textual o no textual.

Obtenga el documento

Almacenamiento de objetos: gestionar datos no estructurados a escala extrema

Los datos no estructurados se pueden pensar como datos que no se gestionan de forma activa en un sistema transaccional; por ejemplo, los datos que no viven en un sistema de gestión de bases de datos relacionales (RDBMS). Los datos estructurados se pueden pensar como registros (o transacciones) en un entorno de base de datos; por ejemplo, las filas de una tabla de una base de datos SQL.

No hay preferencia en cuanto a si los datos están estructurados o no estructurados. Ambos disponen de herramientas que permiten a los usuarios acceder a la información. Los datos no estructurados sólo tienen una mayor abundancia que los datos estructurados.

Algunos ejemplos de datos no estructurados son:

Hasta la llegada del almacenamiento basado en objetos, la mayoría, si no todos, de estos datos no estructurados se almacenaban en sistemas basados en archivos.

¿Qué retos presenta el trabajo con datos no estructurados?

La forma de pensar en cómo hacer frente a los retos de los datos no estructurados es preguntarse: ¿cómo hacen frente las empresas con enfoques tradicionales para gestionar los datos no estructurados?

Escalado

Es común en muchas empresas encontrar conjuntos de datos no estructurados a la escala de decenas o cientos de miles de millones de elementos. Estos elementos, objetos o archivos pueden tener un tamaño de unos pocos bytes (por ejemplo, una lectura de temperatura desde un instrumento de línea de producción) a terabytes (por ejemplo, una imagen de movimiento de resolución de 8 K de longitud completa). La gestión de esta escala con los enfoques de archivos tradicionales pasa rápidamente de difícil a imposible, ya que se requieren más y más recursos para mantener un "equilibrio" de servidores, sistemas de archivos, cabinas, etc.

Colaboración

Cada vez más, estos conjuntos de datos masivos no estructurados proporcionan valor a medida que se comparten (por ejemplo, investigadores de varios hospitales que comparten un banco masivo común de secuencias genómicas). Con los enfoques tradicionales, la capacidad de compartir conjuntos masivos de datos no estructurados entre geografías, entidades corporativas, etc., ha requerido una replicación y una gobernanza extremadamente caras.

Superar estos retos mediante el almacenamiento de objetos

Hoy en día Las soluciones de almacenamiento de objetos satisfacen los retos de la escala y la colaboración al proporcionar un espacio de nombres activo distribuido geográficamente. Este espacio de nombres permite a un usuario en cualquier ubicación recuperar un objeto o un archivo desde cualquier ubicación con un comando GET simple (sin tener que especificar un centro de datos, un servidor, un sistema de archivos o un director). De forma similar, los comandos PUT permiten la ingesta de datos para que todas las ubicaciones puedan tener acceso fácilmente.

La simplicidad y escalabilidad de un único espacio de nombres global combinado con un simple protocolo de gestión de datos sin estado (por ejemplo, Amazon S3 y Swift) ayudan a las organizaciones a ofrecer un entorno escalable y colaborativo a través de los límites geográficos, organizativos y de aplicaciones.

NetApp y almacenamiento de objetos

Puede almacenar y gestionar datos no estructurados a escala mediante la tecnología StorageGRID ® de NetApp ® para un almacenamiento de objetos seguro y duradero para clouds privados y públicos. Con StorageGRID, puede crear un espacio de nombres único masivo (multiubicación) y también puede integrar una política de ciclo de vida de la información única en esos datos. Con el motor de políticas integrado StorageGRID, puede estar seguro de que sus datos están disponibles:

  • En la ubicación geográfica correcta
  • En el nivel correcto de rendimiento
  • Al nivel adecuado de durabilidad y protección
  • En el momento adecuado y cambiando con el tiempo automáticamente a medida que evolucionan las necesidades del negocio

Continúe leyendo

Drift chat loading