Qué son los datos no estructurados: definición y significado

Temas

Compartir esta página

En el mundo moderno del Big Data, los datos que más abundan son los no estructurados. Son tan prolíficos porque los datos no estructurados pueden ser de cualquier naturaleza: multimedia, imágenes, audio, datos de sensores, datos de texto y muchos más. «No estructurado» significa simplemente que se trata de conjuntos de datos (grandes colecciones típicas de archivos) que no se almacenan en un formato de base de datos estructurado. Los datos no estructurados tienen una estructura interna, pero no están predefinidos mediante modelos de datos. Pueden estar generados por seres humanos o máquinas, en formato textual o no textual.

Datos no estructurados frente a datos estructurados

Los datos no estructurados pueden considerarse datos que no se gestionan de manera activa en un sistema transaccional; por ejemplo, datos que no residen en un sistema de gestión de bases de datos relacionales (RDBMS). Los datos estructurados se pueden considerar registros (o transacciones) en un entorno de base de datos; por ejemplo, filas en una tabla de una base de datos SQL.

No hay ninguna preferencia entre si los datos deben estar estructurados o no. Ambos tipos tienen herramientas que permiten a los usuarios acceder a la información. En la actualidad, son mucho más frecuentes los datos no estructurados frente a los datos estructurados.

Algunos ejemplos de datos no estructurados son:

Medios enriquecidos. Datos de medios y entretenimiento, datos de vigilancia, datos geoespaciales, audio, datos meteorológicos.
Recopilaciones de documentos. Facturas, registros, correos electrónicos, aplicaciones de productividad.
Internet de las cosas (IoT). Datos de sensores, datos de Ticker.
Análisis. Aprendizaje automático, inteligencia artificial (IA).

Hasta la llegada del almacenamiento basado en objetos, la mayoría, si no todos estos datos no estructurados, se almacenaban en sistemas basados en archivos.

¿Qué retos tiene trabajar con datos no estructurados?

El planteamiento que hay que hacer para afrontar los retos de los datos no estructurados es preguntar lo siguiente: ¿a qué se enfrentan las empresas con los enfoques tradicionales a la hora de gestionar los datos no estructurados?

Escala

En muchas empresas es habitual enfrentarse a conjuntos de datos no estructurados a escala de decenas o cientos de miles de millones de elementos. Estos elementos, objetos o archivos pueden ser cualquier cosa, desde unos pocos bytes (por ejemplo, una lectura de temperatura de un instrumento de la línea de producción) hasta terabytes de tamaño (por ejemplo, una imagen en movimiento de resolución 8K completa). La gestión de esta escala con métodos de archivos tradicionales es una tarea entre difícil e imposible, ya que se necesitan cada vez más recursos para mantener un «equilibrio» de servidores, sistemas de archivos, cabinas, etc.

Colaboración

Cada vez más, estos conjuntos de datos no estructurados masivos aportan valor a medida que se comparten (por ejemplo, investigadores de varios hospitales que comparten un banco masivo común de secuencias de genomas). Con los enfoques tradicionales, para compartir conjuntos masivos de datos no estructurados en diferentes zonas geográficas, entidades corporativas, etc. se requiere una replicación y un control extremadamente costosos.

Almacenamiento de objetos o cómo gestionar datos no estructurados a escala extrema

Descargar

Cómo superar estos retos con el almacenamiento de objetos

Las soluciones de almacenamiento de objetos actuales cumplen los retos de escala y colaboración al ofrecer un espacio de nombres activo con distribución geográfica. Este espacio de nombres permite a un usuario situado en cualquier ubicación recuperar un objeto o un archivo desde cualquier lugar con un sencillo comando GET (sin tener que especificar un centro de datos, un servidor, un sistema de archivos o un director). Del mismo modo, los comandos PUT permiten la ingesta de datos para que todas las ubicaciones puedan tener acceso a ellos fácilmente.

Gracias a la simplicidad y escalabilidad de un único espacio de nombres global combinado con un sencillo protocolo de gestión de datos sin estado (por ejemplo, Amazon S3 y Swift), las organizaciones pueden proporcionar un entorno escalable y de colaboración en distintos puntos geográficos, organizaciones y aplicaciones.

NetApp y almacenamiento de objetos

Es posible almacenar y gestionar datos no estructurados a escala con la tecnología StorageGRID^® de NetApp^® para un almacenamiento de objetos seguro y duradero de nubes privadas y públicas. Con StorageGRID, puedes crear un único espacio de nombres masivo (de múltiples ubicaciones) y puedes integrar una política única de ciclo de vida de la información en esos datos. Con el motor de políticas integrado de StorageGRID, puedes tener la seguridad de que tus datos están disponibles:

En la ubicación geográfica correcta
En el nivel adecuado de rendimiento
En el nivel correcto de durabilidad y protección
En el momento justo y cambiando a lo largo del tiempo automáticamente a medida que evolucionan las necesidades de tu empresa