Datos no estructurados frente a Datos estructurados
Los datos no estructurados se pueden pensar como datos que no se gestionan de forma activa en un sistema transaccional; por ejemplo, los datos que no viven en un sistema de gestión de bases de datos relacionales (RDBMS). Los datos estructurados se pueden pensar como registros (o transacciones) en un entorno de base de datos; por ejemplo, las filas de una tabla de una base de datos SQL.
No hay preferencia en cuanto a si los datos están estructurados o no estructurados. Ambos disponen de herramientas que permiten a los usuarios acceder a la información. Los datos no estructurados sólo tienen una mayor abundancia que los datos estructurados.
Algunos ejemplos de datos no estructurados son:
Hasta la llegada del almacenamiento basado en objetos, la mayoría, si no todos, de estos datos no estructurados se almacenaban en sistemas basados en archivos.
¿Qué retos presenta el trabajo con datos no estructurados?
La forma de pensar en cómo hacer frente a los retos de los datos no estructurados es preguntarse: ¿cómo hacen frente las empresas con enfoques tradicionales para gestionar los datos no estructurados?
Escalado
Es común en muchas empresas encontrar conjuntos de datos no estructurados a la escala de decenas o cientos de miles de millones de elementos. Estos elementos, objetos o archivos pueden tener un tamaño de unos pocos bytes (por ejemplo, una lectura de temperatura desde un instrumento de línea de producción) a terabytes (por ejemplo, una imagen de movimiento de resolución de 8 K de longitud completa). La gestión de esta escala con los enfoques de archivos tradicionales pasa rápidamente de difícil a imposible, ya que se requieren más y más recursos para mantener un "equilibrio" de servidores, sistemas de archivos, cabinas, etc.
Colaboración
Cada vez más, estos conjuntos de datos masivos no estructurados proporcionan valor a medida que se comparten (por ejemplo, investigadores de varios hospitales que comparten un banco masivo común de secuencias genómicas). Con los enfoques tradicionales, la capacidad de compartir conjuntos masivos de datos no estructurados entre geografías, entidades corporativas, etc., ha requerido una replicación y una gobernanza extremadamente caras.
Superar estos retos mediante el almacenamiento de objetos
Hoy en día Las soluciones de almacenamiento de objetos satisfacen los retos de la escala y la colaboración al proporcionar un espacio de nombres activo distribuido geográficamente. Este espacio de nombres permite a un usuario en cualquier ubicación recuperar un objeto o un archivo desde cualquier ubicación con un comando GET simple (sin tener que especificar un centro de datos, un servidor, un sistema de archivos o un director). De forma similar, los comandos PUT permiten la ingesta de datos para que todas las ubicaciones puedan tener acceso fácilmente.
La simplicidad y escalabilidad de un único espacio de nombres global combinado con un simple protocolo de gestión de datos sin estado (por ejemplo, Amazon S3 y Swift) ayudan a las organizaciones a ofrecer un entorno escalable y colaborativo a través de los límites geográficos, organizativos y de aplicaciones.
NetApp y almacenamiento de objetos
Puede almacenar y gestionar datos no estructurados a escala mediante la tecnología StorageGRID ® de NetApp ® para un almacenamiento de objetos seguro y duradero para clouds privados y públicos. Con StorageGRID, puede crear un espacio de nombres único masivo (multiubicación) y también puede integrar una política de ciclo de vida de la información única en esos datos. Con el motor de políticas integrado StorageGRID, puede estar seguro de que sus datos están disponibles:
- En la ubicación geográfica correcta
- En el nivel correcto de rendimiento
- Al nivel adecuado de durabilidad y protección
- En el momento adecuado y cambiando con el tiempo automáticamente a medida que evolucionan las necesidades del negocio