NetApp Tech OnTap Logotipo de NetApp
NetApp Tech OnTap
     
StorageGRID Webscale: Almacenamiento de objetos sin interrupciones para la empresa y el cloud
Ingo Fuchs
Director sénior, Soluciones cloud

Cuando hablamos de almacenamiento de datos, hay muchas cosas en las que pensar además del rendimiento, como:

  • Simples números. ¿Con qué efectividad gestiona los datos a medida que el número de archivos en el almacenamiento pasa de millones a miles de millones?
  • Ubicación. ¿Cómo se asegura de que los datos se encuentran en las ubicaciones correctas a la vez que garantiza que los datos confidenciales no se almacenan donde no se debe?
  • Durabilidad. ¿Cómo se asegura de que los datos que almacena durante años siguen siendo legibles si no se accede apenas o nunca a ellos?
  • Cumplimiento de normativas. ¿Cómo se asegura de que cumple tanto los requisitos de gobierno corporativos como los normativos?
  • Retención. ¿Cómo retiene datos durante períodos que pueden equivaler a varias generaciones de hardware de almacenamiento?
  • Coste. Por último, ¿cómo se asegura de que los datos se almacenan en los soportes más rentables a lo largo de todo su ciclo de vida?

Hasta ahora ha sido complicado diseñar una solución efectiva para estos problemas, que debía solucionar usted mismo. Sin embargo, esto es exactamente lo que ha logrado NetApp con StorageGRID® Webscale.

StorageGRID Webscale es un almacenamiento de objetos definido por software y masivamente escalable que se ha diseñado específicamente para grandes archivos, repositorios de medios y almacenes de datos web.

En este artículo presentaré algunos de los conceptos que hay tras el almacenamiento de objetos, comentaré las características y funcionalidades de StorageGRID Webscale y hablaré sobre algunos casos de uso.

Almacenamiento de objetos: ¿por qué y por qué ahora?

El almacenamiento de objetos es un poco diferente del conocido almacenamiento de bloques y archivos. Este tipo de almacenamiento organiza los datos en contenedores de datos de tamaño flexible denominados objetos. Los objetos se almacenan en un espacio de nombres plano que puede extenderse por varias ubicaciones. Todos los objetos tienen tanto datos (una secuencia de bytes sin interpretar) como metadatos (un ID único con un conjunto ampliable de atributos que describen el objeto). Una forma sencilla de verlo es comparar el almacenamiento de objetos con un servicio de aparcacoches, en el que usted da al encargado su tique y este le trae su coche sin que usted tenga por qué saber dónde estaba este aparcado.

Figura 1) El almacenamiento de objetos ofrece contenedores flexibles y metadatos ampliables, y permite gestionar con eficiencia miles de millones de archivos.

La ventaja de este método es que se puede utilizar cualquier atributo para consultar o hacer referencia a los datos. Al contrario de lo que sucede con los tiques de aparcamiento asistido, que pueden ser muy fáciles de perder, con este método puede haber varias formas de encontrar el «tique» correcto y, además, puede hacer que el uso de tiques sea tan complejo (seguro) o sencillo como desee. Las etiquetas de identificación permiten indizar archivos en grandísimas cantidades, superiores a un sistema de archivos, por lo que el almacenamiento de objetos es perfecto para el almacenamiento empresarial que se distribuye por áreas amplias y comprende miles de millones de archivos.

Hay tres tendencias que contribuyen a aumentar el interés por el almacenamiento de objetos:

  • El crecimiento continuado de la cantidad de datos no estructurados requiere un nuevo enfoque para almacenar y proteger los datos. La gestión de datos preparada para objetos facilita la ubicación inteligente de los datos para responder a una amplia gama de requisitos de rendimiento, durabilidad, disponibilidad, ubicación y longevidad.
  • Las empresas tienen que lidiar cada vez más con la creación y el consumo de datos descentralizados. El modelo de «centro de datos principal con centro de datos de recuperación ante desastres» está siendo sustituido por un enfoque multisitio en el que se aproximan los usuarios, las cargas de trabajo y los datos.
  • El cloud híbrido proporciona nuevas opciones para equilibrar costes y rendimiento, y los equipos de tecnología estudian cómo pueden aprovechar mejor tanto el almacenamiento interno como el basado en cloud.

Presentación de StorageGRID Webscale

StorageGRID Webscale es una plataforma de almacenamiento para empresas que ofrece ventajas importantes con respecto a otros métodos de almacenamiento de objetos. Su arquitectura definida por software única admite miles de millones de objetos y decenas de petabytes de almacenamiento que se extienden por múltiples ubicaciones en un espacio de nombres único.

Creado para admitir el cloud híbrido, StorageGRID Webscale proporciona disponibilidad de datos ininterrumpida y compatibilidad nativa contrastada para aplicaciones cloud con API S3 y CDMI. Un motor de políticas dinámicas le permite optimizar la disponibilidad, el rendimiento y los costes de cada objeto de datos almacenado, lo que proporciona mucha más granularidad.

StorageGRID Webscale se beneficia de la experiencia y las capacidades adquiridas con los más de diez años de puestas en marcha de sistemas de almacenamiento de objetos en producción con nuestro producto StorageGRID original. Por ello, NetApp puede ofrecer:

  • El marco de trabajo de políticas más avanzado del sector para la gestión del ciclo de vida de los datos
  • Auténtica ubicación de objetos distribuida y selectiva geográficamente
  • Un nivel sin igual de durabilidad de datos
  • Cinta como nivel activo (con disponibilidad para recuperar objetos individuales de la cinta)

Tabla 1) Características de StorageGRID Webscale.

StorageGRID Webscale: Características clave
100 000 millones de objetos por espacio de nombres Protección de datos integrada
70 PB por espacio de nombres Objetos de hasta 5 TB de tamaño
Hasta 16 ubicaciones de centros de datos Auditoría y generación de informes completas (compatibles con Splunk)
Actualizaciones no disruptivas E-Series para densidad, rendimiento y disponibilidad
Ubicación y nivel de almacenamiento elegidos por políticas Escalabilidad horizontal
Verificación de integridad y reparación automática Conservación a largo plazo
API S3 y CDMI RESTful nativas 

Motor de políticas dinámicas

El nivel de granularidad y flexibilidad que ofrece StorageGRID Webscale no tiene igual en el sector. Otras soluciones gestionan datos basándose en contenedores, lo que limita sus opciones. StorageGRID Webscale tiene un motor de políticas dinámicas que le permite establecer políticas según diferentes criterios, como:

  • Disponibilidad y latencia de recursos
  • Requisitos de retención de datos
  • Requisitos de ubicación geográfica
  • Coste de red (parte del coste del enlace de red)

Puede evaluar objetos utilizando criterios como metadatos personalizados de usuario y de aplicaciones, el método de procesamiento, el tamaño o la fecha y hora del último acceso, así como aplicar políticas que definan:

  • Dónde se ubica geográficamente un objeto.
  • El tipo de almacenamiento usado para almacenar un objeto (SSD, HDD o cinta).
  • El número de copias realizadas de un objeto.
  • La política de retención, incluidos los cambios de ubicación a medida que pasa el tiempo, el grado de almacenamiento, el número de copias y la eliminación (si procede).

Los metadatos de un objeto incluyen las ubicaciones donde este se almacena y el número de copias. Los metadatos pueden incluir campos personalizados y es posible añadir campos nuevos a medida que cambian las necesidades. Los metadatos se distribuyen por el entorno de StorageGRID Webscale, de modo que aumenta la escalabilidad y la resiliencia y se proporciona una recuperación más rápida.

Figura 2) Ventajas del motor de políticas y los metadatos ampliables de StorageGRID Webscale.

Verificación del cumplimiento de políticas. El motor de políticas de StorageGRID Webscale es único porque no solo ejecuta políticas sobre un objeto cuando este se procesa, sino que periódicamente verifica el cumplimiento de normativas y toma acciones correctivas. Por ejemplo, una política puede imponer que se mantengan siempre tres copias de un tipo de objeto determinado. Si un fallo afecta a una copia de un objeto que está sujeto a esta política, se crea una copia nueva automáticamente para garantizar que el objeto sigue cumpliendo las normativas.

Aplicación de políticas retroactivamente. Los cambios en las políticas pueden aplicarse incluso de forma retroactiva. Por ejemplo, suponga que hay configurada una política para que los datos se almacenen con una copia en EE. UU., otra en Alemania y otra en Japón pero, posteriormente, cambia la legislación y ya no puede continuar almacenando ese tipo de datos en Japón. Solo tiene que cambiar la política y StorageGRID Webscale moverá automáticamente los datos según sea necesario para garantizar el cumplimiento de la normativa. Esto convierte lo que de otro modo sería una tarea de gestión de datos monumental en una cuestión de unos pocos clics.

Disponibilidad y durabilidad de los datos

StorageGRID Webscale tiene una arquitectura tolerante a fallos que admite operaciones no disruptivas, mejoras y actualizaciones de la infraestructura. Está diseñado para responder a la pérdida de nodos individuales y sitios enteros con el fin de proporcionar acceso continuo a los datos. El equilibrio de carga distribuye automáticamente las cargas de trabajo durante las operaciones normales y cuando se produce un fallo para lograr el mejor rendimiento posible en todas las condiciones. AutoSupport de NetApp envía notificaciones automáticamente a sus administradores y a NetApp cuando se produce un problema.

Registros dobles y múltiples copias. Durante la ingestión, los objetos se protegen inmediatamente con el registro doble (dos copias locales), y todos ellos se replican en varias ubicaciones. Todas las copias de los objetos son activas y se pueden utilizar para responder a solicitudes de recuperación.

Integridad de los datos. Para proteger los datos se usan múltiples capas interconectadas de protección de la integridad con autenticación, valores hash y sumas de comprobación. Se crea una firma digital para cada objeto cuando este se procesa, y esta se verifica durante la recuperación, la replicación, la migración e incluso mientras el objeto permanece inactivo. Los objetos sospechosos se reubican automáticamente. Si intenta recuperar un objeto que no supera una prueba, este se recupera automáticamente recurriendo a una ubicación diferente y se crea una copia nueva que es transparente para el usuario y el administrador.

Comprobaciones del estado periódicas. StorageGRID Webscale realiza «comprobaciones del estado» a intervalos regulares (definidos en la política) sobre los datos a los que de otro modo no se accedería para garantizar su integridad. Esto significa que puede almacenar datos durante períodos de tiempo prolongados y estar seguro de que seguirán siendo legibles si alguna vez los necesita.

Compatibilidad con API de objetos S3 RESTful

La API de objetos S3 RESTful que se emplea en Amazon Web Services se ha convertido en un auténtico estándar en el almacenamiento de objetos. Dado que proporciona compatibilidad con las API S3, StorageGRID Webscale puede admitir inmediatamente aplicaciones creadas para S3. Puede mover aplicaciones escritas para proveedores de cloud público al entorno local y desarrollar aplicaciones que puedan ejecutarse en clouds tanto privados como públicos.

StorageGRID Webscale es compatible con contenido S3 como AccountID, Bucket, prefijo clave y metadatos S3, y también puede proporcionar registro de auditorías, supervisión y generación de informes.

Arquitectura y puesta en marcha de StorageGRID Webscale

La arquitectura sencilla y lógica de StorageGRID Webscale permite desarrollar una arquitectura física que se puede escalar horizontal y verticalmente. La arquitectura lógica se muestra en la Figura 3. Los objetos se almacenan y recuperan usando API RESTful. Como se ha mencionado anteriormente, gran parte del potencial de esta arquitectura proviene de la ubicación de datos condicionada por políticas y un almacenamiento de objetos distribuido y transparente en cuanto a ubicaciones.

Figura 3) StorageGRID Webscale tiene una arquitectura sencilla y lógica que puede suplir la gestión de datos a nivel de objeto en una serie de productos de hardware de almacenamiento.

La arquitectura física utiliza cuatro tipos de nodos:

  • Los nodos de administración, que proporcionan servicios de gestión como configuración, supervisión, auditoría y registro.
  • Los nodos de almacenamiento, que gestionan el almacenamiento de objetos, incluida la replicación.
  • Los nodos de puerta de enlace de API (opcionales), que proporcionan una interfaz de equilibrio de carga mediante la cual las aplicaciones se conectan a StorageGRID Webscale usando API estándares.
  • Los nodos de archivado (opcionales), que proporcionan una interfaz hacia los medios de archivado, como la cinta.

Para respaldar el escalado masivo puede escalar horizontalmente varios nodos de cada tipo (en cada centro de datos). Los nodos de StorageGRID Webscale se ejecutan como máquinas virtuales VMware frente al almacenamiento de bloques, ya sea en forma de almacenamiento E-Series de NetApp o como cabinas de terceros. Cada máquina virtual utiliza 8 vCPU y 24 GB de RAM. Opcionalmente se pueden utilizar SSD y 10 GbE para mejorar el rendimiento de las máquinas virtuales.

Figura 4) La arquitectura física de StorageGRID Webscale utiliza cuatro tipos de nodos. Los nodos que sirven a una única puesta en marcha se pueden distribuir en hasta 16 centros de datos.

Ejecutar StorageGRID Webscale en E-Series

StorageGRID Webscale es un producto definido por software que se ejecuta en la infraestructura virtual de VMware en combinación con el almacenamiento de bloques. Creemos que puede lograr los mejores resultados poniendo en marcha StorageGRID Webscale en sistemas de almacenamiento empresarial contrastados como E-Series de NetApp. Si adquiere su infraestructura a través de un establecimiento de bajo coste local, este será el proveedor del que dependerá para recibir soporte cuando algo falle en mitad de la noche. El almacenamiento E-Series no solo es altamente resiliente (ya se han puesto en marcha más de 750 000 sistemas), sino que cuenta con el respaldo de servicios de soporte para empresas.

E-Series ofrece el rendimiento y la resiliencia necesarios para los casos de uso de StorageGRID Webscale con características como pools de discos dinámicos (DDP), que ofrecen codificación de borrado a nivel de nodo. DDP distribuye datos, información de paridad y capacidad de reserva de manera uniforme en todo el pool de discos, lo que simplifica la configuración, elimina zonas problemáticas y maximiza la utilización de la capacidad. El espacio libre se distribuye entre todos los discos, de modo que no hay piezas de recambio inactivas y puede disfrutar de todo el rendimiento de todos los discos del sistema. Además, la tecnología DDP minimiza el impacto en el rendimiento que tendría un fallo en una unidad y puede hacer que el sistema recupere su estado óptimo hasta ocho veces más rápido que la tecnología RAID tradicional.

Modo de uso

NetApp cree que StorageGRID Webscale es extremadamente idóneo para repositorios de datos web, archivos de datos y repositorios de medios. Cada uno de estos casos de uso tiene su propio conjunto específico de requisitos, pero StorageGRID Webscale puede adaptarse para responder a la amplia variedad de necesidades que comprende este conjunto de casos de uso.

Repositorios de datos web

Las características típicas de los repositorios de datos web son los tamaños de objeto reducidos, un alto número de objetos y una alta tasa de transacciones. Dado que es capaz de gestionar 100 000 millones de objetos en un único repositorio distribuido en varias ubicaciones y es compatible con las API S3 y CDMI, StorageGRID Webscale es idóneo para este caso de uso.

Archivos de datos

Cada vez más, las empresas deben almacenar cantidades masivas de datos durante períodos prolongados para responder a los requisitos de gobierno corporativos y legales. Cuando nos encontramos con archivos de datos de este tipo, los costes y la gestión suelen ser las preocupaciones más importantes. Es una práctica común tolerar una larga latencia de acceso a cambio de un coste reducido. StorageGRID Webscale responde a este caso de uso con integración de cinta, durabilidad de datos contrastada y gestión flexible basada en políticas.

Repositorios de medios

Las características típicas de los repositorios de medios son los tamaños de objeto muy grandes (más de 250 MB), la necesidad de distribución geográfica, la necesidad de integridad de los datos y la baja latencia de tiempo hasta el primer byte. El diseño duradero distribuido geográficamente de StorageGRID Webscale responde a estos requisitos. También admite «lecturas en rango»; así, por ejemplo, un vídeo se puede transmitir desde cualquier lugar sin que sea necesario descargar el objeto completo.

Conclusión

Dado que StorageGRID Webscale se ha creado a partir de una firme base derivada de nuestra solución StorageGRID original, es un producto maduro preparado para responder a sus necesidades de almacenamiento de objetos. Ofrece funcionalidades que no encontrará en otras soluciones de objetos, como la ubicación de objetos distribuida y selectiva geográficamente, la durabilidad de datos contrastada con comprobaciones del estado periódicas y el cumplimiento de políticas retroactivo.

En resumen, las funcionalidades de StorageGRID Webscale pueden simplificar considerablemente la gestión de datos web, archivos y repositorios de medios, y permiten planificar el almacenamiento de objetos para décadas de uso en producción de manera ininterrumpida. Todo ello de la mano de una compañía contrastada que ofrece soporte de nivel empresarial.

El mundo está cada vez más dominado por el cloud. NetApp apuesta fuerte por el almacenamiento de objetos y se está posicionando para asumir un papel dominante en el sector y traer muchas más novedades. No se pierda Tech OnTap para informarse de las futuras puestas en marcha.

Ingo Fuchs, Director sénior, Soluciones cloud

Ingo es el responsable del almacenamiento de objetos, colaboración en cloud y movilidad en NetApp. Se encarga, por ejemplo, de cómo permitir a los clientes escalar repositorios de contenido en exabytes de espacio y cómo acceder con seguridad a datos corporativos desde dispositivos móviles. Ingo cuenta con 20 años de experiencia en el sector del almacenamiento. También ha trabajado en empresas como IBM y EDS (ahora HP). Ha dirigido diversos proyectos, desde infraestructuras de servidores, alta disponibilidad y redes de área de almacenamiento (SAN), hasta almacenamiento conectado a la red (NAS) para backup y archivado. Además, ha escrito varios artículos publicados sobre diferentes temas relacionados con el almacenamiento.

Tech OnTap
Suscríbase ahora
Tech OnTap ofrece reportajes mensuales, acceso exclusivo a mejores prácticas, sugerencias y herramientas reales, entrevistas técnicas exclusivas, demostraciones, evaluaciones de expertos y mucho más.

Visite Tech OnTap en la comunidad de NetApp y suscríbase hoy mismo.

Noviembre de 2014

En profundidad
En profundidad
En profundidad
 
TRUSTe
Póngase en contacto con nosotros   |   Cómo comprar   |   Comentarios   |   Empleo  |   Suscripciones   |   Política de privacidad   |   © 2014 NetApp