NetApp Tech OnTap
     

Cómo blindar su plan de recuperación ante desastres

Según el Departamento de Seguridad del Territorio Nacional de los Estados Unidos, sólo una de cada cuatro empresas estadounidenses dispone de un plan de recuperación ante desastres, de las cuales sólo el 30% realizan pruebas de sus planes. Lo más alarmante es que es probable que la mayoría de esas empresas carezcan de protección y que, los que pensamos que tenemos un plan de protección adecuado, deberíamos volver a plantearnos algunas cuestiones.

En Datalink hemos estado ayudando a empresas a resolver sus retos relacionados con almacenamiento complejo de la información, la gestión y la protección durante más de 20 años. Hemos obtenido una amplia experiencia en la protección de datos y hemos desarrollado prácticas recomendadas que se han incluido en nuestras prácticas sobre continuidad de datos y recuperación de datos mejorada.

En torno al 75% de los nuevos clientes de Datalink se ponen en contacto con nosotros sin disponer de un plan viable de recuperación ante desastres. Un plan de recuperación ante desastres es una ampliación natural de los procedimientos de backup y recuperación, y debe formar parte de un detallado plan de protección de datos que incluya backup/recuperación, continuidad de negocio y recuperación ante desastres. Este artículo contiene algunas de las reglas generales que utilizamos para ayudar a los clientes con este tipo de planificación. En concreto, se describe:

  • Cómo saber si su plan de recuperación ante desastres es lo suficientemente sólido.
  • Las tecnologías que ayudan a simplificar la planificación de recuperación ante desastres.
  • El valor de la protección de datos integrada.

¿Es su plan lo suficientemente sólido?

Con la velocidad a la que cambian las prácticas de negocios y aumenta el almacenamiento de datos en muchas compañías, un plan de recuperación ante desastres que fuera adecuado cuando se creó, puede que haya dejado de serlo. En Datalink, solemos observar grandes lagunas entre los requisitos de negocio y la infraestructura de TI. Estas lagunas pueden ser tecnológicas, de proceso y, últimamente, relacionadas con los empleados. De acuerdo con el estado actual de la economía, las empresas emplean a los trabajadores al máximo, lo que origina lagunas que pueden repercutir en la disposición de la recuperación ante desastres.

Por ejemplo, hace poco trabajamos con una empresa de fabricación de mediano tamaño para mejorar su proceso de recuperación ante desastres. Hace unos años, la empresa realizó un análisis de repercusión comercial y llegó a la conclusión de que contaba con 40 aplicaciones necesarias para desempeñar sus actividades. No obstante, nuestro análisis demostró que, en realidad, necesitaban en torno a 70 aplicaciones. Lo cierto es que puede que parte de la diferencia se haya debido a cambios que se produjeron desde la evaluación inicial, mientras que es probable que otros elementos se pasaran por alto en el análisis.

Utilice un método orientado al proceso para identificar las aplicaciones esenciales
Utilizamos un método orientado al proceso que nos ayuda a determinar las aplicaciones que son esenciales para una empresa. Una empresa de fabricación tiene que cumplir básicamente cuatro elementos para desempeñar sus funciones:

  • Pedir y recibir materias primas
  • Pagar las materias primas
  • Elaborar y enviar el producto
  • Cobrar los productos enviados

Para el ejemplo anterior, identificamos las 70 aplicaciones asignando cada aplicación desde el punto de vista del proceso y preguntando si esa aplicación era necesaria para desarrollar una o varias funciones de las enumeradas anteriormente. Usted mismo puede realizar un análisis parecido en su empresa.

Recordar las aplicaciones de la infraestructura
No pase por alto las aplicaciones esenciales de la infraestructura. Existe cierto número de aplicaciones de “nivel 0” que tienen que estar en ejecución (por ejemplo, Active Directory, DNS, sistemas telefónicos, redes, etc.). Si DNS no está ejecutado, lo más probable es que esa aplicación comercial tampoco se esté ejecutada.

Establecer objetivos de recuperación para cada aplicación
Una vez conseguida la lista de aplicaciones, tiene que establecer unos objetivos para cada una de ellas. Por lo general, deberá tener en cuenta cuatro medidas clave:

  • Disponibilidad. Se trata del tiempo durante el que una aplicación o conjunto de datos está disponible para su utilización. Suele medirse con porcentajes. Por ejemplo, un 99% de tiempo de actividad se corresponde a menos de 88 horas de tiempo de inactividad anual, mientras que un 99,999% de tiempo de actividad se corresponde a poco más de 5 minutos al año.
  • Objetivo de tiempo de recuperación. Este objetivo define la cantidad de tiempo que debería tardar en recuperarse en caso de producirse un fallo. Un objetivo de tiempo de recuperación de 20 minutos significa que una aplicación o conjunto de datos volverá a estar online 20 minutos después de que se produzca un fallo. Tenga en cuenta que un objetivo de tiempo de recuperación largo no es consecuente con un objetivo de disponibilidad muy elevado.
  • Objetivo de punto de recuperación. En la mayoría de los casos, no es económicamente viable eliminar todas las posibilidades de pérdida de datos en caso de producirse un fallo. El objetivo de punto de recuperación define la cantidad máxima de datos que está dispuesto a perder. Por ejemplo, un objetivo de punto de recuperación de una hora significa que podrá restaurar una aplicación o un conjunto de datos en un punto no posterior a una hora antes del momento en que se haya producido el fallo. (Tenga en cuenta que, para la mayoría de las aplicaciones, ese objetivo supondría realizar backups cada hora.) El objetivo de punto de recuperación no afecta directamente a la disponibilidad o al objetivo de tiempo de recuperación, salvo en los casos en los que un objetivo muy elevado (corto) alarga el tiempo necesario para llevar a cabo el proceso de recuperación.
  • Conservación de datos. Las medidas de conservación de datos definen el tiempo que debe conservarse un determinado conjunto de datos para satisfacer las necesidades de backup o los requisitos de cumplimiento. Puede disponer de medidas de conservación de datos para copias de datos online o sin conexión (en cinta). Por ejemplo, puede mantener un backup concreto online durante un mes y, a continuación, conservarlo en cinta durante un año.

En lugar de tener distintos objetivos para cada aplicación, lo más probable es que desee establecer unos cuantos “niveles” de servicio y ordenar sus aplicaciones según esos niveles. También tendrá que asignar las dependencias entre aplicaciones y establecer el orden en que se iniciarán. Las dependencias que parecen obvias en condiciones normales (como empezar la base de datos antes de la aplicación de base de datos) se suelen pasar por alto en una crisis, e incluso estos pequeños detalles pueden costar mucho de su valioso tiempo.

Coordine las actividades
Para garantizar el éxito en la planificación de recuperación ante desastres, tendrá que realizar un esfuerzo coordinado entre todos los departamentos que abarque a todas las líneas de negocio. Desgraciadamente, aún nadie ha sido capaz de concebir una herramienta de software capaz de realizar un trabajo preliminar que sea cuidadoso y reflexivo. Si TI no está en contacto con la parte comercial de la empresa, los resultados se verán afectados.

Aproveche la tecnología para optimizar la infraestructura

Un buen número de herramientas y tecnologías le pueden ayudar mientras analiza su entorno y diseña una infraestructura viable para la recuperación ante desastres.

Utilice herramientas para la identificación
Una gran variedad de herramientas de software le pueden ayudar a comprender el uso de aplicaciones, de almacenamiento y de red, así como las tendencias. Una aplicación sensata de estas herramientas puede ayudarle no sólo a analizar su entorno de antemano sino también a poner a punto su diseño para permitir que las capacidades y las bandas anchas sean adecuadas.

En Datalink solemos utilizar NetApp SANscreen® para la identificación de almacenamiento. Entre otras funciones, SANscreen asigna rutas de servicio entre las aplicaciones que se ejecutan en los servidores y los datos almacenados en los sistemas de almacenamiento. SANscreen no requiere la instalación de ningún agente, por lo que puede activarse y obtener resultados rápidamente. También utilizamos Riverbed Cascade y herramientas parecidas para observar la utilización de la red, el rendimiento y el comportamiento.

Comprender sus actividades en una escala cuantitativa le ayudará a determinar los tipos de soluciones de recuperación ante desastres necesarias, o las soluciones de recuperación ante desastres que se pueden admitir.

Deduplique o comprima
El coste de suministrar una red lo suficientemente grande como para gestionar el tráfico de replicación puede ser prohibitivo. La utilización de la deduplicación de almacenamiento primaria con o sin compresión LAN puede reducir significativamente sus requisitos de banda ancha, llegando incluso a reducir el tamaño de red necesario. Por ejemplo, aplicar la deduplicación NetApp a su entorno de servidor virtual puede ahorrarle hasta un 90%. Obviamente, eso se traduce en enormes ahorros en el ancho de banda durante la replicación de SnapMirror®. En general, aplicar la deduplicación a sus volúmenes de almacenamiento puede conllevar un ahorro de entre el 25% y el 90%, en función del tipo de datos.

Consolide y virtualice
Si aún no lo ha hecho, consolidar y virtualizar los servidores, las redes y el almacenamiento puede tener una importante influencia en su capacidad para llevar a cabo la recuperación ante desastres. La eliminación de la complejidad no sólo reduce los costes operativos de su centro de datos, sino que facilita el conocimiento de los elementos de que dispone y su ubicación, lo cual es fundamental para sus estrategias de protección de datos y recuperación ante desastres.

Las tecnologías de virtualización de servidor más recientes también pueden ofrecer funciones integradas que simplifican el reinicio de aplicaciones y máquinas virtuales en una instalación secundaria. (Un artículo reciente de Tech OnTap trataba del uso de VMware® Site Recovery Manager y del almacenamiento NetApp.)

Otra tendencia que está en aumento es consolidar sus redes en una única estructura Ethernet. Una vez más, se reducen costes, se facilita la gestión de red y se puede facilitar el cumplimiento de las necesidades de ancho de banda para la recuperación ante desastres. La llegada de Fibre Channel sobre Ethernet (FCoE) posibilita alojar el almacenamiento FC existente dentro de una estructura de red unificada.

En la siguiente sección se explican algunas de las ventajas del almacenamiento virtualizado.

La protección de datos integrada puede hacerle la vida más fácil

Desde el punto de vista de alguien que se dedica a diseñar implementaciones de recuperación ante desastres, la posibilidad de disponer de todas sus funciones de protección de datos y recuperación ante desastres integradas en el almacenamiento subyacente puede ser un elemento de diseño vital. En lugar de contar con diferentes soluciones para cada conjunto de datos, la protección de datos integrada permite aplicar los mismos métodos coherentes a todos los datos.

El sistema de almacenamiento NetApp integra una amplia variedad de funciones de protección de datos, entre las que se encuentran Snapshot™ (la tecnología capaz de ahorrar espacio), SnapVault® para realizar backup a disco, SnapMirror para la recuperación ante desastres y MetroCluster, que ofrece una disponibilidad continua de datos. (Estas tecnologías se describen de manera pormenorizada en dos artículos adjuntos a este número: uno dedicado especialmente a la protección de datos integrada y otro, un caso práctico, a MetroCluster.)

Como se ha mencionado anteriormente, casi siempre tiene sentido definir varios niveles de servicio con diferente protección de datos, así como funcionalidades de recuperación ante desastres para cada nivel. Debido al amplio abanico de posibilidades que ofrece NetApp, diseñamos en soluciones NetApp siempre que es posible cumplir estos requisitos.

Si ya ha realizado una gran inversión en otros sistemas de almacenamiento que no dispongan de las características de protección de datos integradas de NetApp, V-Series de NetApp le permite continuar utilizando dicho almacenamiento al tiempo que le ofrece las ventajas de las funciones de NetApp. Datalink ha obtenido buenos resultados gracias al uso de V-Series en varios trabajos recientes. (V-series también se menciona en el caso práctico sobre MetroCluster de este número.)

Por último, la única forma de asegurarse de que el plan de recuperación ante desastres es adecuado es probarlo de forma periódica, cosa que la tecnología NetApp FlexClone® facilita en gran medida. Tal cantidad de almacenamiento adicional no será necesaria, y la actividad de producción del proceso tiene muchas menos interrupciones.

En una situación normal de realización de pruebas de la recuperación ante desastres, todos los datos para la prueba deben copiarse a otro conjunto de discos antes de comenzar. Esto quiere decir que necesita el doble de espacio de almacenamiento de manera inmediata y que tiene que realizar copias antes de empezar la comprobación, lo cual consume mucho tiempo.

Con FlexClone, puede efectuar clones editables que ahorran espacio de alguno o de todos sus volúmenes de recuperación ante desastres. Sólo se consumirá espacio adicional en tanto que se realicen cambios en el volumen clonado. Estos volúmenes FlexClone le permiten capturar una vista estática de sus datos de recuperación ante desastres en un momento concreto sin interrumpir las actualizaciones en marcha ni necesitar enormes cantidades de almacenamiento adicional.

El uso de FlexClone puede reducir el tiempo que tarda la comprobación de recuperación ante desastres desde 24 horas o más hasta tan sólo unas pocas horas, porque el proceso es rápido, fiable, eficaz y consume muchos menos recursos.

Por último, una instalación de recuperación ante desastres representa una importante inversión en recursos. Con FlexClone, puede aprovechar esos recursos para realizar otras tareas, como extracción de datos, desarrollo, garantía de calidad, etcétera, sin sufrir un impacto negativo en la disposición de la recuperación ante desastres.

Compruebe y actualice el plan de forma regular

Tal y como se explica en la sección anterior, una comprobación regular es esencial para estar preparado ante un desastre. Le recomiendo que compruebe su plan de recuperación ante desastres al menos una vez al año (con más frecuencia si la velocidad de los cambios en su negocio o el crecimiento del almacenamiento son muy altos). Si fuera posible, utilice herramientas automatizadas para realizar el seguimiento de las tendencias de la capacidad de almacenamiento, la banda ancha de red, etcétera.

Por último, debe planificar una revisión anual de las necesidades de su negocio y actualizar el plan y las capacidades de recuperación ante desastres adecuadamente. De esta forma su plan no sólo será viable, sino que continuará satisfaciendo las necesidades globales de su empresa frente al crecimiento y a los cambios.

Figura 1) Valor de los datos frente al nivel de protección necesario.

¿Por dónde se empieza?

Si necesita ayuda para empezar sus trabajos de planificación de recuperación ante desastres o actualizar su plan existente, hay una gran cantidad de recursos disponibles: no se trata de inventar nada. El gobierno de los Estados Unidos ofrece listas de control y otros recursos en su sitio web ready.gov, que se puede utilizar como punto de partida.

Si sigue sintiéndose intimidado, plantéese la posibilidad de conseguir ayuda externa. Lo más probable es que sus proveedores de material de servidor, red y almacenamiento dispongan de recursos adicionales que puedan ofrecer (de forma gratuita o pagando cierta cuota); empresas de servicios como Datalink también le pueden echar una mano. Gastar algo más de dinero puede proporcionar unos estupendos resultados a la hora de proteger su negocio y ofrecerle tranquilidad.

¿Qué opina sobre la planificación de recuperación ante desastres?

Formule preguntas, intercambie ideas y comparta sus opiniones en las comunidades online de NetApp.

Joshua Konkle

James Mason
Jefe de la ejecutiva nacional y arquitecto de almacenamiento
Director de continuidad de datos
Datalink

James ha pasado los últimos 5 años de sus 25 de carrera como especialista de TI en Datalink; durante los últimos 10 años como profesional, se ha centrado casi exclusivamente en la recuperación ante desastres. Entre sus últimos logros se encuentra el diseño de la mayor solución SAN de la historia de Datalink. IBM y Convex son algunas de las empresas en las que trabajó con anterioridad.

 
En profundidad