NetApp Tech OnTap NetApp Logo
NetApp Tech OnTap
     
Caso práctico: Thomson Reuters

Nuestra misión en Thomson Reuters, consiste en satisfacer las necesidades de información de las empresas y los profesionales de una amplia gama de sectores, por lo que la tecnología de la información es un aspecto de vital importancia en todo lo que hacemos. La base que dio lugar a nuestro método actual de TI se originó hace más de 10 años, cuando comenzamos a apreciar problemas de estabilidad en nuestro servicio de investigación jurídica en línea, Westlaw.

En aquel momento, antes de la caída de las «punto com», Westlaw era todavía una plataforma heredada basada en un entorno mainframe, que nos hizo perder ingenieros de software de gran talento que querían trabajar con tecnologías más nuevas. Decidimos crear una infraestructura nueva y abierta para Westlaw y quisimos hacerla de tal modo que la misma infraestructura pudiera servir para todas nuestras líneas de negocio orientadas a la información. Crear una infraestructura compartida usando elementos básicos estándar resultó ser todo un acierto en cuanto a previsión.

Esta sencilla directriz nos puso en ruta hacia una evolución continua del entorno tecnológico que perduraría a lo largo de los años y, más recientemente, contribuyó al satisfactorio lanzamiento de un novedoso servicio de investigación jurídica de próxima generación: WestlawNext. Gracias a nuestra infraestructura pudimos agregar soporte para WestlawNext evitando el gasto que suponía un nuevo centro de datos (aproximadamente 65 millones de dólares), usamos un 25% menos de energía y contamos con disponibilidad ininterrumpida todos los días del año. WestlawNext puede buscar 50 veces más datos (5.000 millones de documentos) que la generación anterior y devolver los resultados el doble de rápido.

En este artículo quiero resaltar algunos de los aspectos importantes de esta infraestructura, incluidos los elementos básicos, nuestra arquitectura de búsqueda principal y nuestro interfaz virtualizado. NetApp y sus servicios profesionales demostraron ser partners de gran valor en esta tarea, por lo que también intentaré darles el reconocimiento que se merecen.

Una infraestructura de TI compartida para operaciones de búsqueda

La clave del éxito de WestlawNext y todos los productos de Thomson Reuters es la capacidad de realizar búsquedas en cantidades masivas de datos con gran rapidez y una precisión absoluta. Si dos personas realizan la misma búsqueda en el mismo momento, obtendrán exactamente los mismos resultados.

Gracias a la mejora de nuestros métodos de búsqueda, los usuarios pueden introducir su consulta simplemente con sus propias palabras, es decir, no es necesario que sepan «elaborar» consultas formales. Como resultado, una consulta que hace dos o tres años generaba solo una búsqueda, ahora genera un mínimo de 40 en el entorno de administración. Además, se puede escalar para responder a esta carga, lo que es absolutamente asombroso. El resultado ha superado ampliamente nuestras expectativas iniciales. Una búsqueda normal tarda solo 2,5 segundos en devolver los datos al cliente.

Algunos de los aspectos clave de nuestra infraestructura son:

  • Los elementos básicos estándar
  • La arquitectura de búsqueda similar al cloud
  • El interfaz web virtualizado
  • La replicación para recuperación ante desastres

Elementos básicos estándar
Nuestra infraestructura se compone de elementos básicos estandarizados. Tenemos entre 25.000 y 30.000 servidores x86 en nuestros centros de datos, la mayoría con configuraciones de 2 o 4 CPU y con almacenamiento de NetApp®. Nuestra infraestructura de red está prácticamente basada por completo en Ethernet de 10 GB y utiliza la familia de switches Cisco 6500, Cisco Nexus 5000 y 7000. Usamos estos elementos básicos tanto en las configuraciones de entornos de administración como de interfaces.

Elementos básicos estándar
Más de 25.000 servidores
Almacenamiento de NetApp con Flash Cache
Cientos de clústeres RAC de Oracle
Infraestructura de búsqueda Novus sobre Linux y más de 30 aplicaciones de servidor
VMware para una virtualización completa
Ahorro de más de 65 millones de dólares en un nuevo centro de datos
Reducción del consumo energético en un 25%
Búsquedas 50 veces más rápidas (5.000 millones de documentos) en la mitad de tiempo

 

Figura 1) Objetivos conseguidos por WestlawNext y la transformación tecnológica de Thomson Reuters

Novus: una infraestructura para operaciones de búsqueda similar al modelo cloud
Nuestra arquitectura Novus, patentada en 2006 es el centro de todas las operaciones de búsqueda. Proporciona una única plataforma para dar soporte a los servicios en línea de los cuatro segmentos comerciales de Thomson, incluidos WestlawNext y Checkpoint® y nuestro sistema de investigación fiscal y contable. En total, más de 30 aplicaciones utilizan la arquitectura Novus.

El sistema Novus es una arquitectura de búsqueda distribuida que utiliza miles de servidores SUSE Linux® que ejecutan nuestro propio software. Cada servidor de búsqueda asume una parte de la indexación del contenido general, que se almacena en la memoria del servidor, y permite un acceso a esta información muy rápido. Cuando se ejecuta una búsqueda, la tarea llega a miles de equipos al mismo tiempo. Los resultados se envían a una controladora que los ordena, agrupa y clasifica y, a continuación, envía esa información de nuevo a la aplicación que realizó la consulta. Al hacerlo así, podemos obtener un rendimiento de búsqueda medible en unidades de tiempo inferiores a un segundo.

A continuación, la aplicación decide si quiere recuperar los documentos identificados en la búsqueda. En realidad, los almacenes de contenido no se tocan hasta que se solicita un documento. El contenido se almacena usando cientos de clústeres de base de datos de Oracle® RAC, cada uno de los cuales tiene, normalmente, cuatro nodos. Cada clúster tiene un subconjunto del contenido total.

Sé que el término «cloud» puede ser interpretado de diferentes formas por diferentes personas, pero Novus ha sido diseñado para proporcionar la flexibilidad que normalmente se atribuye a la infraestructura cloud, si bien su infraestructura se diseñó antes de que se popularizara el término cloud. Todos los servidores del entorno Novus se pueden reasignar en tiempo real para asumir una función diferente. Cuando diseñamos esta arquitectura quisimos asegurarnos de que, si se producía un pico de actividad, podríamos reasignar recursos con gran rapidez de modo que, por ejemplo, lo que hacía cinco minutos era un servidor de base de datos, se convertía en uno de búsqueda.

Cuando ponemos en marcha un código en Novus, el código completo se pone en marcha en todos los servidores, para todas las funciones. Por lo tanto, todo lo que tenemos que hacer es hacer un simple ajuste y decir: «servidor A, ya no eres un servidor de búsqueda, si no de carga».

Si WestlawNext procesa una carga elevada, podemos asignar más recursos específicamente a esta aplicación, a Checkpoint o a cualquier otra aplicación que necesite recursos. No es necesario reiniciar los servidores, al cargar los índices adecuados en la memoria desde el almacenamiento de NetApp, ya están preparados para desarrollar su nueva función. Es posible asignar varios conjuntos de servidores al mismo conjunto de índices para aumentar el paralelismo y permitir que Novus siga creciendo.

Además, esta funcionalidad dinámica nos permite crear redundancia en el entorno y garantiza la precisión de los resultados. Tenemos en todo momento servidores adicionales inactivos disponibles. Si solo unos milisegundos después de enviar una solicitud no tenemos ningún resultado de un servidor, hacemos un par de pruebas rápidas de ese servidor. Si no responde, es lento o tiene algún otro problema, se asignará automáticamente otro servidor para asumir esa función. Este cargará el índice correspondiente en la memoria y responderá a la consulta.

El resultado es que, aunque falle un servidor, el usuario final recibirá un resultado preciso sin omisiones con una demora de solo unos segundos. El usuario no tiene que volver a realizar la consulta y la recuperación se produce de modo automático, sin intervención del administrador. Para el contenido de Novus propiamente, el uso de Oracle RAC proporciona la redundancia necesaria. Si falla un servidor RAC, otro nodo del clúster asume su función. Si un clúster RAC tiene demasiada carga, podemos agregar más nodos dinámicamente para responder a esa carga.

Interfaz virtualizado
Para todo lo relativo al interfaz (todo lo que queda fuera de Novus), utilizamos un entorno mucho más tradicional, compuesto por servidores web y varios servidores de aplicaciones. Además de acceder a Novus para realizar búsquedas, el nivel de aplicaciones también accede a una serie de elementos que no trataremos en este artículo como, por ejemplo, bases de datos de seguridad, información de usuarios, bases de datos de facturación, datos de MIS... todo lo que cualquier aplicación convencional necesita.

Una gran parte del entorno de interfaz se ha virtualizado con VMware®. La mayor parte de los servidores web y de aplicaciones funcionan en equipos virtuales. VMware nos permite hacer el mismo tipo de asignación dinámica de recursos en el interfaz que en Novus. Podemos adaptar el número de servidores web y servidores de aplicaciones para cada aplicación según sea necesario.

VMware nos permite mantener un funcionamiento ininterrumpido. La alta disponibilidad de VMware nos da protección frente a los fallos de equipos virtuales y vMotion™ nos permite realizar tareas de mantenimiento y otras operaciones sin provocar tiempos de inactividad y sin perder el trabajo en curso, algo que antes era imposible. Antes de la virtualización, como cualquier otro en mi lugar, si tenía en un servidor 100 usuarios que necesitaban mantenimiento, tenía que cambiarlos a modo de inactividad y desconectarlos para luego volver a hacerles iniciar sesión.

Con VMware podemos realizar las tareas de mantenimiento que queramos en pleno día, porque podemos mover los equipos virtuales en ejecución a un conjunto auxiliar de servidores y, a continuación, realizar cualquier tarea de mantenimiento que necesitemos en los servidores originales.

Recuperación ante desastres
Ya he explicado cómo proporcionamos redundancia en un centro de datos, pero todavía no he entrado en la recuperación ante desastres para no complicar las cosas. En condiciones de funcionamiento normales, siempre tenemos dos centros de datos en funcionamiento con infraestructuras muy similares y datos idénticos. Si un desastre provoca una interrupción en un centro de datos en funcionamiento, el otro puede escalar las operaciones para responder a la carga de búsqueda adicional.

Sincronizamos los datos de los centros a través de la replicación. Tenemos nuestros propios mecanismos, que hemos desarrollado para admitir la replicación de nuestros índices de Novus y asegurarnos de que están perfectamente sincronizados. Los almacenes de contenido de nuestras bases de datos de Oracle RAC se replican usando Oracle DataGuard.

NetApp cambia las reglas del juego

El almacenamiento de NetApp es la base de la arquitectura Novus (índices y almacenes de contenido de Oracle RAC) y el entorno de interfaz VMware. Todos los índices que se introducen en nuestros servidores Linux y todo el contenido almacenado en Oracle RAC se conservan en el almacenamiento NAS de NetApp, al que se accede a través de NFS. Novus no podría funcionar si no tuviésemos miles de servidores compartiendo el acceso simultáneo a nuestros sistemas de almacenamiento y si no pudiésemos cambiar de forma dinámica qué servidores acceden a qué almacenamiento sobre la marcha. El almacenamiento de NetApp jugó realmente un papel decisivo para nosotros cuando lo implantamos por primera vez en 2002 y sigue siendo una parte fundamental de nuestra solución en la actualidad.

Recientemente y para cumplir los requisitos de escalabilidad y rendimiento de WestlawNext, hemos hecho algunas mejoras en la infraestructura. Hemos agregado Flash Cache a los sistemas clave de NetApp. Concretamente, hemos empezado a usar este producto en los sistemas de NetApp que proporcionan almacenamiento para un único clúster de Oracle RAC. Estos clústeres suelen requerir poca capacidad, pero demandan un alto rendimiento, por lo que Flash Cache nos ayuda a mantener un alto nivel de rendimiento sin que para ello debamos agregar discos ni malgastar capacidad. También hemos comenzado a utilizar Flash Cache en los sistemas de almacenamiento compartido que proporcionan los índices y otros datos a nuestros clientes Linux y, observando las pruebas preliminares, esperamos que esta iniciativa tenga también un gran impacto.

Como ya supondrá, agregamos constantemente nuevo contenido, lo que implica que es necesario volver a indexar y transferir este nuevo contenido y los índices asociados al mismo tiempo que se mantiene todo sincronizado. Si se produce un problema y tenemos que volver a un estado anterior, este proceso debe realizarse con la mayor rapidez posible. La tecnología SnapRestore® de NetApp es, con diferencia, la mejor solución que hemos encontrado para responder a esta necesidad.

Antes de realizar una carga de contenido, creamos una copia Snapshot™. A continuación, si tenemos que volver atrás por algún motivo, solo tenemos que hacer una operación de SnapRestore para restaurar el estado que tenía nuestro almacenamiento (primero en un centro de datos y luego en el otro) antes de iniciar la carga. (Para las bases de datos, en algunos casos, es posible que haya que volver a reproducir los registros).

Utilizamos la deduplicación de NetApp en nuestro entorno VMware para evitar las consecuencias de tener un gran número de equipos virtuales casi idénticos, la duplicación de datos. Una única división tiene más de 9.000 equipos virtuales VMware que se ejecutan en el almacenamiento de NetApp y, usando deduplicación, hemos logrado ahorrar más de 160 TB de espacio en el almacenamiento primario.

Para gestionar el entorno usamos los productos de gestión OnCommand™ de NetApp, donde se incluyen Operations Manager, Provisioning Manager, Performance Manager y OnCommand Insight. Disponemos así de un único conjunto de herramientas que funciona en todo nuestro almacenamiento de NetApp para simplificar la gestión, agilizar el aprovisionamiento e identificar los problemas de rendimiento. OnCommand Insight (antes conocido como SANscreen®) nos da una vista consolidada de todo nuestro entorno de almacenamiento heterogéneo en cuanto a capacidad, conectividad, configuraciones y rendimiento. También nos alerta sobre errores de componentes, de modo que podemos resolver los problemas antes de que los componentes redundantes sufran un segundo fallo.

Más por menos

Ya he mencionado la importante eficiencia y las ventajas que hemos logrado en lo que a escalabilidad se refiere al implantar WestlawNext y otros servicios usando la infraestructura que he descrito. Al compartir la infraestructura en el entorno de administración, podemos responder con eficiencia a los picos de demanda de nuestras aplicaciones asignando recursos donde son necesarios, al mismo tiempo que mantenemos al mínimo los recursos inactivos. La virtualización del interfaz nos ha permitido reducir el número de servidores y otros elementos de la infraestructura asociados. Las medidas generales que hemos tomado nos han ahorrado ya la creación de un centro de datos adicional. Las tecnologías de almacenamiento de NetApp, como la copia snapshot, SnapRestore, Flash Cache y la suite completa de funcionalidades de gestión, nos ayudan a optimizar el uso del almacenamiento y a eliminar los cuellos de botella.

Para Thomson Reuters, nuestra relación general con NetApp es tan importante para nuestro éxito como la tecnología de NetApp. De todos los proveedores con los que trabajamos, solo dos son partners tecnológicos estratégicos, y NetApp es uno de ellos. Cualquier problema que surja se soluciona inmediatamente y NetApp está siempre dispuesto a dar soporte a nuestras iniciativas tecnológicas clave como WestlawNext. NetApp ha colaborado estrechamente con nosotros para optimizar el rendimiento y ayudarnos a aprovechar con rapidez las nuevas funcionalidades de almacenamiento.

 ¿Qué opina del caso práctico de Thomson Reuters?

Formule preguntas, intercambie ideas y comparta sus opiniones en las comunidades en línea de NetApp.

Por Mark Bluhm, Vicepresidente Sénior y Director Técnico, Servicios Compartidos, Thomson Reuters Professional Division

Mark Bluhm es Vicepresidente Senior y Director tecnológico de Servicios Compartidos, Supervisión de Operaciones y Estrategia de Centro de Datos para la División Profesional de Thomson Reuters.

Mark tiene más de 19 años de experiencia en la empresa y comenzó en la antigua West en 1991 como ingeniero de software. Desde entonces, Mark ha ocupado diversas funciones de liderazgo tecnológico, entre ellas, diseñador jefe para asuntos normativos y legales de la antigua Thomson. De hecho, es uno de los inventores clave de la tecnología Novus y es el principal titular de la patente de esta solución empresarial propiedad de TRGR. Después de la adquisición de Reuters por parte de Thomson en 2008, Mark participó en la fusión de las infraestructuras de ambas empresas. Más recientemente, fue director tecnológico de Tecnología de desarrollo de clientes, en el departamento de Asuntos legales.

Mark obtuvo sus títulos de licenciado y maestría en Matemáticas y Ciencias Informáticas de la Universidad de Dakota del Sur, y su doctorado en Ciencias Informáticas de la Universidad de Washington.


Tech OnTap
Suscríbase ahora
Tech OnTap ofrece reportajes mensuales, acceso exclusivo a mejores prácticas, sugerencias y herramientas reales, entrevistas técnicas exclusivas, demostraciones, evaluaciones de expertos y muchas cosas más.

Visite www.netapp.com/es/communities/tech-ontap/ para suscribirse hoy.

Explore
Explore
Acerca de Thomson Reuters

Thomson Reuters es la principal fuente mundial de información inteligente para empresas y profesionales. Como organización informativa con mayor grado de credibilidad del mundo, la empresa combina experiencia en el sector con tecnología innovadora para proporcionar información importante a los encargados de la toma de decisiones en los sectores financiero, legal, fiscal y contable, científico, sanitario y multimedia. Con sede en Nueva York y centros de operaciones importantes en Londres (Inglaterra) y Eagan (Minnesota), Thomson Reuters cuenta con 55.000 empleados en más de 100 países y genera 13.100 millones de dólares en ingresos (2010).

Explore
TRUSTe
Contacto   |   Cómo comprar   |   Comentarios   |   Trayectoria profesional  |   Suscripciones   |   Política de privacidad   |   © 2011 NetApp