NetApp Tech OnTap NetApp Logo
NetApp Tech OnTap
     
Étude de cas : Thomson Reuters

Chez Thomson Reuters, notre mission est de répondre aux besoins en informations des entreprises et professionnels, et ce, dans une panoplie de domaines. Les technologies d'informations sont au centre de toutes nos activités. Notre approche actuelle de l'informatique a été lancée il y a plus de dix ans, lorsque notre service de recherche légale en ligne, Westlaw, nous a contraints à relever des défis de stabilité.

À l'époque, avant le recul des sociétés point-com, Westlaw était encore une plateforme basée sur une technologie centralisée, caractéristique qui nous a fait perdre des ingénieurs logiciels très talentueux, qui préféraient alors investir leurs efforts dans des technologies plus récentes. J'ai donc été chargé de développer une nouvelle infrastructure ouverte pour Westlaw, qui soit en mesure de prendre également en charge nos autres activités liées aux informations. La conception d'une infrastructure partagée fondée sur des éléments de base standard s'avérait extrêmement visionnaire.

Cette simple décision nous a mis sur une voie d'évolution informatique constante pendant plus de dix ans et nous a permis, plus récemment, de présenter un service de recherche légale nouvelle génération, complètement remanié : WestlawNext. Notre infrastructure nous a permis d'assurer une prise en charge de WestlawNext, tout en évitant des dépenses de quelque 65 millions de dollars liées à la création de nouveaux data centers, et ce, avec des économies énergétiques de 25 % et une disponibilité 24 heures sur 24 et 7 jours sur 7. En comparaison avec la version précédente, WestlawNext est capable d'analyser 50 fois plus de données (5 milliards de documents) et de retourner les résultats deux fois plus rapidement.

Dans cet article, j'aimerais présenter quelques-uns des éléments les plus importants de cette infrastructure, notamment les éléments de base, notre architecture de recherche principale et notre environnement frontal virtualisé. NetApp et les services professionnels NetApp ont été des partenaires indispensables dans ces efforts, et j'essaierai par conséquent leur témoigner notre reconnaissance.

Une infrastructure de recherche partagée

La clé du succès de WestlawNext et de tous les produits Thomson Reuters réside dans nos technologies, qui permettent d'effectuer des recherches dans un volume considérable de données, et ce, dans des délais très brefs et avec une pertinence totale. Lorsque deux personnes lancent la même recherche en même temps, elles devraient obtenir exactement les mêmes résultats.

Grâce aux améliorations apportées à nos méthodes de recherche WestlawNext, les utilisateurs peuvent désormais saisir les termes de leur recherche en anglais courant ; ils n'ont plus besoin de formuler une requête formelle et soutenue. Par conséquent, une requête qui n'aurait renvoyé qu'un seul résultat il y a deux ou trois ans encore, en renverrait désormais 40 ou plus et ce volume peut tout à fait évoluer, ce qui est très important. L'objectif que nous nous sommes initialement fixé est largement dépassé. Une recherche type renvoie des résultats en 2,5 secondes uniquement.

Les éléments clés de notre infrastructure incluent :

  • Des éléments de base standard
  • Une architecture de recherche de type cloud
  • Un environnement Web frontal virtualisé
  • Une réplication pour les reprises après incident

Éléments de base standard
Notre infrastructure se compose d'éléments de base standard. Nos data centers disposent de 25000 à 30000 serveurs x86, dotés de configurations de 2 ou 4 CPU et de solutions de stockage NetApp® pour la plupart. Notre infrastructure de réseau se compose presque entièrement d'Ethernet 10 Gigabits avec des commutateurs des gammes Cisco 6500 et Cisco Nexus 5000 et 7000. Nous utilisons ces éléments de base à la fois dans nos configurations internes et frontales.

Chiffres clés Thomson Reuters
Plus de 25 0000 serveurs
Stockage NetApp avec Flash Cache
Des centaines de clusters Oracle RAC
Infrastructure de recherche Novus basée sur Linux et servant plus de 30 applications
VMware pour virtualiser l'environnement frontal
Économie de 65 millions USD en coûts de nouveaux data centers
Réduction de la consommation d'énergie de 25 %
Recherche de 50 fois plus de données (5 milliards de documents) en deux fois moins de temps

 

Figure 1) Résultats exceptionnels de WestlawNext et de la transformation IT de Thomson Reuters

Novus : une infrastructure de recherche de type cloud
Notre architecture Novus, brevetée en 2006 est l'élément principal de toutes les activités de recherche. L'architecture Novus fournit une plateforme unique pour la prise en charge des services en ligne de chacun des quatre groupes Thomson, notamment WestlawNext et Checkpoint®, notre système de recherche dans le domaine fiscal et financier. En tout, plus de 30 applications utilisent l'architecture Novus.

Le système Novus est une architecture de recherche distribuée qui utilise des milliers de serveurs SUSE Linux®, chacun doté de nos logiciels propriétaires. Chaque serveur de recherche est chargé d'une partie de l'index de contenu global, contenue dans la mémoire serveur, ce qui permet un accès extrêmement rapide. Lors d'une recherche, des milliers d'ordinateurs sont sollicités en même temps. Les résultats sont renvoyés vers un contrôleur qui les trie, les regroupe, les classe, puis renvoie toutes ces informations vers l'application dont émane la requête. Cette procédure permet d'obtenir des performances de recherche quasi instantanées.

L'application décide alors d'ouvrir ou d'ignorer les documents identifiés lors de la recherche. Les banques de contenu ne sont en réalité pas sollicitées, jusqu'à ce qu'un document fasse l'objet d'une requête. Le contenu est stocké à l'aide de centaines de clusters de bases de données Oracle® RAC, en général avec quatre nœuds par cluster. Chaque cluster contient une sous-partie du contenu total.

Je sais que le terme « cloud » revêt plusieurs sens et connotations, mais Novus a été conçu pour fournir la flexibilité qui est généralement attribuée à l'infrastructure cloud, même si cette infrastructure a été développée avant que le terme « cloud » ne soit largement répandu.

Chaque serveur de l'environnement Novus peut être réaffecté en temps réel afin d'endosser un autre rôle. Lorsque nous avons conçu cet aspect, nous voulions nous assurer de pouvoir réattribuer les ressources de manière très rapide en cas d'urgence, de sorte à ce qu'un serveur de base de données puisse instantanément se transformer en serveur de recherche, par exemple.

Chaque programme déployé sur Novus est également déployé sur chaque serveur, pour chaque fonction. Ainsi, il nous suffit de modifier un simple paramètre et dire « Serveur A, désormais tu n'es plus un serveur de recherche, mais un serveur de chargement ».

Lorsque WestlawNext est fortement sollicité, nous pouvons allouer plus de ressources à WestlawNext en particulier, ou à Checkpoint, ou à toute autre application ayant besoin des ressources. Les serveurs n'ont pas besoin d'être redémarrés. Pour endosser leur nouveau rôle, ils doivent simplement charger les index appropriés dans leur mémoire, à partir du stockage NetApp. Plusieurs ensembles de serveurs peuvent être affectés à un même ensemble d'index, afin d'accroître les parallélismes qui permettent à Novus d'évoluer en permanence.

Cette fonction dynamique nous permet également d'assurer la redondance dans l'environnement et la pertinence des résultats. Nous avons toujours des serveurs inactifs supplémentaires à disposition. Si nous n'obtenons pas de résultat d'un serveur quelques millisecondes après avoir envoyé la requête, nous réalisons un certain nombre de tests rapides sur le serveur concerné. Lorsque le serveur ne répond pas, est lent ou rencontre tout autre type de problème, un autre serveur se voit automatiquement attribuer le rôle en question. Ce dernier doit alors charger l'index approprié dans sa mémoire et traiter la requête.

Résultat : lorsqu'un serveur échoue, l'utilisateur obtient toujours des résultats pertinents et complets, avec un retard minimal de quelques secondes uniquement. L'utilisateur n'a pas besoin de renvoyer la requête et la reprise s'effectue automatiquement, sans l'intervention d'un administrateur. Pour le contenu de Novus, la redondance est assurée par Oracle RAC. Lorsqu'un serveur RAC échoue, sa fonction est effectuée par un autre nœud du cluster. Lorsqu'un cluster RAC est trop sollicité, nous pouvons ajouter davantage de nœuds de manière dynamique, afin de pouvoir traiter la charge.

Environnement frontal virtualisé
Pour chaque élément de l'interface frontale (tout élément extérieur à Novus), nous utilisons un environnement plus ordinaire, composé de serveurs Web et de différents serveurs d'applications. En plus d'accéder à Novus lors de la recherche, le niveau d'application accède également à une panoplie d'éléments qui ne sont pas détaillés dans ces exemples, notamment les bases de données de sécurité, les informations utilisateur, les bases de données de facturation, les données relatives au système d'information de gestion et tout autre élément dont une application standard a besoin.

Une grande partie de l'environnement frontal a été virtualisée à l'aide de VMware®. La plupart des serveurs Web et des serveurs d'applications sont exécutés sur des ordinateurs virtuels. Grâce à VMware, nous pouvons réaliser le même type d'allocation dynamique des ressources dans l'environnement frontal que celles effectuées dans Novus. Selon nos besoins, nous pouvons ajuster le nombre de serveurs Web et de serveurs d'applications pour chaque application.

VMware nous garantit par ailleurs un fonctionnement continu. VMware HA protège le système des pannes d'ordinateurs virtuels et vMotion™ nous permet d'effectuer des tâches de maintenance entre autres sans temps d'indisponibilité et sans perdre les tâches « en vol », ce qui n'était pas envisageable auparavant. Avant la virtualisation, lorsque 100 utilisateurs se trouvaient sur un serveur qui avait besoin de maintenance, nous devions nous résoudre à placer les utilisateurs en mode inactif, les mettre hors ligne, puis les reconnecter, ou alors accomplir un miracle en termes de programmation, ce qui était quasiment impossible.

VMware nous permet de réaliser des tâches de maintenance en cours de journée, car nous pouvons désormais simplement continuer à exécuter les ordinateurs virtuels sur un ensemble auxiliaire de serveurs et procéder aux tâches de maintenance nécessaires sur les serveurs d'origine.

Reprise après incident
Je vous ai déjà expliqué comment nous assurons la redondance au sein d'un data center, mais je ne me suis pas attardé sur le thème de la reprise après incident. Dans le cadre d'un fonctionnement standard, deux data centers sont toujours exécutés avec des infrastructures similaires et des données identiques. En cas de panne de l'un des deux data centers, l'autre data center peut s'adapter et traiter les charges de recherche supplémentaires.

La technologie de réplication nous permet de garantir la synchronisation de nos data centers. Nous avons développé nos propres technologies de réplication afin de prendre en charge la réplication de nos index Novus et de garantir leur synchronisation parfaite. Les banques de contenu de nos bases de données RAC Oracle sont répliquées à l'aide d'Oracle DataGuard.

NetApp change la donne

Le stockage NetApp prend en charge l'architecture Novus (les index et banques de contenu Oracle RAC), ainsi que l'environnement frontal VMware. L'intégralité des index qui sont chargés dans nos serveurs Linux et du contenu stocké dans Oracle RAC est conservée dans le système de stockage NetApp NAS, accessible via NFS. Novus ne fonctionnerait tout simplement pas s'il ne nous était pas possible de disposer de milliers de serveurs partageant l'accès simultané à nos systèmes de stockage et de modifier à la volée et de manière dynamique les modalités d'accès des serveurs aux systèmes de stockage. Depuis son déploiement en 2002, le stockage NetApp nous a propulsé sur une nouvelle voie et représente, encore aujourd'hui, un élément essentiel de notre solution actuelle.

Afin de prendre en charge l'évolutivité et les besoins en matière de performances de WestlawNext, nous avons récemment amélioré notre infrastructure. Nous avons ajouté le module Flash Cache aux principaux systèmes NetApp. Plus spécifiquement, nous avons commencé à utiliser ce module sur les systèmes NetApp fournissant une solution de stockage pour un seul cluster Oracle RAC. Ce type de clusters requiert souvent peu de capacité de stockage et des performances élevées ; Flash Cache nous permet donc de maintenir des niveaux de performances importants, sans avoir à utiliser des piles de disques supplémentaires ni à gaspiller les capacités afin d'obtenir les performances requises. Nous avons également commencé à utiliser Flash Cache sur les systèmes de stockage partagé qui fournissent les index et d'autres données à nos clients Linux ; d'après des tests préliminaires, l'impact devrait être tout aussi important.

Vous vous en doutez peut-être, mais nous ajoutons également constamment du contenu, ce qui implique une nouvelle indexation et une nouvelle distribution du nouveau contenu et des index associés, avec une synchronisation complète de tous les éléments. En cas de problème, nous devons restaurer le système à un état antérieur, et ce, dans les meilleurs délais. La technologie NetApp SnapRestore® est de loin la meilleure solution pour répondre à cet impératif.

Avant de procéder au chargement d'un contenu, nous créons une copie Snapshot™. Ensuite, si nous devions rétablir le système pour une raison quelconque, il nous suffirait simplement d'exécuter SnapRestore pour restaurer l'état de notre système de stockage (dans l'un des data centers, puis dans l'autre), tel qu'il était avant le début du chargement. (Dans certains cas, comme pour les bases de données, par exemple, les fichiers journaux ne peuvent être relus.)

Afin d'éliminer les doublons dus à la conservation d'un nombre important d'ordinateurs virtuels quasiment identiques, nous utilisons la déduplication NetApp dans notre environnement VMware. Chaque division dispose de 9,000 ordinateurs virtuels VMware sur le système de stockage NetApp et grâce à l'utilisation de la déduplication, nous avons pu réaliser des économies de 160 To en termes de stockage primaire.

Pour la gestion de notre environnement, nous utilisons la large gamme de produits de gestion NetApp OnCommand™, tels qu'Operations Manager, Provisioning Manager, Performance Manager et OnCommand Insight. Nous disposons ainsi d'un ensemble d'outils unique dans tous nos systèmes de stockage NetApp, ce qui simplifie la gestion, accélère le provisionnement et permet d'identifier les problèmes de performances. OnCommand Insight (anciennement NetApp SANscreen®) nous propose une vue consolidée de l'ensemble de l'environnement de stockage hétérogène en termes de capacité, de connectivité, de configuration et de performances. Il nous signale également les pannes survenues sur les composants sous forme d'alertes, nous permettant ainsi de résoudre les problèmes avant que les composants redondants ne rencontrent une deuxième panne.

Faire plus avec moins

J'ai déjà mentionné les avantages significatifs en termes d'efficacité et d'évolutivité dont nous bénéficions grâce à l'implémentation de WestlawNext et d'autres services, à l'aide de l'infrastructure décrite précédemment. En partageant l'infrastructure en interne, nous avons été en mesure de répondre de manière plus efficace aux pics de demandes de nos différentes applications, en allouant des ressources là où elles sont nécessaires, tout en réduisant au maximum le nombre de ressources inactives. La virtualisation de l'environnement frontal nous a permis de réduire le nombre de serveurs et d'autres infrastructures associées. Nos efforts globaux nous ont jusqu'à présent permis d'éviter la construction d'un nouveau data center. Les technologies de stockage NetApp, y compris Snapshot, SnapRestore, Flash Cache et la suite complète de gestion, nous ont permis d'optimiser le stockage et d'éliminer les goulets d'étranglement.

Pour Thomson Reuters, tant la relation globale avec NetApp que les technologies individuelles de NetApp constituent les piliers de notre réussite. Pour tous les fournisseurs avec lesquels nous travaillons, NetApp est le partenaire technologique stratégique de choix. Chaque problème est immédiatement traité et NetApp est toujours disposé à nous assister lors de nos initiatives technologiques les plus importantes, telles que WestlawNext. NetApp a travaillé en étroite collaboration avec nous, afin de nous permettre d'optimiser les performances et d'utiliser au mieux et dans les meilleurs délais les nouvelles fonctionnalités de stockage.

 Vous avez des commentaires sur l'étude de cas Thomson Reuters ?

Posez vos questions, échangez des idées et partagez vos points de vue directement en ligne via les communautés NetApp.

Par Mark Bluhm, Vice-président senior et directeur technique, Shared Services, Thomson Reuters Professional Division

Mark Bluhm est vice-président senior et directeur de la technologie de la division Shared Services, où il supervise les opérations et la stratégie du data center pour Thomson Reuters Professional Division.

Il travaille depuis 19 ans dans la société et a débuté chez West en 1991 en tant qu'ingénieur logiciel. Depuis, Mark Bluhm a occupé plusieurs postes à responsabilité dans le domaine technologique. Il a été, entre autres, architecte senior pour anciennement Thomson Legal & Regulatory. Il est l'un des principaux inventeurs de la technologie Novus et est titulaire du brevet de cette solution professionnelle détenue par TRGR. Suite à l'acquisition de Reuters par Thomson en 2008, Mark Bluhm s'est impliqué dans la fusion des infrastructures des deux sociétés. Plus récemment, il a été nommé directeur de la technologie du service Client Development Technology, Legal.

Mark Bluhm est diplômé en mathématiques et en informatique de l'Université du Dakota du Sud, et a obtenu un doctorat en informatique à l'Université de Washington.


Tech OnTap
S'inscrire dès maintenant
Tech OnTap propose chaque mois des informations techniques, mais également des meilleures pratiques, des conseils et outils, des interviews d'ingénieurs, des démonstrations, des évaluations et bien plus encore.

Rendez-vous à l'adresse www.netapp.com/fr/communities/tech-ontap// pour vous inscrire dès aujourd'hui.

Explore
Explore
À propos de Thomson Reuters

Thomson Reuters est la principale source mondiale d'informations intelligentes pour les entreprises et les professionnels. La société associe son expertise à des technologies innovantes afin de fournir des informations stratégiques aux principaux décideurs des marchés financiers, juridiques, comptables, médicaux, scientifiques et médias, avec la société de presse reconnue dans le monde entier. Basé à New York et disposant de bureaux à Londres (Angleterre) et à Eagan (Minnesota), Thomson Reuters emploie environ 55 000 personnes dans plus de 100 pays du monde entier et réalise un chiffre d'affaires de 13,1 milliards de dollars (en 2010).

Explore
TRUSTe
Nous contacter    |   Choisir un partenaire   |   Commentaires   |   Offres d'emploi  |   Abonnements   |   Déclaration de confidentialité   |   © 2011 NetApp