NetApp Tech OnTap NetApp Logo
NetApp Tech OnTap
     
Casestudy: Thomson Reuters

Bij Thomson Reuters is het onze missie om op uiteenlopende gebieden informatie te leveren aan bedrijven en professionals. Daarom speelt informatietechnologie een cruciale rol bij al onze activiteiten. Onze huidige benadering van IT dateert van ruim tien jaar geleden, toen we problemen begonnen te ondervinden met de stabiliteit van onze service voor online juridisch onderzoek, genaamd Westlaw.

Destijds (vóór de webcrisis begon) was Westlaw nog een platform dat op mainframes was gebaseerd, en we raakten getalenteerde softwaretechnici kwijt die met nieuwere technologieën wilden werken. Ik kreeg opdracht om een nieuwe, open infrastructuur voor Westlaw te ontwikkelen, en wel op zodanige manier dat dezelfde infrastructuur ook onze andere informatieactiviteiten kon ondersteunen. Het ging er dus om een gedeelde IT-infrastructuur op te zetten met gebruikmaking van standaardbouwstenen.

Deze eenvoudige opdracht markeerde het begin van een gestage, jarenlange IT-evolutie, die onlangs uitmondde in de vrijgave van een geheel nieuwe, dynamische juridisch-onderzoekservice met de naam WestlawNext. Onze infrastructuur maakte het mogelijk, ondersteuning voor WestlawNext toe te voegen terwijl we ruwweg 65 miljoen dollar aan kosten voor een nieuw datacenter konden uitsparen. Ook gebruiken we nu 25% minder stroom en zijn de data ononderbroken beschikbaar. WestlawNext kan vijftig keer meer data doorzoeken (5 miljard documenten) in vergelijking met de vorige generatie en toont tweemaal zo snel zoekresultaten.

In dit artikel wil ik een aantal belangrijke elementen van deze infrastructuur bespreken, waaronder de bouwstenen, onze zoekarchitectuur en ons gevirtualiseerde front-end. NetApp en NetApp Professional Services waren onmisbare partners bij de ontwikkeling van WestlawNext.

Een gedeelde IT-infrastructuur voor het opzetten van een zoekservice

Cruciaal voor het succes van WestlawNext en alle producten van Thomson Reuters is de mogelijkheid om enorme hoeveelheden data zeer snel en zeer nauwkeurig te kunnen doorzoeken. Als twee personen dezelfde zoekactie starten, moeten ze exact dezelfde resultaten krijgen.

Dankzij verbeteringen in onze zoekmethoden bij WestlawNext, kunnen gebruikers in gewone taal vragen wat ze zoeken; ze hoeven geen zoekformule te kennen. Een verzoek dat twee of drie jaar geleden slechts één zoekactie tot gevolg had, leidt in het back-end nu tot veertig of meer zoekacties, en toch kan onze infrastructuur deze lading gemakkelijk aan. De resultaten zijn veel beter dan we oorspronkelijk voor ogen hadden. Een typische zoekactie levert binnen slechts 2,5 seconden de gewenste data op.

Tot de belangrijkste elementen van onze infrastructuur behoren:

  • Standaardbouwstenen
  • Een cloud-achtige zoekarchitectuur
  • Gevirtualiseerd webfront-end
  • Replicatie voor disasterrecovery

Standaardbouwstenen
Onze infrastructuur bestaat uit bouwstenen die algemeen worden gebruikt. We passen 25.000 tot 30.000 x86-servers toe in onze datacenters. Bij de meeste hiervan worden twee of vier CPU's gebruikt, ondersteund door storage van NetApp®. Onze netwerkinfrastructuur berust vrijwel volledig op 10-gigabit ethernet, waarbij gebruik wordt gemaakt van switches uit de lijnen Cisco 6500 en Cisco Nexus 5000/7000. We gebruiken deze bouwstenen in zowel de front-end- als de back-endconfiguraties.

Belangrijkste cijfers van Thomson Reuters
Meer dan 25.000 servers
NetApp-storage met Flash Cache
Honderden RAC-clusters van Oracle
Zoekinfrastructuur van Novus is gebouwd op Linux en ondersteunt meer dan 30 applicaties
VMware voor virtualiseren van front-end
$ 65 miljoen aan kosten voor nieuwe datacenters voorkomen
Stroomverbruik verminderd met 25%
Doorzoekt 50 keer meer data (5 miljard documenten) in de helft van de tijd

 

Afbeelding 1) Opmerkelijke prestaties voor WestlawNext en de IT-transformatie van Thomson Reuters

Novus: een cloud-achtige infrastructuur voor zoekacties
Onze Novus-architectuur, waarop we in 2006 een patent kregen, vormt de kern bij alle zoekactiviteiten. De Novus-architectuur biedt één platform voor het ondersteunen van online services die worden geleverd door onze vier Thomson-marktgroepen, waaronder WestlawNext en Checkpoint®, en ons belasting- en boekhoudzoeksysteem. In totaal maken ruim dertig applicaties gebruik van de Novus-architectuur.

Het Novus-systeem is een verspreide zoekarchitectuur met duizenden SUSE Linux®-servers waarop onze eigen software draait. Elke zoekserver verzorgt een deel van de totale contentindex, die in het servergeheugen past zodat de data bliksemsnel beschikbaar zijn. Als er een zoekactie wordt uitgevoerd, worden duizenden servers tegelijkertijd geraadpleegd. De resultaten worden naar een controller gestuurd, die ze samenvoegt en sorteert en de informatie vervolgens terugstuurt naar de applicatie waarop de zoekactie werd gestart. Deze aanpak levert zoekresultaten op in minder dan een seconde.

De applicatie besluit zelfstandig of de documenten die gezochte data bevatten, moeten worden getoond. De contentstores worden pas gebruikt wanneer een document wordt opgevraagd. De content zelf is opgeslagen in honderden Oracle® RAC-databaseclusters met meestal vier nodes per cluster. Elke cluster bevat een subset van de totale content.

Ik weet dat de term 'cloud' verschillende betekenissen kan hebben, maar Novus is ontwikkeld om de flexibiliteit te bieden die meestal wordt toegeschreven aan cloudinfrastructuren, hoewel de infrastructuur werd ontwikkeld voordat de term 'cloud' gemeengoed werd. Elke willekeurige server in de Novus-omgeving kan in realtime opnieuw worden gealloceerd om een andere taak op zich te nemen. Tijdens de ontwikkeling wilden we ervoor zorgen dat we resources tijdens piekbelastingen snel opnieuw konden alloceren, zodat bijvoorbeeld een databaseserver de hoedanigheid van een zoekserver kan aannemen.

Bij het gebruik van codes in Novus worden alle codes voor elke functie toegewezen aan elke server. We hoeven dus alleen een eenvoudige instelling te wijzigen en kunnen als het ware zeggen: "Server A, jij bent nu geen zoekserver meer, maar een laadserver."

Als WestlawNext erg intensief wordt gebruikt, kunnen we meer resources alloceren aan WestlawNext, Checkpoint of een andere applicatie die de resources nodig heeft. Servers hoeven niet opnieuw te worden opgestart. Ze laden gewoon de juiste indices in het geheugen vanuit storage van NetApp en zijn dan klaar voor hun nieuwe functie. Meerdere sets met servers kunnen worden toegekend aan dezelfde set indices. Hierdoor neemt de parallelliteit toe, zodat Novus verder kan worden uitgeschaald.

Dankzij deze dynamische voorziening kunnen we ook redundantie in de omgeving inbouwen en is de accuratesse van de resultaten gewaarborgd. We hebben altijd wachtende servers achter de hand. Als we binnen enkele milliseconden na het verzoek geen resultaat van een server krijgen, wordt deze server snel getest. Als de server traag of helemaal niet reageert of een ander probleem vertoont, neemt een andere server zijn functie automatisch over. Vervolgens laadt de server de betreffende index in het geheugen en wordt het verzoek uitgevoerd.

Dit betekent dat een server kan haperen en dat de gebruiker desondanks een accuraat, compleet resultaat krijgt met slechts enkele seconden vertraging. De gebruiker hoeft het verzoek niet te herhalen en het herstel verloopt automatisch zonder tussenkomst van de beheerder. Wat de content van Novus zelf betreft, zorgt het gebruik van Oracle RAC voor de redundantie. Als een RAC-server niet goed functioneert, neemt een andere node in de cluster de serverfunctie over. Als een RAC-cluster erg intensief wordt gebruikt, kunnen we dynamisch meer nodes toevoegen om de belasting op te vangen.

Gevirtualiseerd front-end
Voor alle entiteiten aan het front-end (alles buiten Novus) kunnen we een veel traditionelere omgeving gebruiken, bestaande uit webservers en diverse applicatieservers. De applicatie gebruikt niet alleen Novus voor zoekacties, maar raadpleegt ook tal van andere zaken die niet tot het thema van dit artikel behoren, zoals beveiligingsdatabases, gebruikersinformatie, databases voor factuurverwerking en MIS-data, kortom: alle zaken die een gewone applicatie nodig heeft.

Een groot deel van de front-end-omgeving is gevirtualiseerd met VMware®. De meeste webservers en applicatieservers draaien op virtuele systemen. VMware stelt ons in staat tot dezelfde soort dynamische allocatie van resources aan het front-end, die we ook toepassen bij Novus. We kunnen het aantal webservers en applicatieservers naar behoefte fijn afstemmen voor elke applicatie.

VMware zorgt ook voor ononderbroken activiteit. De hoge beschikbaarheid van VMware beschermt tegen de uitval van virtuele systemen, en vMotion™ maakt onderhoud en andere activiteiten mogelijk zonder uitval en zonder dat lopende werkzaamheden hoeven te worden opgeschort, iets wat voorheen niet mogelijk was. Wanneer ik in het tijdperk van vóór de virtualisatie onderhoud moest plegen aan een server met honderd gebruikers, dan moest ik ze offline halen en hen vragen om naderhand weer in te loggen, of bijna onmogelijke programmatische kunstgrepen toepassen.

Met VMware kunnen we desnoods midden op de dag onderhoud uitvoeren, aangezien we de draaiende VM's kunnen overzetten naar een hulpset met servers en vervolgens al het noodzakelijke onderhoud kunnen plegen aan de oorspronkelijke servers.

Disasterrecovery
Ik heb al uitgelegd hoe we voor redundantie binnen een datacenter zorgen, maar om het verhaal eenvoudig te houden, heb ik het nog niet over disasterrecovery gehad. In normale omstandigheden hebben we twee datacenters in bedrijf met een nagenoeg identieke infrastructuur en identieke data. Als het ene datacenter uitvalt door een calamiteit, kan het andere datacenter als het ware een tandje bijschakelen om de extra zoekbelasting op te vangen.

We gebruiken replicatie om onze datacenters synchroon te houden. We beschikken over eigen replicatiemechanismen, die we hebben ontwikkeld voor het ondersteunen van de replicatie van onze Novus-indices en om ervoor te zorgen dat ze perfect in de pas blijven lopen. De contentstores in onze Oracle RAC-databases worden gerepliceerd met behulp van Oracle DataGuard.

NetApp schrijft nieuwe spelregels

Storage van NetApp ondersteunt de Novus-architectuur (indices en Oracle RAC- contentstores) evenals de front-end VMware-omgeving. Alle indices die in onze Linux-servers komen alsook de content die in Oracle RAC is opgeslagen, worden bijgehouden op NetApp NAS-storage, die toegankelijk is via NFS. Novus zou gewoon niet werken als we niet konden beschikken over duizenden servers die gelijktijdig toegang tot onze storagesystemen delen, met de mogelijkheid om zonder onderbrekingen dynamisch te wijzigen welke servers toegang geven tot welke storage. Storage van NetApp was voor ons een echte ommekeer toen we het voor de eerste keer implementeerden in 2002, en het is nog steeds een cruciaal onderdeel van onze oplossing.

Om de schaal- en prestatievereisten van WestlawNext te vervullen, hebben we onlangs een aantal verbeteringen aangebracht aan de infrastructuur. We hebben Flash Cache toegevoegd aan belangrijke systemen van NetApp. We begonnen dit te gebruiken op systemen van NetApp die storage bieden voor één Oracle RAC-cluster. Dergelijke clusters worden vaak gekenmerkt door lage- en hoge-capaciteitsvereisten, zodat Flash Cache helpt om de prestaties hoog te houden zonder dat we spindles of onbenutte capaciteit hoeven toe te voegen om de benodigde prestaties te krijgen. We zijn Flash Cache ook gaan gebruiken op gedeelde storagesystemen voor het leveren van de indices en andere data aan onze Linux-clients, en op basis van de eerste tests verwachten we dat dit een even grote impact zal hebben.

Zoals je zou verwachten, voegen we voortdurend nieuwe content toe. Dit betekent dat er opnieuw moet worden geïndexeerd en dat zowel de oude content als de bijbehorende indices moeten worden verwijderd terwijl alles in de pas blijft. Als er een probleem optreedt en we moeten terugkeren naar een vorige status, moet dit zo snel mogelijk gebeuren. De NetApp SnapRestore®-technologie is verreweg de beste oplossing die we hiervoor hebben gevonden.

Voordat we content laden, maken we een Snapshot™-kopie. Als we om welke reden dan ook naar een vorige status moeten terugkeren, kunnen we een SnapRestore-bewerking uitvoeren om onze storage (eerst in het ene datacenter en daarna in het andere) terug te zetten naar de status van vóór het laden. (In sommige gevallen moeten voor databases wellicht logboeken worden vervangen.)

We gebruiken deduplicatie van NetApp in onze VMware-omgeving om de duplicatie te elimineren die ontstaat als er sprake is van een groot aantal nagenoeg identieke VM's. Op een enkele afdeling maken meer dan 9000 VMware-VM's gebruik van NetApp-storage, en we hebben dankzij deduplicatie 160 TB aan ruimte voor primaire storage bespaard.

Om onze omgeving te beheren, maken we gebruik van het volledige pakket NetApp OnCommand™-managementproducten, waaronder Operations Manager, Provisioning Manager, Performance Manager en OnCommand Insight. Hierdoor beschikken we over één set tools voor al onze NetApp-storage om het management te vereenvoudigen, de provisioning te versnellen en prestatieproblemen te identificeren. OnCommand Insight (voorheen NetApp SANscreen® genoemd) geeft ons een totaaloverzicht van onze volledige heterogene storage-omgeving in termen van capaciteit, connectiviteit, configuraties en prestaties. Het waarschuwt ook voor componentstoringen, zodat we problemen kunnen oplossen voordat redundante componenten een tweede storing veroorzaken.

Meer doen met minder middelen

Ik heb het al gehad over de grote voordelen op het gebied van efficiency en schaalbaarheid die we hebben gerealiseerd door WestlawNext en andere services te implementeren met gebruikmaking van de beschreven infrastructuur. Door de infrastructuur aan het back-end te delen, kunnen we piekbelastingen van onze vele applicaties efficiënt opvangen door resources te alloceren waar ze nodig zijn terwijl er zo weinig mogelijk resources in de wachtstand staan. Dankzij virtualisatie aan het front-end konden we het aantal servers en de bijbehorende infrastructuur beperken. Alle inspanningen hebben ertoe geleid dat we geen extra datacenter hoeven te bouwen. De storagetechnologieën van NetApp, waaronder Snapshot-kopieën, SnapRestore, Flash Cache en het volledige pakket managementvoorzieningen, helpen ons bij het optimaliseren van het storagegebruik en het opruimen van knelpunten.

Voor ons, Thomson Reuters, is de relatie met NetApp net zo belangrijk voor ons succes als de technologie van NetApp. Van alle leveranciers met wie we samenwerken, is NetApp een van de twee partners die we als strategische technologiepartners beschouwen. Problemen worden snel verholpen, en NetApp staat altijd klaar om ons te ondersteunen bij belangrijke technologische initiatieven zoals WestlawNext. NetApp heeft nauw met ons samengewerkt om de prestaties te optimaliseren en ons te helpen bij het snel toepassen van de nieuwe storagefunctionaliteit.

 Wat vindt u van de casestudy van Thomson Reuters?

Stel vragen, wissel ideeën uit en deel uw gedachten online in de NetApp-community's.

Door Mark Bluhm, Senior VP en CTO, Shared Services, Thomson Reuters Professional Division

Mark Bluhm is Senior Vice President en Chief Technology Officer of Shared Services, dat datacentertaken en strategieën beheert voor de Professional Division of Thomson Reuters.

Mark heeft meer dan 19 jaar ervaring bij het bedrijf en is in 1991 begonnen als software-ontwikkelaar bij het toenmalige West. Sindsdien heeft Mark verschillende leidinggevende functies bekleed op het gebied van technologie, inclusief de functie van Chief Architect voor het toenmalige Thomson Legal & Regulatory. Hij is in feite een van de belangrijkste uitvinders van de Novus-technologie en is de voornaamste patenthouder voor deze TRGR-bedrijfsoplossing. Toen Reuters in 2008 werd overgenomen door Thomson, was Mark betrokken bij de fusie van de infrastructuur van de twee bedrijven. Onlangs was hij Chief Technology Officer of Client Development Technology, Legal.

Mark heeft zijn bachelor en master wiskunde en technische informatica behaald aan de University of South Dakota en zijn doctoraat technische informatica behaalde hij aan de Washington University.


Tech OnTap
Abonneer u nu
Tech OnTap biedt maandelijkse inzichten in de IT, plus exclusieve toegang tot aanbevolen werkwijzen uit de praktijk, tips en tools, engineeringinterviews achter de schermen, demo's, peer reviews en nog veel meer.

Abonneer u vandaag nog.

Explore
Achtergrondinformatie
Over Thomson Reuters

Thomson Reuters is 's werelds grootste aanbieder van intellectuele informatie voor bedrijven en professionals. Het bedrijf combineert branche-expertise met innovatieve technologie voor het verstrekken van cruciale informatie aan belangrijke besluitnemers die actief zijn op het gebied van financiële en juridische dienstverlening, belastingen, administratie, zorg, wetenschap en media, mogelijk gemaakt door de meest betrouwbare nieuwsorganisatie ter wereld. Thomson Reuters opereert vanuit New York en heeft grote filialen in Londen en in Eagan (Minnesota). Er werken ongeveer 55.000 mensen in meer dan 100 landen en de jaaromzet in 2010 bedroeg 13,1 miljard dollar.

Explore
TRUSTe
Contact opnemen   |   Kopen   |   Feedback   |   Carrière  |   Nieuwsbrieven   |   Privacybeleid   |   © 2011 NetApp