NetApp Tech OnTap NetApp Logo
NetApp Tech OnTap
     
Case Study: Thomson Reuters

La missione di Thomson Reuters, consiste nel soddisfare le esigenze informative di aziende e professionisti in relazione a numerosi campi. In tal senso, l'IT è un elemento fondamentale di tutte le nostre attività. La base del nostro attuale approccio all'IT risale a oltre 10 anni fa, quando abbiamo iniziato ad avere problemi legati alla stabilità di Westlaw, il nostro servizio di ricerca legale online.

All'epoca, prima dell'esplosione delle aziende su Internet, Westlaw era una piattaforma di precedente generazione e basata su mainframe che stava allontanando dall'azienda importanti sviluppatori software, stanchi di non poter lavorare con le nuove tecnologie disponibili. Mi è stato chiesto di creare una nuova infrastruttura aperta per Westlaw che fosse in grado di supportare altre attività legate alle informazioni. Questa richiesta si rivelò lungimirante: creare un'infrastruttura condivisa attraverso building block standardizzati.

Questa semplice direttiva ha favorito una costante evoluzione dell'IT con il passare degli anni e, di recente, ha contribuito alla creazione di WestlawNext, un innovativo servizio di ricerca legale di nuova generazione. La nostra infrastruttura era in grado di supportare WestlawNext, di evitare un investimento di 65 milioni di dollari per la costruzione di un nuovo data center, di utilizzare il 25% di energia in meno e di offrire una disponibilità 24/7/365. WestlawNext consente di eseguire ricerche su un quantitativo di dati 50 volte superiore (5 miliardi di documenti) rispetto al prodotto di precedente generazione, ottenendo risultati al doppio della velocità.

In questo articolo analizzeremo alcuni fra gli elementi più importanti di questa infrastruttura, come ad esempio i building block, l'architettura base di ricerca e il front end virtualizzato. NetApp e i relativi servizi professionali sono stati partner di valore inestimabile per questo tipo di attività. Nel corso di questo articolo, evidenzieremo i punti in cui il loro contributo è stato di importanza fondamentale.

Infrastruttura IT condivisa per la ricerca

La chiave del successo di WestlawNext e di tutti prodotti Thomson Reuters consiste nella possibilità di eseguire ricerche su enormi quantitativi di dati in maniera molto rapida e con una precisione assoluta. Due persone che eseguono la medesima ricerca nello stesso momento dovranno ottenere esattamente gli stessi risultati.

Grazie ai miglioramenti apportati alle metodologie di ricerca di WestlawNext, gli utenti possono eseguire semplici ricerche in lingua inglese senza "costruire" una query formale. Di conseguenza, una query che, due o tre anni fa, produceva una sola ricerca offre adesso oltre 40 ricerche nel back end. Nonostante ciò, la nostra infrastruttura riesce ancora a scalare per reggere questo carico: qualcosa di assolutamente straordinario. Abbiamo largamente superato i nostri obiettivi iniziali per questo prodotto. Di solito, una ricerca richiede 2,5 secondi per restituire i dati al client.

Gli elementi principali della nostra infrastruttura comprendono:

  • Building block standard
  • Architettura di ricerca in stile cloud
  • Front end Web virtualizzato
  • Replica per il disaster recovery

Building block standard
La nostra infrastruttura è costituita da building block piuttosto standardizzati. I nostri data center contengono circa 25-30.000 server x86, gran parte dei quali è dotata di 2/4 configurazioni CPU ed è supportata dallo storage NetApp®. La nostra infrastruttura di rete è quasi completamente basata su Ethernet a 10 gigabit e sugli switch della famiglia Cisco 6500, Cisco Nexus 5000 e Cisco Nexus 7000. Utilizziamo questi building block sia per le configurazioni di front end che di back end.

I numeri principali di Thomson Reuters
Oltre 25.0000 server
Storage NetApp con Flash Cache
Centinaia di cluster Oracle RAC
Infrastruttura di ricerca Novus basata su Linux per oltre 30 applicazioni
VMware per la virtualizzazione del front-end
Risparmio di 65 milioni di dollari senza dover costruire un nuovo data center
Riduzione del 25% del consumo energetico
Metà del tempo per ricercare un quantitativo di dati 50 volte superiore (5 miliardi di documenti)

 

Figura 1) Risultati rilevanti per WestlawNext e la trasformazione IT di Thomson Reuters

Novus: infrastruttura di ricerca in stile cloud
La nostra architettura Novus, brevettata nel 2006 è il cuore di tutte le operazioni di ricerca. Essa offre una singola piattaforma per il supporto dei servizi online dei quattro gruppi di mercato Thomson, fra cui WestlawNext e Checkpoint®, il nostro sistema di ricerca contabile e fiscale. In tutto, oltre 30 applicazioni utilizzano l'architettura Novus.

Il sistema Novus è un'architettura distribuita di ricerca che utilizza migliaia di server SUSE Linux® che eseguono il nostro software proprietario. Ciascun server di ricerca gestisce una parte dell'indice complessivo dei contenuti, che viene interamente inserito nella memoria server in modo da favorire un accesso molto rapido. Ogni ricerca eseguita viene distribuita simultaneamente su migliaia di macchine. I risultati vengono inviati nuovamente a un controller che provvederà a ordinarli, aggregarli, classificarli e restituirli all'applicazione richiedente. In questo modo, è possibile ottenere performance di ricerca inferiori al secondo.

Quindi, l'applicazione deciderà se estrarre i documenti individuati nella ricerca. Gli archivi di contenuti non vengono consultati prima dell'effettiva richiesta di un documento. I contenuti vengono memorizzati in centinaia di cluster di database Oracle® RAC, generalmente con quattro nodi per cluster. Ciascun cluster contiene un sottoinsieme del contenuto complessivo.

Anche se il termine "cloud" viene interpretato in maniera molto differenziata, Novus offre la tipica flessibilità delle infrastrutture cloud pur essendo un'infrastruttura progettata prima che il termine "cloud" diventasse così diffuso. È possibile riassegnare in tempo reale qualsiasi server dell'ambiente di Novus a una funzione di tipo diverso. Nel progettare il sistema, volevamo che, in caso di picchi, fosse possibile riallocare le risorse in maniera molto rapida, facendo in modo che, ad esempio, un server di database potesse trasformarsi immediatamente in un server di ricerca.

Abbiamo implementato il codice di Novus in tutti i server in modo che uno qualunque di essi potesse eseguire tutte le funzioni necessarie. In questo modo, è sufficiente modificare una semplice impostazione per fare sì che il server A non gestisca più la ricerca ma il carico.

Se WestlawNext viene consultato intensamente, sarà possibile allocare un maggior numero di risorse. Ciò vale anche per Checkpoint e per qualsiasi altra applicazione. Per assumere un nuovo ruolo, non occorre riavviare i server ma semplicemente caricare in memoria gli indici corretti dallo storage NetApp. È possibile assegnare più gruppi di server al medesimo set di indici per aumentare il parallelismo e favorire la scalabilità di Novus.

Questa funzionalità dinamica consente anche di aggiungere ridondanza all'ambiente e garantire la precisione dei risultati. Per ogni evenienza, disponiamo di server in attesa pronti all'uso. Se un server non restituisce un risultato entro pochi millisecondi dopo l'invio di una richiesta, eseguiamo una serie di rapidi test su di esso. Se il server non risponde, lo fa in maniera lenta o mostra qualche altro problema, il suo ruolo verrà automaticamente assunto da un altro server. Quindi, verrà caricato in memoria il corretto indice per eseguire la richiesta.

In questo modo, un server può guastarsi senza influenzare in alcun modo la precisione del risultato per l'utente oppure tralasciare alcuni dati, causando soltanto un ritardo di pochi secondi. L'utente non dovrà ripetere la richiesta e il ripristino avverrà automaticamente senza alcun intervento da parte dell'amministratore. L'utilizzo di Oracle RAC offre la ridondanza necessaria per i contenuti di Novus. In caso di guasto a un server RAC, un altro nodo del cluster si occuperà delle mansioni del server non funzionante. Se un cluster RAC viene sottoposto a un quantitativo molto elevato di richieste, è possibile aggiungere dinamicamente ulteriori nodi per soddisfare le esigenze di carico.

Front end virtualizzato
Per qualunque aspetto relativo al front end, ovvero ogni elemento esterno a Novus, utilizziamo un ambiente più classico, costituito da server Web e applicativi. Oltre ad accedere a Novus per la ricerca, il tier applicativo può utilizzare numerosi elementi non affrontati da questa discussione, ad esempio i database di sicurezza, le informazioni degli utenti, i database di fatturazione, i dati MIS e tutti gli altri elementi necessari per le normali applicazioni.

Gran parte dell'ambiente di front end è stata virtualizzata con VMware®. La maggioranza dei server Web e delle applicazioni viene eseguita su macchine virtuali. VMware consente al front end di ottenere lo stesso tipo di allocazione dinamica delle risorse garantito da Novus. In base alle necessità operative, è possibile definire con precisione il numero di server Web e applicativi per ciascuna applicazione.

VMware consente anche di avvalersi di operazioni continuative. VMware HA protegge dagli errori delle macchine virtuali, mentre vMotion™ consente di eseguire la manutenzione e altre operazioni senza subire downtime e perdite del lavoro in corso, cosa impossibile in precedenza. Prima dell'avvento della virtualizzazione, per eseguire la manutenzione di un server a cui accedevano 100 utenti, le aziende dovevano sospendere l'attività degli utenti, portarli offline e costringerli a eseguire un nuovo accesso. In alternativa era possibile provare a eseguire qualcosa del genere in maniera programmatica, cosa quasi impossibile.

Grazie alla possibilità di spostare le macchine virtuali in esecuzione su un set di server ausiliario, per poi eseguire le attività necessarie sui server originari, con VMware è possibile eseguire la manutenzione anche durante la giornata lavorativa.

Disaster Recovery
Abbiamo già spiegato in che modo abbiamo ottenuto ridondanza nel data center, senza però illustrare il modo in cui il Disaster Recovery ha semplificato ulteriormente le cose. Per le normali operazioni, abbiamo sempre utilizzato due data center con dati identici e un'infrastruttura molto simile. Se uno dei data center in attività venisse colpito da un evento disastroso, l'altro potrebbe scalare in verticale le operazioni per soddisfare il carico aggiuntivo legato alla ricerca.

La replica consente di sincronizzare i nostri data center. Utilizziamo meccanismi proprietari in grado di supportare la replica dei nostri indici di Novus e far sì che siano perfettamente sincronizzati. Gli archivi dei contenuti dei nostri database Oracle RAC vengono replicati con Oracle DataGuard.

La svolta radicale di NetApp

Lo storage NetApp supporta l'architettura di Novus (indici e archivi di contenuti di Oracle RAC) e l'ambiente VMware front end. Lo storage NAS NetApp, a cui è possibile accedere via NFS, contiene tutti gli indici dei nostri server Linux e tutti i contenuti memorizzati negli Oracle RAC. Novus non funzionerebbe senza migliaia di server che condividono l'accesso con i nostri sistemi storage, con la possibilità di cambiare dinamicamente e in tempo reale i server che possono accedere a uno storage specifico. Sin dalla prima implementazione, che risale al 2002, lo storage NetApp ha rappresentato una svolta radicale per noi, restando un elemento critico della nostra attuale soluzione.

Di recente, per supportare i requisiti di scalabilità e performance di WestlawNext, abbiamo apportato alcuni miglioramenti alla nostra infrastruttura. Uno di essi è l'aggiunta di Flash Cache ai principali sistemi NetApp. Nello specifico, abbiamo iniziato a utilizzare tale tecnologia sui sistemi NetApp che gestiscono lo storage di un singolo cluster di Oracle RAC. Spesso questo tipo di cluster richiede una bassa capacità ed elevate performance: Flash Cache offre performance elevate senza aggiungere spindle e sprecare quindi capacità. Abbiamo iniziato a utilizzare Flash Cache anche sui sistemi storage condivisi che offrono indici e altri dati ai nostri client Linux. Secondo i test preliminari, questa scelta dovrebbe avere un impatto altrettanto elevato.

Com'è prevedibile, aggiungiamo continuamente nuovi contenuti, attività che comporta la reindicizzazione e la memorizzazione del nuovo materiale e dei relativi indici con l'obiettivo di mantenere ogni elemento perfettamente sincronizzato. In caso di problemi, potrebbe essere necessario tornare il più velocemente possibile a uno stato precedente. Secondo noi, la tecnologia NetApp SnapRestore® è la soluzione più efficace per questo tipo di attività.

Prima di caricare nuovi contenuti, creiamo una copia snapshot™. Se per un qualsiasi motivo fosse necessario ripristinare uno stato precedente, sarà sufficiente eseguire uno SnapRestore per riportare il nostro storage (in un data center e quindi nell'altro) allo stato che precede l'inizio del caricamento. In alcuni casi, i database potrebbero richiedere una riproduzione dei registri.

Utilizziamo la deduplica NetApp nel nostro ambiente VMware per eliminare la duplicazione causata da numerose macchine virtuali quasi identiche fra loro. Una divisione, da sola, utilizza oltre 9.000 macchine virtuali VMware in esecuzione su storage NetApp: grazie alla deduplica, abbiamo risparmiato oltre 160 TB di spazio storage primario.

Per il nostro ambiente utilizziamo l'intera gamma di prodotti di gestione NetApp OnCommand™, come ad esempio Operations Manager, Provisioning Manager, Performance Manager e OnCommand Insight. In questo modo è possibile utilizzare un solo gruppo di strumenti, compatibile con tutto lo storage NetApp da noi utilizzato, in modo da semplificare la gestione, velocizzare il provisioning e identificare i problemi di performance. OnCommand Insight (ex-NetApp SANscreen®) offre una visualizzazione consolidata del nostro intero ambiente storage eterogeneo, mostrando informazioni su capacità, connettività, configurazioni e performance. Il pacchetto può anche avvisare dei guasti subiti dai componenti, in modo da risolvere i problemi prima che colpiscano anche i componenti ridondanti.

Fare di più con meno

Abbiamo menzionato gli importanti vantaggi di efficienza e scalabilità ottenuti grazie all'implementazione di WestlawNext e degli altri servizi sull'infrastruttura appena descritta. Attraverso la condivisione dell'infrastruttura di back end, abbiamo gestito in maniera efficiente i picchi di domanda delle applicazioni allocando risorse proprio dove occorre, riducendo contemporaneamente al minimo le risorse inattive. La virtualizzazione del front end ha consentito di ridurre il numero di server e la relativa infrastruttura associata. Al momento, siamo riusciti a evitare la costruzione di un altro data center. Le tecnologie storage NetApp, come ad esempio le copie snapshot, SnapRestore, Flash Cache e la suite completa di funzionalità di gestione, hanno ottimizzato l'utilizzo dello storage aiutandoci a eliminare i colli di bottiglia.

Per il successo di Thomson Reuters, l'importanza del rapporto con NetApp è pari a quella della tecnologia prodotta da tale azienda. Fra tutti i fornitori con cui collaboriamo, NetApp è uno dei due partner considerati strategici dal punto di vista tecnologico. NetApp risolve immediatamente qualsiasi problema ed è sempre pronta a supportarci nelle nostre iniziative tecnologiche più importanti, come WestlawNext. Abbiamo collaborato con NetApp per ottimizzare le performance e sfruttare rapidamente le nuove funzionalità storage.

 Avete opinioni da condividere sul case study di Thomson Reuters?

Le Community NetApp online consentono di porre domande, scambiare idee e condividere pensieri.

di Mark Bluhm, Senior VP e CTO, Shared Services, Thomson Reuters Professional Division

Mark Bluhm è Senior Vice President e Chief Technology Officer di Shared Services e si occupa della supervisione delle operazioni e della strategia del data center per la Professional Division di Thomson Reuters.

Mark vanta oltre 19 anni di esperienza presso la società; ha iniziato in West nel 1991 come Software Engineer. Da allora, Mark ha svolto diversi ruoli di leadership nel campo della tecnologia, fra cui Chief Architect per Thomson Legal & Regulatory. Mark è uno dei principali inventori della tecnologia Novus ed è il principale detentore di brevetto per questa soluzione enterprise di proprietà di TRGR. In seguito all'acquisizione di Reuters da parte di Thomson nel 2008, Mark è stato coinvolto nella fusione delle infrastrutture delle due società. Di recente ha svolto il ruolo di Chief Technology Officer di Client Development Technology, Legal.

Mark ha conseguito la laurea e un master in matematica e informatica presso l'University of South Dakota, oltre al dottorato in informatica presso la Washington University.


Tech OnTap
Abbonatevi subito
Tech OnTap offre approfondimenti IT mensili e un accesso esclusivo a best practice, derivate da esperienze pratiche, suggerimenti, interviste "dietro le quinte" con gli esperti, dimostrazioni, recensioni dei colleghi e molto, molto altro ancora.

Visitate il sito www.netapp.com/it/communities/tech-ontap/ e iscrivetevi subito.

Explore
Explore
Informazioni su Thomson Reuters

Thomson Reuters è leader mondiale nella fornitura di informazioni intelligenti ad aziende e professionisti. La società unisce la competenza del settore con le tecnologie innovative per offrire informazioni di importanza fondamentale ai decision maker del settore finanziario, legale, fiscale, contabile, scientifico, sanitario e multimediale, attraverso il contributo di una delle organizzazioni più affidabili al mondo. Con sede a New York e importanti uffici a Londra, nel Regno Unito, e ad Eagan, nel Minnesota, in USA, Thomson Reuters vanta circa 55.000 dipendenti distribuiti in oltre 100 paesi ed entrate pari a 13,1 miliardi di dollari (al 2010).

Explore
TRUSTe
Contatti   |   Come acquistare   |   Commenti   |   Opportunità di lavoro  |   Sottoscrizioni   |   Informativa sulla privacy   |   © 2011 NetApp