NetApp Tech OnTap NetApp Logo
NetApp Tech OnTap
     
ユーザ事例:Thomson Reuters

Thomson Reuters の使命は、幅広い分野の企業や専門家が必要とする情報を提供し、そのニーズを満たすことにあります。そのため、情報テクノロジは当社のすべての事業で非常に重要な役割を果たします。ITに対する当社の現在のアプローチは、オンライン法律情報検索サービスであるWestlawの今後の課題が見え始めた10年以上前に生まれました。

IT業界の不況が始まる前の当時、Westlawは従来型のメインフレームベースのプラットフォームだったため、最新のテクノロジを扱う仕事をしたいという優秀なソフトウェアエンジニアが社を去ろうとしている状況でした。Westlaw向けのオープンインフラを新しく開発し、そのインフラで当社のその他の情報ビジネスもサポートできるようにすることが私の職務でした。そこでたどり着いたのが、標準化されたビルディングブロックを使用して共有インフラを構築するという先進的なアイディアです。

当社は、このシンプルな方針に基づき、長い年月をかけて着実にITを進化させ、ごく最近、まったく新しい次世代の法律情報検索サービスであるWestlawNextをリリースし、成功を収めました。新しいインフラによりWestlawNextのサポートが強化されただけでなく、新しいデータセンターの新設にかかる約6,500万ドルの支出の回避、消費電力の25%削減、24時間365日体制の可用性が実現しました。WestlawNextは、旧世代のサービスに比べて、50倍多くのデータ(50億件のドキュメント)を2倍の速さで検索します。

本稿では、ビルディングブロック、コアとなる検索アーキテクチャ、仮想フロントエンドなど、このインフラの重要な構成要素をいくつか説明します。また、この取り組みの成功が多くを負っているネットアップとNetAppプロフェッショナル・サービスの優れたサポートについても取り上げます。

共有ITインフラを利用した検索サービス

WestlawNextをはじめとするすべてのThomson Reuters製品の成功には、大量のデータの検索を高速かつ正確に実行する機能が欠かせません。2人のユーザが同じ条件で同時に検索を実行した場合、検索結果はまったく同じである必要があります。

検索方法が強化されたWestlawNextでは、必要な情報を一般的な言葉で検索することができます。正式なクエリを作成する方法をユーザが把握している必要はありません。そのため、2~3年前は1つのクエリで1回の検索しか実行できませんでしたが、現在では40以上の検索がバックエンドで実行されます。拡張が可能な当社のインフラは、この負荷にも対応できる素晴らしい性能を備えています。これは、当社が当初目標としていた性能をはるかに超えるものです。一般的な検索では、わずか2.5秒で結果がクライアントに返されます。

当社のインフラの主要な構成要素は以下の通りです。

  • 標準化されたビルディングブロック
  • クラウドベースの検索アーキテクチャ
  • 仮想Webフロントエンド
  • レプリケーションによるディザスタリカバリ

標準化されたビルディングブロック
当社のインフラは、高度に標準化されたビルディングブロックで構成されています。データセンターには2個または4個のCPUが搭載された25,000~30,000台のx86サーバがあり、NetApp®ストレージがサポートしています。ほぼすべてのネットワークインフラに10ギガビットイーサネットを採用し、Cisco 6500とCisco Nexus 5000 / 7000ファミリースイッチで対応しています。当社では、このビルディングブロックをフロントエンド構成とバックエンド構成の両方で使用しています。

Thomson Reutersの主要なメトリクス
25万台以上のサーバ
Flash Cacheを実装したネットアップストレージ
数百のOracle RACクラスタ
30以上のアプリケーションのニーズに応える、Linux上に構築されたNovusの検索インフラ
フロントエンドシステムを仮想化するVMware
新たなデータセンターのコストを6億5千万ドル回避
消費電力を25%削減
これまでの半分の時間で50倍のデータを検索

 

図1) WestlawNextとThomson ReutersのIT変革における目覚しい成果

Novus:クラウドベースの検索インフラ
2006年に特許を取得した Novusアーキテクチャは[2]、当社の検索処理の基盤です。Novusアーキテクチャは、単一のプラットフォームで、WestlawNext、Checkpoint®、税務会計情報検索システムなど、Thomsonが提供する4つの製品グループのオンラインサービスをサポートしています。Novusアーキテクチャを使用しているアプリケーションは、合計で30以上に及びます。

分散型検索アーキテクチャであるNovusシステムでは、当社独自のソフトウェアを実行する数千台のSUSE Linux®サーバを使用します。各検索サーバがコンテンツのインデックス作成を行い、インデックスはサーバメモリに配置されるため、高速でのアクセスが可能です。検索は数千台のマシンで同時に実行され、検索結果はコントローラに返されます。コントローラは、検索結果のソート、集計、ランク付けを行い、検索を要求したアプリケーションにその情報を送信します。この方法により、サブ秒という検索パフォーマンスが実現します。

その後、検索で特定されたドキュメントを取得するかどうかをアプリケーションが判断します。コンテンツストアは、ドキュメントが要求されるまで参照されません。コンテンツは、数百ものOracle® RACデータベースクラスタ(通常、クラスタ当たり4ノード)を使用して保存されます。各クラスタはコンテンツ全体のサブセットを保持します。

「クラウド」という用語にはさまざまな解釈があると思います。Novusが設計されたのはクラウドという用語が一般化する前のことですが、このインフラはクラウドインフラの特長でもある柔軟性を実現する設計となっています。Novus環境にあるすべてのサーバは、別の機能を実行するためにリアルタイムに再割り当てができます。Novusの設計目標は、ピーク時にリソースを素早く再割り当てし、5分前にデータベースサーバとして稼働していたサーバを検索サーバとして使用できるようにすることでした。

Novusにコードを導入する際は、すべてのコードを全サーバのすべての機能に割り当てます。そうすることで、簡単な設定を変更し、「検索サーバとして稼働していたサーバAをロードサーバとして使用する」という指示を出すだけで、再割り当てが可能になります。

WestlawNextの負荷が高まれば、WestlawNextに多くのリソースを割り当てることができ、Checkpointやその他のアプリケーションがリソースを必要としていれば、そのアプリケーションにリソースを割り当てることができます。ネットアップストレージからメモリに適切なインデックスをロードするだけで、サーバを新しい役割で使用することができます。サーバをリブートする必要はありません。複数のサーバを同じインデックスセットに割り当てることができるため、並列処理能力を高め、Novusの拡張性を維持できます。

この動的な機能により、環境の冗長化も可能となり、検索結果の正確性を確保できます。当社には、アイドル状態の代替サーバが常に用意されています。検索要求を送信してからサーバが検索結果を送信するまでの時間が数ミリ秒以上かかると、いくつかのテストが迅速にそのサーバで実行されます。サーバからの応答がない、応答が遅い、またはその他の問題があることが判明した場合には、別のサーバが自動的に割り当てられ、その役割を引き継ぎ、 適切なインデックスをメモリにロードして、要求に応答します。

つまり、サーバに障害が発生しても、ユーザは不足のない正確な検索結果をわずか数秒の遅延のみで得ることができます。リカバリは自動的に実行されるため、ユーザが要求を再送信したり、管理者が介入したりする必要はありません。Novusのコンテンツについては、Oracle RACを使用することで冗長性を確保しています。RACサーバに障害が発生すると、クラスタ内の別のノードがその機能を実行します。RACクラスタの負荷が高まった場合には、ノードを動的に追加して負荷に対応することができます。

仮想フロントエンド
フロントエンド(Novus以外のすべて)には、Webサーバやさまざまなアプリケーションサーバなどで構成されるより一般的な環境を使用しています。アプリケーション層は、検索のためにNovusにアクセスする以外にも、本稿では取り上げていないさまざまなリソース(セキュリティ・データベース、ユーザ情報、課金データベース、MISデータなど一般的なアプリケーションに必要となるすべての情報)にアクセスします。

フロントエンド環境の大部分はVMware®で仮想化されています。Webサーバやアプリケーションサーバの大半が、仮想マシン上で稼働しています。VMwareによる仮想化で、Novusと同様の動的なリソース割り当てがフロントエンドでも可能になります。そのため、各アプリケーションのWebサーバとアプリケーションサーバの数を必要に応じて細かく調整できます。

VMwareを採用することで、常時稼働も達成できました。VMware HAは仮想マシンを障害から保護します。また、vMotion™により、システムを停止したり、実行中の作業に影響を及ぼしたりすることなく、メンテナンスやその他の作業が実行できます。これは当社ではこれまで実現できなかったことです。どの企業も同様の経験をされているかと思いますが、仮想化を導入する前は、メンテナンスが必要なサーバ上にユーザが100人いる場合、ユーザの作業を停止してオフラインにし、再度サインインしてもらう必要がありました。魔法のようなプログラムがあればよいのですが、その実現はほぼ不可能でした。

VMwareにより、仮想マシンを代替サーバに移動して稼働させるだけで、元のサーバで必要なメンテナンス作業を実行できるため、必要に応じて営業時間中でもメンテナンスが行えるようになりました。

ディザスタリカバリ
データセンター内の冗長化についてはすでに説明いたしましたが、前述の項では触れていないディザスタリカバリ(災害復旧)についてここで取り上げます。通常の運用では、類似したインフラと同一のデータを備えた2つのデータセンターを常に稼働させています。災害により稼働中の1つのデータセンターが停止した場合、稼働しているもう1つのデータセンターの運用を拡張し、検索負荷の増大に対応します。

データセンターは、レプリケーションによって同期しています。当社が独自に開発したレプリケーション・メカニズムを使用して、Novusのインデックスのレプリケーションに対応し、データセンターを確実かつ完全に同期しています。Oracle RACデータベースのコンテンツストアは、Oracle DataGuardを使用してレプリケートされます。

画期的な変化をもたらすネットアップテクノロジ

ネットアップストレージが、Novusアーキテクチャ(インデックス、Oracle RACコンテンツストア)とフロントエンドのVMware環境をサポートしています。Linuxサーバから取得されるすべてのインデックスとOracle RACに格納されたすべてのコンテンツは、NFS経由でアクセスされるネットアップNASストレージで保持されます。どのサーバがどのストレージにアクセスするかをオンザフライで動的に変更する機能によって、数千台のサーバが同時にストレージシステムにアクセスすることができなければ、Novusは機能しません。当社が初めてネットアップストレージを導入したのは2002年のことです。当時、当社に画期的な変化をもたらしたネットアップストレージは、現在も当社のソリューションの中で重要な役割を果たしています。

今回、WestlawNextの拡張要件とパフォーマンス要件を満たすためのインフラ強化の一貫として、主要なネットアップシステムにFlash Cacheを導入しました。具体的には、単一のOracle RACクラスタ用ストレージとして使用しているネットアップシステムで、この機能の使用を開始しました。このようなクラスタ構成は、多くの容量は必要とせず、高いパフォーマンスが必要なことが多いため、Flash Cacheを使用することで、必要なパフォーマンスを得るためにスピンドルを追加して、容量を無駄にすることなく、優れたパフォーマンスを維持できます。また、インデックスやその他のデータをLinuxクライアントに提供する共有ストレージシステムにもFlash Cacheを導入しました。事前に行ったテストの結果から、共有ストレージシステムでも同じように大きな効果が出ると考えています。

当社では常時新しいコンテンツを追加しているため、再インデックス化して新しいコンテンツと関連するインデックスを提供しながら、常にすべてを同期しています。問題が発生した場合には、可能な限り迅速に以前の状態にロールバックする必要があります。NetApp SnapRestore®テクノロジは、この課題の克服に最適なソリューションです。

コンテンツをロードする前に、Snapshot™コピーを作成します。何らかの理由でロールバックが必要になった場合、SnapRestore操作を実行して、コンテンツのロードを開始する前の状態にストレージを戻します。操作はデータセンターごとに実行します(データベースの場合、ログの再生が必要な場合があります)。

VMware環境では、ほぼ同一の仮想マシンが多数存在することにより発生する重複データを排除するため、ネットアップの重複排除機能を使用しています。ネットアップストレージ上で稼働するVMware仮想マシンは、1つの部門だけでも9,000台を超えるため、重複排除機能を使用することでプライマリストレージ上で160 TB以上のスペースを削減できました。

環境の管理には、NetApp OnCommand™管理製品の全コンポーネント(Operations Manager、Provisioning Manager、Performance Manager、OnCommand Insightなど)を使用しています。単一のツールセットですべてのネットアップストレージを管理できるこのソフトウェアにより、管理の簡易化、プロビジョニングの高速化、パフォーマンスの問題の特定が可能となりました。OnCommand Insight(旧NetApp SANscreen®)を使用すると、異機種が混在するストレージ環境全体を、容量、接続性、構成、パフォーマンスといった項目ごとに一括して表示できます。また、コンポーネントに障害が発生した場合に警告が送信されるため、冗長化されたコンポーネントに二次障害が発生する前に問題を解決することができます。

少ないコストで多くを実現

上述したインフラを使用してWestlawNextやその他のサービスを実装することにより、効率性と拡張性の面で大きなメリットを得ることができました。バックエンドでインフラを共有することで、リソースを必要なアプリケーションに割り当て、未使用のリソースを最小限に抑えることができるため、さまざまなアプリケーションのピーク時の負荷に効率的に対応することができます。また、フロントエンドの仮想化は、サーバ数と関連するその他のフロントエンドインフラの削減につながりました。これらの取り組みによりデータセンターを増設する必要がなくなり、 さらに、Snapshotコピー、SnapRestore、Flash Cache、一連の管理機能といったネットアップのストレージテクノロジにより、ストレージ利用率の最適化とボトルネックの解消が実現しました。

ネットアップとの協力関係は、同社が提供するテクノロジと同様にThomson Reutersの成功にとって重要です。当社が協力を得ているベンダーの中で、技術上の戦略パートナーと呼べるのは2社だけであり、ネットアップはその1社です。ネットアップは、問題が発生してもすぐに解決してくれますし、WestlawNextのように重要なテクノロジ開発の取り組みでも、常にサポート体制を整えて対応してくれます。また、ネットアップとの緊密な協力の下でパフォーマンスの最適化が行えたため、新しいストレージ機能をすぐに活用することができました。

 Thomson Reutersのユーザ事例に関するご意見をお寄せください。

ご質問、意見交換、情報提供は、ネットアップのコミュニティサイトまでお願いいたします。

Mark Bluhm氏 , Thomson Reutersプロフェッショナル部門, 共有サービス担当シニアVP兼CTO

Mark Bluhm氏は、Thomson Reuters社のプロフェッショナル部門において共有サービスを担当するシニア・バイス・プレジデント兼最高技術責任者として、データセンターの運用と戦略の監督に当たっています。

同社には1991年、旧West社にソフトウェアエンジニアとして入社して以来19年以上在職しています。 今日まで、旧Thomson Legal & Regulatoryのチーフアーキテクトを務めるなど、さまざまなテクノロジでリーダー職を担当してきました。 実際Novusテクノロジの開発では中心的人物として活躍し、Thomson Reuters Global Resources(TRGR)が所有するエンタープライズ・ソリューションの主要な特許権者です。 2008年、Thomson社によるReutersの買収後は、2社のインフラ統合に携わりました。 最近まで、Thomson Reuters Legalのクライアント開発テクノロジ部門で最高技術責任者を務めていました。

サウスダコタ大学では数学とコンピュータサイエンスで学士と修士を、またワシントン大学ではコンピュータサイエンスで修士を取得しています。


Explore
Explore
Thomson Reutersについて

Thomson Reuters は、ビジネス / 専門家向けの高度な情報を提供する世界的なリーディングカンパニーです。世界トップクラスの信頼性を誇る情報配信企業として、産業に関する高度な専門知識と先端技術を融合し、金融、法律、税務会計、科学、医療、メディア分野の意思決定者向けに、重要な情報を提供しています。ニューヨークに本社を置き、イギリスのロンドンとミネソタ州イーガンに主要拠点を持つ同社は、世界100カ国以上の国々に約55,000人の従業員を擁しており、2010年の申告事業収益は131億ドルでした。

Explore
TRUSTe
お問い合わせ   |   購入方法   |   フィードバック   |   採用情報  |   登録   |   プライバシーポリシー   |   © 2011 NetApp