非構造化データ vs.構造化データ
非構造化データは、トランザクションシステムでアクティブに管理されていないデータと考えることができます。たとえば、リレーショナルデータベース管理システム (RDBMS) に存在しないデータなどです。構造化データは、データベース環境ではレコード(またはトランザクション)と考えることができます。たとえば、 SQL データベースのテーブルの行などです。
データが構造化されているか非構造化されているかを判断する必要はありません。どちらにも、ユーザが情報にアクセスできるツールがあります。構造化されていないデータは、構造化されたデータよりも大量に存在することになります。
非構造化データには次のようなものがあります。
オブジェクトベースストレージの登場までは、ほとんどの非構造化データがファイルベースシステムに格納されていました。
非構造化データの処理にはどのような課題がありますか?
非構造化データの課題に対処する方法を考えるには、次のように質問してください。企業が非構造化データを管理する従来のアプローチに直面していることは何ですか。
拡張性
多くの企業では、構造化されていないデータセットを数十億個から数百億個のアイテムの規模で扱うのが一般的です。これらのアイテム、オブジェクト、またはファイルは、数バイトから数テラバイト(例えば、製造ライン機器からの温度の読み取り)まで、サイズがテラバイト(例えば、全長 8K の解像度モーションピクチャ)まで、あらゆるものにすることができます。従来のファイル・アプローチでは ' サーバ ' ファイル・システム ' アレイなどのバランスを維持するだけで ' より多くのリソースが必要になるため ' この拡張性を迅速に管理することは困難から不可能になります
コラボレーション
こうした大規模な非構造化データセットは、共有するにつれて価値を提供する傾向が高まっています(たとえば、大規模なゲノム配列のバンクを共有している複数の病院の研究者など)。従来のアプローチでは、地域や企業などを問わず大量の非構造化データを共有できるため、レプリケーションとガバナンスに非常にコストがかかります。
オブジェクトストレージを使用してこれらの課題を克服する
今日 オブジェクトストレージソリューションは、地理的に分散されたアクティブなネームスペースを提供することで、拡張とコラボレーションの課題を解決します。このネームスペースを使用すると、任意の場所にいるユーザが、単純な get コマンドを使用して任意の場所からオブジェクトまたはファイルを取得できます(データセンター、サーバ、ファイルシステム、またはディレクタを指定する必要はありません)。同様に、 PUT コマンドでもデータを取り込み、すべての場所から簡単にアクセスできるようにします。
単一のグローバルネームスペースの簡易性と拡張性にシンプルなステートレスデータ管理プロトコル( Amazon S3 、 Swift など)を組み合わせて使用することで、組織は地理、組織、アプリケーションの境界を越えて、拡張性に優れたコラボレーション環境を提供できます。
ネットアップとオブジェクトストレージ
NetApp ® StorageGRID ® テクノロジを使用して、プライベートクラウドとパブリッククラウド向けにセキュアでデータ保持性に優れたオブジェクトストレージを構築することで、大規模な非構造化データを格納、管理できます。StorageGRID を使用すると、大規模な(マルチロケーション)単一のネームスペースを構築し、そのデータに独自の情報ライフサイクルポリシーを統合することもできます。StorageGRID の統合ポリシーエンジンを使用すると、以下の各項目のデータの可用性が実現できます。
- 適切な地理的拠点
- 適切なレベルのパフォーマンス
- 適切なレベルの耐久性と保護
- 適切なタイミングで自動的に変化するビジネスニーズの進化