非構造化データとは – 定義と意味

トピック

このページを共有

現代のビッグデータ社会では、非構造化データが最も大量に存在します。その理由は、メディア、画像、音声、センサーデータ、テキストデータなど、あらゆるものが非構造化データであり得るからです。非構造化とは単純に、構造化データベース形式で格納されていないデータセット（一般的な大量のファイル）のことを指します。非構造化データには内部構造がありますが、データモデルによって事前定義されたものではありません。人間が生成したものや、テキスト形式または非テキスト形式で機械により生成されたものになります。

非構造化データと構造化データの違い

非構造化データは、たとえばリレーショナルデータベース管理システム（RDBMS）に存在しないデータのように、トランザクションシステムでアクティブに管理されていないデータと考えることができます。構造化データは、たとえばSQLデータベースのテーブルの行など、データベース環境にあるレコード（またはトランザクション）と考えることができます。

データが構造化と非構造化のどちらであるかを特に気にする必要はありません。どちらのデータの場合も、ユーザはツールを使用して情報にアクセスできます。非構造化データは、構造化データよりもはるかに大量に存在します。

非構造化データには、たとえば次のようなものがあります。

リッチメディア：メディアおよびエンターテイメントデータ、監視データ、地理空間データ、音声、気象データ
ドキュメント収集：請求書、記録、Eメール、生産性アプリケーション
モノのインターネット（IoT）：センサーデータ、ティッカーデータ
分析：機械学習、人工知能（AI）

オブジェクトベースストレージが登場するまで、これらの非構造化データのほとんどは、ファイルベースのシステムに格納されていました。

非構造化データの使用により生じる課題

非構造化データの課題に取り組むには、まず、非構造化データを管理するための従来のアプローチでは、企業はどのような課題に直面しているかを考えてみる必要があります。

拡張性

多くの企業では一般的に、数百億もしくは数千億規模の非構造化データセットが扱われています。これらのアイテム、オブジェクト、またはファイルは、生産ライン機器からの温度読み取りのような数バイトのデータから、フル解像度8Kの映画のような数テラバイトのデータまで、あらゆるサイズがあります。従来のファイルアプローチでこの規模のデータを管理するには、サーバ、ファイルシステム、アレイなどの「バランス」を維持するだけで多くのリソースが必要となるため、困難を通り越してむしろ不可能といえます。

コラボレーション

これらの大規模な非構造化データセットは、共有できるようになったことでその価値がさらに高まっています（たとえば、ゲノム配列の巨大な共通データバンクは、複数の病院にわたって研究者達に共有されています）。従来のアプローチでは、大量の非構造化データを地域や企業内の部門にわたって共有するためには、レプリケーションやガバナンスに膨大なコストが必要でした。

Object Storage: Data Management of Unstructured Data at Extreme Scale

ダウンロード

オブジェクトストレージを使用した課題の克服

今日のオブジェクトストレージソリューションは、地理的に分散されたアクティブなネームスペースを提供することで、拡張とコラボレーションの課題に対応します。アクティブなネームスペースを使用すれば、ユーザはどこからでも簡単なgetコマンドを使用して、任意の場所にあるオブジェクトやファイルを取得することができます（データセンター、サーバ、ファイルシステム、またはディレクタを指定する必要はありません）。同様に、putコマンドを使用してデータを取り込むことで、どこからでも簡単にデータへアクセスすることができます。

単一のグローバルネームスペースが備えるシンプルさと拡張性に、Amazon S3やSwiftなどのシンプルなステートレスデータ管理プロトコルを組み合わせることで、地域、組織、またはアプリケーション間の境界を越えて、拡張性に優れたコラボレーション環境を実現できます。

NetAppとオブジェクトストレージ

NetApp^® StorageGRID^®テクノロジを使用して大規模な非構造化データを保存、管理すれば、プライベートクラウドおよびパブリッククラウド向けのセキュアで耐久性のあるオブジェクトストレージを実現できます。StorageGRIDなら、大規模な（マルチロケーション）グローバルネームスペースを構築して、独自の情報ライフサイクルポリシーをそのデータに統合することもできます。StorageGRIDの統合ポリシーエンジンを使用すれば、データの可用性も以下のとおり実現されます。

あらゆる場所からアクセス
最適なパフォーマンスレベル
最適なレベルの耐久性と保護
ビジネスニーズの進化に応じて、適切なタイミングで自動的に変化