2.
データレイクに関しての問題です。問題にもありますが、データをどのように持つのかというデータの構造上の話です。ITではデータをどのように貯めて、どのように引きだすのか、フィルタ、ソーティング、検索条件など、その用途や要件に応じて、データの格納手段を検討する必要があります。
また、昨今ではそのビッグデータと呼ばれる膨大なデータを統計的に分析、活用するサービスが多く普及してきています。このようなビッグデータをどのようなデータ構造を構成するのかは、サービス展開する際に重要な要素となります。
ではまず、このような分析・活用の観点からデータベースの種別を考えてみます。主に以下の3つを覚えておけばよいでしょう。
- データウェアハウス:
ある決まった分析や、活用方法に従って、基幹系システムから収集してきた生データを加工して、定型的な形式にて保管します。最大の構造上の特徴として、時系列な構造で網羅的にデータを保管できる点です。データウェアハウスで集められたデータは主に分析系システムと連携し、データの解析・分析結果を利用するサービスが提供されます。 - データマート:
データマートは、データウェアハウスのような網羅的なデータベースから、必要な情報だけを抽出して加工し、活用する仕組みのデータベースです。データウェアハウスとの違いは、必要分のみを扱うことにより、必要情報の抽出が容易で高速である点になります。 - データレイク:
データレイクの特徴は、データウェアハウスやデータマートのデータベースのような、加工された数値データや文字列データのようなデータではなく、生のデータをそのまま加工せずに格納されます。ドキュメント、画像、音声というような、メディアデータをなども扱うことができることが特徴です。特に昨今のAmazonやAzureなどのクラウドサービスと親和性が良く、サービスが展開されています。
では、問題文を見ていきましょう。
1.組織内で運用される複数のリレーショナルデータベースからデータを集めて格納する。
基幹システムと連携して、データを網羅的に集めてくるのは、データウェアハウスの説明です。よって、誤りです。
2.組織内の構造化されたデータや、IoT 機器や SNS などからの構造化されていないデータをそのままの形式で格納する。
そのままの生データを扱えるのは、まさにデータレイクの特徴になります。これが正解になります。
3.データウェアハウスから特定の用途に必要なデータを抽出し、キー・バリュー型の形式で格納する。
データウェアハウスから、特定データを抽出して、格納するのはデータマートでしたね。誤りです。
4.データ利用や分析に適したスキーマをあらかじめ定義して、その形式にしたがってデータを格納する。
形式に従ってデータを格納するのは、データウェアハウスやデータマートなどRDBの特徴と言えます。データレイクとは関係ありません。よって、誤りです。
5.テキスト形式のデータと画像・音声・動画などのバイナリ形式のデータをそれぞれ加工し、構造化したうえで格納する。
加工せずにそのままの生データで保管するのがデータレイクです。誤りです。
よって、2が正解です。