令和 4 年度　第 1 次試験問題経営情報システム第四問　解答と解説

解答

２．

解説

データレイクに関しての問題です。問題にもありますが、データをどのように持つのかというデータの構造上の話です。ITではデータをどのように貯めて、どのように引きだすのか、フィルタ、ソーティング、検索条件など、その用途や要件に応じて、データの格納手段を検討する必要があります。

また、昨今ではそのビッグデータと呼ばれる膨大なデータを統計的に分析、活用するサービスが多く普及してきています。このようなビッグデータをどのようなデータ構造を構成するのかは、サービス展開する際に重要な要素となります。

ではまず、このような分析・活用の観点からデータベースの種別を考えてみます。主に以下の３つを覚えておけばよいでしょう。

データウェアハウス：
ある決まった分析や、活用方法に従って、基幹系システムから収集してきた生データを加工して、定型的な形式にて保管します。最大の構造上の特徴として、時系列な構造で網羅的にデータを保管できる点です。データウェアハウスで集められたデータは主に分析系システムと連携し、データの解析・分析結果を利用するサービスが提供されます。
データマート：
データマートは、データウェアハウスのような網羅的なデータベースから、必要な情報だけを抽出して加工し、活用する仕組みのデータベースです。データウェアハウスとの違いは、必要分のみを扱うことにより、必要情報の抽出が容易で高速である点になります。
データレイク：
データレイクの特徴は、データウェアハウスやデータマートのデータベースのような、加工された数値データや文字列データのようなデータではなく、生のデータをそのまま加工せずに格納されます。ドキュメント、画像、音声というような、メディアデータをなども扱うことができることが特徴です。特に昨今のAmazonやAzureなどのクラウドサービスと親和性が良く、サービスが展開されています。

では、問題文を見ていきましょう。

１．組織内で運用される複数のリレーショナルデータベースからデータを集めて格納する。

基幹システムと連携して、データを網羅的に集めてくるのは、データウェアハウスの説明です。よって、誤りです。

２．組織内の構造化されたデータや、IoT 機器や SNS などからの構造化されていないデータをそのままの形式で格納する。

そのままの生データを扱えるのは、まさにデータレイクの特徴になります。これが正解になります。

３．データウェアハウスから特定の用途に必要なデータを抽出し、キー・バリュー型の形式で格納する。

データウェアハウスから、特定データを抽出して、格納するのはデータマートでしたね。誤りです。

４．データ利用や分析に適したスキーマをあらかじめ定義して、その形式にしたがってデータを格納する。

形式に従ってデータを格納するのは、データウェアハウスやデータマートなどRDBの特徴と言えます。データレイクとは関係ありません。よって、誤りです。

５．テキスト形式のデータと画像・音声・動画などのバイナリ形式のデータをそれぞれ加工し、構造化したうえで格納する。

加工せずにそのままの生データで保管するのがデータレイクです。誤りです。

よって、２が正解です。