データを一元化しビジネスの成長を促進する「データレイク」とは何か

データを一元化しビジネスの成長を促進する「データレイク」とは何か

日々増え続けるデータをどう蓄積し、業務に活かしていけばよいのか? ビッグデータ時代を迎えた今、そんな悩みを持つ企業は少なくありません。適切な方法で蓄積・分析できれば有効に活用できるデータでも、使いにくい状況にあるがために、活かしきれていないケースもあるでしょう。そこで今回は、データ管理のヒントとなりえる、「データレイク」の概要とメリット・デメリットについて解説します。

データレイクとは?

データレイク(Data Lake)とは、規模の大小を問わず、あらゆる構造化データ(HTMLで書かれた情報が、どういった情報か理解できるようタグ付けしたもの)、および非構造化データ(写真、動画、音声など)を保存することが可能な保管場所のことです。

これまで企業でのデータ蓄積によく適用されてきたのは、統合データベースである「データウエアハウス」でした。しかし、データウエアハウスではデータが目的別に再構成されたり、蓄積するデータがあらかじめ絞られていたりします。そのため、いざ何かの分析をしようとしたときに、必要なデータが見つからない場合もありました。そこで、あらゆるデータを貯めておける「湖(レイク)」のような場所をつくるという「データレイク構想」が注目されるようになったのです。すなわち、目的の定まっていない情報も含め、さまざまなデータをまずはひとつの保管場所「データレイク」に蓄積し、そのなかから必要なデータをその都度取り出そうという発想です。

データウエアハウス、データマートとの違い

データ蓄積関連では、前述の「データウエアハウス」のほか、「データマート」を使用する企業もあります。これらにはどのような違いがあるのでしょうか。それぞれの特徴を簡単に説明します。

  • データウエアハウス
    複数のシステムから必要なデータを取り出し、目的別に再構成したうえで時系列に保管した統合データベース。
  • データマート
    データウエアハウスに蓄積されたデータのなかから、それを利用する部門や目的などに応じて必要なものだけを取り出し、利用しやすい形にして格納したデータベース。
  • データレイク
    データウエアハウスやデータマートと異なり、事前にデータの構造などを設計したり、目的を決めたりする必要がない。用途が決定していないデータも取り込んでおくことができる。

前者ふたつとデータレイクの大きな違いは、蓄積するデータがあらかじめ絞られているかどうかという点です。データウエアハウスやデータマートでは、必要なデータをあらかじめ絞って蓄積し、使用目的も定めておきます。一方、データレイクでは、業務で必要になるかどうかわからないデータもとりあえず蓄積することができるのです。

データウエアハウス、データレイクのメリット・デメリットと活用方法

これまで、データレイクとほかのデータベースとを比べ、データ蓄積・管理方式の違いを見てきました。ここからは主にデータウエアハウスとの違いに注目し、それぞれのメリット・デメリットと活用方法を見てみましょう。

データウエアハウスのメリット・デメリットと活用方法

  • メリット
  1. データが最初から構造化されているため、効率的に分析できる。
  2. メモリなどの消費を抑えられる。
  3. 時間軸に沿ってデータがどう変化したかを読み取れる。
  • デメリット
  1. 扱うデータがあらかじめ決まっているので、後から思いついた分析ができないことがある。
  2. インデックスを作成するため、そのデータの肥大化によってデータベースの速度が落ちることもある。
  • 活用方法

顧客ニーズの分析などに使用できる。データを蓄積する際に設定をあらかじめ行えば、データ統合を後から行わずにすむので、効率的に分析することが可能。

データレイクのメリット・デメリットと活用方法

  • メリット
  1. データを元の形式のまま貯められるので、蓄積が簡単。
  2. 多種多様なデータを一元管理できる。
  3. IT専門職ではない社員でも、データを活用しやすい。
  • デメリット

「とりあえず入れ込んだ」データも含まれるため、データを探すのに時間がかかる場合がある。すなわち、「データスワンプ」の状態になる(その場合、データにタイトルや概要を記した「データカタログ」などが必要になる)。

  • 活用方法

後から新たに思いついた分析を行うのに便利。あらゆるデータが蓄積されているので、必要なデータがそこにある可能性が大きい。

データレイクのデメリットを補う方法でデータを管理

データレイクにはメリットもありますが、デメリットもあります。データカタログの利用や、データウエアハウスとの連携など、デメリットを補える可能性を探り、有用なデータを効率的に利用できるようにしましょう。

 

参考:

関連記事