データレイクとは?データウェアハウスやデータマートとの違い、構築のポイントを解説
目次
この記事を読んだ人がよくダウンロードしている資料
データレイクとは?
データレイクは複数のシステムからデータを収集し、一元的に保存しておくデータベースのことです。
組織内の様々なシステムからあらゆる形式のデータを収集し保存します。顧客管理システムや在庫管理システムなど様々なデータを一元的に管理することで、社内横断的なデータ活用を実現します。
データレイクの大きな特徴は、収集したデータを編集、加工せずにそのまま保存するという点です。データをそのまま保存しておくことで、必要に応じてデータを変換し様々なデータ分析、データ活用のニーズに対応することができます。
データウェアハウスとの違い
データレイクの役割を理解するうえで重要なのが、似た役割を果たすデータウェアハウスとの違いです。
データウェアハウスとは
データウェアハウス はデータレイクと同じく、複数のシステムからデータを収集し保存しておくデータベースのことです。
データウェアハウスでは、収集したデータを加工、整理したうえで保存します。そうすることで効率よくデータの分析、活用を行うことができます。
データレイクとデータウェアハウスの違い
データレイクとデータウェアハウスの大きな違いは、データを「そのまま保存するか」、「加工、整理して保存するか」という点です。
データレイクでは、現時点で必要かどうかにかかわらず、データをそのままの状態で保存していきます。全てのデータがそのまま保存されているため、新たなデータ分析、活用のニーズに対応することができます。ただし、データレイクの運用には大きな保存容量が必要となってきます。
一方データウェアハウスでは、必要なデータを加工、整理したうえで保存します。そうすることであらかじめ設計されているデータ分析やデータ活用を素早く効率的に行うことができるようになるのです。ただし、データを保存する前に加工や整理といった処理が必要となるため、データレイクのように全てのデータをそのままで保存しておくことは技術上難しくなってきます。
データレイクの特徴
- データをそのまま保存する
- 新たなデータ分析、活用のニーズに対応できる
- 大きな保存容量が必要となる
データウェアハウスの特徴
- データを加工して保存する
- あらかじめ設計されたデータ分析を効率よく行うことができる
- データの処理能力の範囲内のデータしか保存できない
データレイクとデータウェアハウスを併用するのが一般的
データレイクとデータウェアハウスはいずれも複数のシステムからデータを収集して保存するデータベースですが、役割や得意なことには違いがあります。これらはどちらか一方を使うのではなく、併用することで膨大なデータを保存しつつ素早くデータの分析、活用を行うことができるようになります。
上記の図のように、すぐに使わないようなデータも含めて加工せずにデータレイクに集めておきます。そのうちあらかじめ定義されている必要なデータを適切な形に整理してデータウェアハウスに保存します。
そうすることで、すでに設計されているデータ分析が素早く行えて、さらに新たに必要となったデータ分析のニーズにも対応できるようなデータ保存環境が構築できます。
データレイクに保存されるデータの種類
データレイクの大きな特徴は、非構造化データが保存される点です。
構造化データ、非構造化データとは
CSVやエクセルなど、行、列の概念を持った形で保存されているデータを構造化データと呼び、逆に行、列の形式で表現されないデータのことを非構造化データと呼びます。
非構造化データには画像データ、動画データ、音声データ、SNSへの投稿、Webページ、議事録、報告書、プレゼンテーションなど様々なものが含まれます。データウェアハウスでは基本的に構造化データのみが保存されますが、データレイクでは非構造化データもそのままの状態で保存されています。
非構造化データで高度なデータ活用を実現する
非構造化データはその名の通り整理された構造がないため、データの処理や分析が難しい場合が多いです。一方で、人間の言葉や感情、画像や音声の特徴など、重要な情報を含んでいます。そのため近年では画像処理や音声処理、自然言語処理などの技術を利用し、非構造化データのビジネス活用が進められています。そのような高度なデータ活用を実現するうえでもデータレイクは重要な役割を果たしているのです。
データベース、データマートとの関係性
データレイクやデータウェアハウスと似た意味、役割の言葉にデータベースとデータマートと呼ばれるものがあります。データレイクの役割について知る上で、これらとデータレイクとの関係性も確認しておきましょう。
データベースとは
データベースとは、整理されたデータの集まりのことです。つまり、データレイクやデータウェアハウスもデータベースの一種といえます。
たとえば、企業で活用される顧客管理システムや在庫管理システムなども各システムごとのデータベースを持っています。それらの複数のデータベースからデータを収集して一元的に管理しているものが特にデータレイクやデータウェアハウスと呼ばれているのです。
データマートとは
データマートは、データウェアハウス上で整理されたデータをさらに部署ごと、プロジェクトごと、事業ごとなどに細かくまとめたデータの集まりのことです。
データレイクを構築・利用する際のポイントと注意点
データレイクの構築、運用にはクラウドサービスを利用する場合が多いです。また、クラウドサービスに加えて、データレイクやデータウェアハウスに保存されるデータを管理するためのシステムも必要となってきます。
たとえば、クラウドサービスとして有名な「AWS(Amazon Web Services)」を利用する場合には、データレイク内のデータを検索するために「AWS Glue」というツールを、データの暗号化には「AWS Key Management Service」というツールを使うなどします(AWSのクラウド上にデータレイクを構築した場合も、必ずAWSのツールを使わなければいけないわけではありません)。
データレイクやデータウェアハウスを構築する際には、適切なクラウドサービスや管理システムを選定しなければいけません。特に抑えるべき主なポイントは次の6つです。
- 互換性
- 拡張性
- データの種類
- コスト
- セキュリティ
互換性
データレイクを構築する際には、既存のシステムとの互換性が高いほどデータ活用の効率が高まります。顧客管理システム、在庫管理システムなどからのデータの取り込みや、BIツールなどへのデータの出力などがスムーズに行えるように設計しましょう。
データの種類
データレイクはデータウェアハウスに比べて、より多様な種類のデータのを取り扱います。テキストファイルや動画ファイル、音声ファイル、webサイトのアクセスログなど多様な種類のデータ形式に対応できる保存領域を確保することが欠かせません。
拡張性
データレイクでは現時点では活用されないようなデータも保存されるため、保存するデータ量を事前に想定することは難しいです。また、想定していたよりも早くデータが増えていくケースも多いため、それに対応できる拡張性が重要となります。
コスト
拡張性について触れましたが、データが増え続けることに対応して保存容量などを拡張していけば、当然運用コストも上がっていきます。データレイクは構築のコストに加えて、運用コスト、さらに機能を拡張したあとの運用コストも必要となります。それらを踏まえて継続可能なシステムを検討しましょう。
セキュリティ
保存されるデータには機密性の高いものも含まれるので、セキュリティ面も重視しましょう。データの読み込み、保存、書き出しが行われる際には暗号化が必要となりますし、データへのアクセス権限も適切に管理される必要があります。他社での運用実績なども参考に検討していきましょう。
\ この記事を読んでいる方におすすめ! /