データウェアハウスとは? データベース、データレイクなどとの違いや、ツール選定のポイントについて
目次
この記事を読んだ人がよくダウンロードしている資料
データウェアハウスとは
データウェアハウスとは、複数のシステムのデータを統合して保存されたデータの集まりのことです。データ分析やデータ活用の目的に合わせてデータを加工したうえで保存しておくことで、迅速なデータ活用を実現します。
データ分析に必要な形でデータを保存する
たとえば、会員管理システムでは、基本的に最新の管理情報が保存されていますが、データ分析には過去の履歴も必要となってきます。データウェアハウスでは、会員管理システムから定期的にデータを取得し保存しておくことで、データ分析を可能にします。
会員管理システムに限らず、ビジネスに活用されるシステムは基本的にそれぞれのシステムに必要な形でしかデータを保存しません。データウェアハウスではこれらのデータを分析に必要な状態に整理したうえで保存することで、様々なデータ活用を素早く実現できる環境を作ります。
データウェアハウスの役割
データウェアハウスの主な役割には、
- データの収集
- データの変換
- データの保存
の3つがあります。
データの収集
データウェアハウスでは、組織内のさまざまなシステムからデータを収集します。収集するデータには、先ほど例に挙げた会員登録システムや、会計システム、CRMシステムなどの様々なシステムに保存されている多様な種類のデータが含まれます。
データの変換
データウェアハウスでは収集したデータを、データ分析に適した形に整えた上で保存します。各システム上に保存されているデータは、それぞれのシステムに合わせた形で保存されているため、そのままではデータ分析を行うことは難しいです。そのため、表記の違いやIDなどの統一、不要なデータの除去、必要なデータの追加などを行います。このようなデータの変換によって、データ分析が可能なデータセットが作成されます。
データの保存
収集、変換されたデータはデータ分析用に整理された状態でデータウェアハウス内に保存されます。各システム内では随時消去されてしまうようなデータも分析に必要であればデータウェアハウス内に保存されていきます。
これらのデータの収集、変換、保存を行うことで、素早く精度の高いデータ分析が行える環境を実現するのが、データウェアハウスの役割です。
データベースやデータレイクなどとの違い
次に、データウェアハウスと似た意味で使われる言葉について解説します。データウェアハウスの役割を理解するうえで重要なキーワードです。
データベースとの違い
データベースとは整理されたデータの集まりのこと。先ほど例に挙げた会員管理システムや、会計システム、在庫管理システムなど、使用することでデータが発生するシステムはそれぞれのデータベースを持っています。
整理されたデータの集まりを管理しているという意味では、データウェアハウスもひとつのデータベースと言えます。つまり、データベースシステムの中でも特に
- 複数のシステムのデータを統合している
- データの分析や活用に特化した形でデータが保存されている
ものをデータウェアハウスと呼んでいるのです。
データレイクとの違い
データレイクは、様々な種類のデータを加工せずに保存しているデータの集まりのことです。つまり、データレイクもデータベースの一種。
データウェアハウスが、分析の目的に合わせてデータを加工・整理して保存するのに対して、データレイクでは様々な種類のデータをそのままの状態で保存するのが特徴。
データレイクでは加工していない状態でデータを蓄積しているので、新しいデータ分析のニーズなどに合わせて柔軟に加工や変換を行うことができます。ただし、分析のために加工や変換が必要となるため素早く自動的にデータ分析を行うことには向いていません。
一般的にはデータレイクとデータウェアハウスは併用されることが多く、社内の様々なシステムから抽出したデータを一旦データレイクにそのまま保存し、その中から分析に必要なデータを加工、整理してデータウェアハウスで保存しておくという場合が多いです。
データマートとの違い
事業規模が大きくなってくると発生するデータの種類も量も大きくなり、部署ごと、プロジェクトごと、事業ごとなどで、必要なデータも異なってきます。部署ごと、プロジェクトごと、事業ごとなどに、必要なデータを切り出して保存することがあります。この切り出して保存されたデータの集まりをデータマートと呼びます。
データマートもデータウェアハウス、データレイクと同様にデータベースの一種。
BIとの違い
BIはデータを収集、分析するための取り組み。それを行うシステムをBIツールと呼びます。BIツールでは主にデータの可視化を行います。
データウェアハウス、データレイク、データマートがそれぞれの形でデータを保存しておくデータベースであるのに対して、BIツールは保存されているデータを使ったデータ分析を行うためのツールです。
データウェアハウスツール 選定のポイント
現在、データウェアハウスを管理するための様々なツールが提供されています。Amazonが提供する「Amazon Redshift」やGoogleが提供する「BigQuery」などが有名ですが、日本製の製品でも多様なものが提供されているため、それらを選定する際のポイントを解説します。
データウェアハウス ツール選定のポイント
- データの容量
- 操作性
- 連携性
- コスト
- 導入形態
データの容量
データウェアハウスの管理システムは、処理するデータの容量に対応している必要があります。データウェアハウスでは様々なシステムからデータを収集し、過去のデータも保存するため扱うデータの量は大きくなります。将来的に必要となる容量も見込んで、適切な容量を持つシステムを選択することが重要です。
連携性
データウェアハウスの管理システムは、他のシステムとの連携がスムーズに行える必要があります。
先述のような会員管理システムや、会計システム、在庫管理システムなど、社内で利用しているシステム。また、すでにデータの管理をクラウド上で行なっている場合にはそのクラウドと相性のいい管理システムを活用するのがおすすめです。たとえばAWSを利用しているのであれば、当然Amazon Redshiftが親和性が高いです。さらに、データを分析するためにBIツールなどを活用するのであれば連携しやすいBIツールを選ぶことも重要になってきます。
システムの連携によってデータの収集から可視化までを自動化することで、迅速なデータ分析が可能になります。
操作性
データウェアハウスを運用するためには専門的な知識が求められます。しかし全ての企業が専門的な知識を持った人材を十分に確保できている訳ではないため、自社のメンバーで活用できるレベルの操作性があるかどうかも注意が必要です。
データウェアハウスツールにはコーディングなどの知識なしでも操作できるものもあるため、自社のメンバーのレベルにあったものを選ぶ必要があります。
コスト
データウェアハウスの管理システムの導入には、初期費用に加えてシステムを運用していくためのコストも継続してかかります。さらに扱うデータの容量が増えれば拡張のためのコストも増えていきます。
コストをかければ性能の高いものを利用できますが、継続して利用していくことが可能な範囲のコストかどうかに注意してシステムを選定しましょう。
導入形態
データウェアハウスは、クラウド上に構築するパターンと自社サーバー上に構築するパターンの2つがあります。
クラウド型の場合、自社サーバーに負担がかからず、必要に応じて容量を増やすことが簡単なため、小規模でコストを抑えて始めることができるのが特徴です。一方、自社サーバーに構築するいわゆるオンプレミス型の場合、自社サーバー内に大量のデータを保存するためコストが大きくなりやすいです。ただし、自社サーバー内でデータを管理できるためセキュリティ面のリスクを低減することができます。
必要なデータ容量と既存システムとの連携性から検討しよう
データウェアハウスシステムは処理するデータの容量に対応している必要があります。加えて、既存システムと連携し素早く精度の高いデータ活用が行えることが重要となってきます。
必要なデータ容量があり、現状のシステムとの親和性が高いもののうち、自社で運用可能なコストのものを選んでいきましょう。クラウド型とオンプレミス型かという導入形態については、自社に必要なデータ容量と確保できるコストを考えれば概ね決まってくる場合が多いです。
それらの条件を満たしたものが複数ある場合には、その中でも操作性の高いものを選びましょう。
\ この記事を読んでいる方におすすめ! /