データ品質とは?主な評価軸や品質を向上させる方法を解説
目次
この記事を読んだ人がよくダウンロードしている資料
データ品質とは
データ品質とは、データが利用目的に対して必要な条件をどれくらい満たしているかを示す概念です。データ品質が高いということは、目的に沿ったデータが正確に欠損なく蓄積されているような状態を指します。
データ品質の要素には以下のようなものがあります。
- 正確性:データが実際の事実や現象を正確に反映しているか
- 完全性:データが欠落していない、または欠落が最小限であるか
- 信憑性:データソースが信頼できる、またはデータ収集プロセスが適切か
以前は、多くのデータを集めることが目的となっており、集めたものの役に立たないデータばかりということもありました。しかし現在では、役に立たないデータを排除して、データの品質を高めることが重要になってきています。
データ品質管理の重要性
意思決定の精度向上
データ品質を高い状態に保つことで、データ分析の精度が高まり、適切な意思決定ができるようになります。一方、データ品質の低い場合には、誤った分析結果によって不適切なビジネス戦略が構築されてしまう危険性が高まります。
データ品質の管理は、データ活用の精度を高める上で重要な役割を果たすのです。
修正コストの削減
多くのデータを扱う場合、小さなデータのズレが全体として大きなズレとなってしまう場合があります。
例えば、ある商品の価格が数十円ズレていたような場合に、それが非常に多く売れていると全体の売上は大きくズレてしまうことになります。その際、元の商品価格を修正するだけで済む場合もあれば、全体で膨大な修正が発生してしまう場合もあります。そうなると、元は小さなデータの誤りでも大きな修正コストがかかってしまいます。
このような例に限らずデータの不備にできるだけ早く気づき修正することで、コストを抑えることができます。
データ品質を測定する主な評価軸
データ品質を測定する評価軸は様々なものがあり、政府CIOポータル(内閣官房 情報通信技術(IT)総合戦略室)によるデータ品質管理ガイドブック(β版)では、15の評価軸が定義されています。その中でもよく評価軸として設定されるものには次のようなものがあります。
- 正確性(Accuracy)
- 完全性(Completeness)
- 一貫性(Consistency)
- 最新性(Currentness)
- 信憑性(Credibility)
正確性(Accuracy)
正確性は、データが実際の事実や現象を正確に反映しているかを測る評価基準です。
正確性が高いデータの例:顧客データベース内の各顧客情報(名前、住所、電話番号など)が正確に入力されている
完全性(Completeness)
完全性とは、データが欠落していない、または欠落が最小限であるかを測る評価基準です。
完全性が高いデータの例:調査データが全ての質問に対する回答を含んでいるケースや、顧客データベースが全ての顧客の詳細情報を取得できている。
一貫性(Consistency)
一貫性とは、同じ情報が異なるデータソース間で一致しているかを測る評価基準です。
一貫性が高いデータの例:一つのシステムと別のシステムの間で顧客の住所が一致している。
最新性(Currentness)
最新性とは、データが最新の状況を反映しているかを測る評価基準です。
最新性が高いデータの例:顧客が移転した際にその情報が迅速にデータベースに反映されている。
信憑性(Credibility)
信憑性とは、データソースが信頼できる、またはデータ収集プロセスが適切かを測る評価基準です。
信憑性が高いデータの例:検証されたソースから得られた情報を利用している。
その他の評価基準
上記に加えて必要に応じて次のような評価軸を設けることもあります。
評価基準 | 詳細 |
アクセシビリティ(Accessibility) | データを受け取った人がそのデータを活用できるようになっているか |
標準適合性(Compliance) | データは入力ルールなどの一定のルールにより管理されており、そのルールを守ることで円滑に処理できるか |
機密性(Confidentiality) | 目的に応じた機密性が確保されているか |
効率性(Efficiency) | データは効率的に処理されるためにコードを割り当てる等の対応ができているか |
精度(Precision) | 使用目的に応じた精度の調整ができているか |
追跡可能性(Traceability) | データに疑義が生じたりした時に、データの原典などを参照できるか |
理解性(Understandability) | 利用者がデータについて正しく理解できるか |
可用性(Availability) | データは必要な時に使えるようになっているか |
移植性(Portability) | システムの入替えやシステム間の連携を行う際には、データを簡易に移行できるか |
回復性(Recoverability) | データセンターなどで事故が起こった時に、そのデータが早急に復元されるか |
データ品質が劣化する原因
データの変換
システム間でデータを移動したり、データを収集・保存する際、データを適切な形に変換することがあります。データが異なる形式に変換される時、元のデータが正確に反映されない場合があります。
その結果、データに不備が発生しデータ品質の劣化に繋がってしまいます。
時間の経過
長い期間のデータを分析する場合、通貨価値の変動などによって、過去の金額をそのまま比較することができなくなる場合があります。物価の変動を考慮せずにデータを比較すると、実際の経済状況を正確に反映しない可能性があります。
また、法律や規制が変更されることで、過去のデータが新しい基準に合致しなくなる場合があります。例えば、税法や労働法の変更が影響します。
人的要因
データを入力する際にミスが発生する場合も少なくありません。誤った情報を入力してしまったり、間違った手順で処理したりすることで、データが破損・削除されるような場合もあります。
また、システム設計時のプログラミングのミスや、システム自体の設計ミスなどが原因となって常時データの劣化が発生してしまっている場合もあります。
データ品質を維持・向上させる方法
データの品質を高い状態で維持したり、向上させたりするためには大きく次の3つの取り組みが必要となります。
- システム、仕組みの開発
- 品質の測定
- データやシステム、仕組みの修正
これらの取り組みを繰り返し行なっていくことでデータの品質を維持、向上させていくことができます。
システム、仕組みの開発
データ品質を確保するために、効果的なシステムと仕組みを開発・導入することが重要です。
例えば、データ品質のチェックや修正作業を自動化するためのツールやプロセスを開発し、運用に組み込みます。これにより、人為的なエラーを減少させることができます。
また、リアルタイムまたは定期的にデータ品質を監視し、問題を早期に検出するための監視システムを導入します。
品質の測定
データ品質を確認し、問題を特定するために、定量的な評価と測定が不可欠です。
データ品質を評価するための基準を設定し、正確性、完全性、整合性、適時性などの側面を評価しデータの劣化を発見していきましょう。劣化に気づくためのテストには、if-then、ゼロコントロール、レイションコントロールなど様々な手法があり、適切な方法を実施できるような仕組み作りが必要となります。
定期的なデータ品質監査を実施し、問題を特定し、品質の改善点を特定します。
データやシステム、仕組みの修正
データ品質の向上に向けて問題が特定された場合、適切な修正を実施します。
不正確なデータを特定し、修正または削除します。具体的には重複データの統合、欠損データの補完、エラーの修正などを行います。
データ品質問題を引き起こすシステムを改善し、エラーが再発しないようにします。そうすることで、今後のデータの不備を防ぐことができます。すでに動いているシステムを修正するのは難しい場合もあるため、その際はできる範囲から修正していきましょう。
データ品質に関連する問題を修正するために、データベースやアプリケーションのアップデートを実施します。
まとめ
効果的なデータ活用にはデータ品質の管理が欠かせません。データ品質を維持、向上させていけるようなシステムや仕組みを構築してビジネス効率の向上を目指しましょう。
\ この記事を読んでいる方におすすめ! /