相関分析とは?エクセルを使った具体的な分析手順を解説
今回は統計学で使われる「相関分析」とは何なのか、活用するメリット、分析の手順などをご紹介していきます。
\ この記事を読んだ人がよくダウンロードしている資料(無料) /
目次
相関分析とは?
相関分析は、2つのデータに関係性があるか明らかにする手法です。
データの特徴を把握するためによく使われる基本的な分析の一つです。
データの関係性を調べることで、関係性のある商品をまとめたり、意外な商品の関係性が見つけたりすることができます。
例えば、コーヒーショップの商品と気温の関連性でいうと、気温が高いとアイスコーヒーが売れ、ホットコーヒーが売れなくなります。
熱いときに冷たいものが売れ、寒いときに温かいものが売れるのは当たり前に思うかもしれません。
しかし、大切なのは「気温」と「コーヒーの売上」がどれくらいの関係性をもっているのか数値化することです。
そうすることで、具体的に関連性の強さを周囲の方に示すことができ、ビジネスとして活用できます。
相関分析では、主に次のことを行います。
- 相関係数の算出
- 散布図の作成
相関係数を求めるには以下のような公式があります。
xとyの相関係数=「xとyの共分散 ÷ xの標準偏差 × yの標準偏差」
本格的に統計学を学ぶというのであればこの公式もしっかりと覚えておきたいところですが、ビジネスで相関分析をおこなう分には、この公式は必ずしも覚える必要はありません。
なぜなら、Excelなどのツールを用いることで相関係数は簡単に導き出すことができるからです。
今回の記事では、Excelの操作方法とともに、相関係数の読み取り方や活用事例など、はじめての方でも分かりやすいようにご紹介しています。
是非最後まで読んでみてください。
相関係数の読み取り方
相関係数の読み取り方のイメージは、以下の図のとおりになります。
図 相関係数のイメージ
相関係数は1~-1の間の数値で求められ、0より大きい場合は正の相関、0より小さい場合は負の相関といいます。
絶対値が1に近づくにつれて相関が強いことを表し、-1であれば完全な負の相関、1であれば完全な正の相関ということになります。
また、完全な相関の場合は、散布図で表すと直線上にあるような状態となります。
正の相関は、気温が上がればアイスコーヒーの売上が上がるというような関係性です。
一方、負の相関は、気温が上がればホットコーヒーの売上が下がるというような関係性です。
また数値によって、相関の度合いもはかれます。
相関係数を読み取るときの基準としては、-0.5以下、もしくは0.5以上であれば相関があると考えてよいでしょう。
逆に、-0.5~0.5未満であれば、相関があるとはいえないと考えて問題ありません。
ただし、相関係数だけで判断するのは少しリスキーです。
なぜなら、外れ値などのイレギュラーなデータによって、相関係数が影響を受けている可能性も考えられるからです。
外れ値もデータなので、一概に取り除くべきだとは言えませんが、そのデータが相関係数の計算に入れるべき対象かどうかを判断することも重要です。
外れ値を取り除いた場合と、取り除かない場合で、それぞれ相関係数を確認してみるのもよいでしょう。
相関分析をするときは、あわせて散布図もチェックするということを心がけてください。
相関分析のメリット
相関分析を使うメリットは以下のとおりです。
大量のデータの中から関係性を見つけることができる
たとえば小売店の場合、毎日の営業で多くのデータを集めることができます。
分析をする上で、データの量は重要です。
なぜなら、集めたデータが少ないと、もしデータ内に偏りがあった場合に受ける影響が大きいからです。
そのため、データの量が十分にあることは、データ分析の精度を高める一つの要因にもなります。
しかし、その大量のデータから関係性を見つけるのは容易ではありません。
そんなときに役立つのが相関分析です。
相関分析を用いることで、データの量に関係なく迅速に分析することができます。
関係性があることを客観的に判断できる
項目が多くなればなるほど、ぱっと見でそれぞれの関係性を見つけるのは困難になります。
そこで、相関分析で各項目間の関連性を数値にすることで、個人の経験則に頼ることなく、客観的な判断材料としてデータを活用できるようになります。
また、これまでなんとなく関係性がありそうだと思っていた2つのデータ間の関連の強さを、具体的な数値として可視化出来るのも相関係数の強みです。
逆に、関連性がありそうだと思っていたものが、実はあまり相関が見られなかったと気づく可能性もあります。
ほかにも、全く気づいていなかったデータ間の関連を見つけるきっかけになることもあるかもしれません。
このように、相関係数は 経営の意思決定するために、とても信憑性が高い尺度となることでしょう。
相関係数の注意点
相関分析は、非常に便利な分析手法ですが、活用する上での注意点もございます。
「相関関係がある」=「因果関係がある」ではない
相関分析を行う際は、「相関関係がある」=「因果関係がある」というわけではないという点に注意が必要です。
たとえば、A商品が売れると全体の売上が伸びる、という相関が出たとしても、そこに因果関係があるかは分かりません。
因果関係というのは、原因と結果の関係のことです。
たとえば、A商品が売れたから、全体の売上が伸びたと原因結果の関係にあるとは限らないということです。
そのデータ間には直接的な関連がなく、第三の変数が関わっている、いわゆる疑似相関の可能性もあります。
たまたま関係性が出ただけかもしれないので、あくまで相関は相関、因果関係は別ということを覚えておきましょう。
相関がなくても、なんらかの傾向がみられるケースもある
たとえば、コーヒーの「温度」と「味の美味しさ(点数)」のアンケート結果について相関を見たとしたら、おおよそ以下のような結果になると考えられます。(架空のデータです。)
ホットコーヒー、アイスコーヒーというのはどちらも人気ですが、ぬるいコーヒーを好む人は少ないですよね。そのため、飲める範囲である程度冷たいか、温かい方が美味しくなると考えるのが自然です。
このような形では、相関分析では相関係数が低く出てしまうことがありますが、データに傾向や特徴がないとはいえません。
また、今回のケースでは、45℃以上と以下とで区切ることで相関の傾向がみられることも見て取れます。
このように、相関係数が低かったとしても、何らかの特徴を持っているケースもあるので、相関係数だけでなく散布図もしっかり確認するなど、複数の視点でデータを見るということが重要です。
Excelを使った相関分析の手順
それではExcelを使って相関分析をどのようにするのか解説します。なお、これから紹介する分析手順に用いるExcelテンプレートはこちらから無料ダウンロード可能ですので、ぜひダウンロードして読み進めてみてください。
今回は、テストの点数を例題として使います。
まず、国語の点数と英語の点数の相関をみていきましょう。
CORREL関数を使って相関係数を求める
①数値を入力したい空白セルを選択
②「Fx」(関数の挿入)を選択
③関数の検索で「CORREL」と入力
④関数名「CORREL」を選択して「OK」
⑤配列1と配列2のそれぞれの空欄に関係性を調べたい列を選択して「OK」
※先頭行の項目名が入っていても数字だけを読み取ります。
これで相関係数を求められます。
相関係数は「0.616」なので正の相関になります。
このことよりわかることは以下のとおりです。
- 国語の点数が高いほど、英語の点数が高い傾向がある
- 0.5以上なので、正の相関であると考えられる
相関係数の値によって2つのデータの関連性がわかりました。
ちなみに、比較するデータを変更する時は、以下の2通りの方法があります。
- 「Fx」を選択して配列1、配列2を選択し直しなおす
- 相関係数の値をダブルクリックして、色つきの選択範囲をドラッグして変更する
やりやすい方法を使って、それぞれの関係性を調べてみてください。
項目が少ない場合はこの方法で十分でしょう。
しかし、項目が多くなると一つ一つ調べるのは大変です。
そこで、次に簡単に一覧表をつくる方法を説明します。
「データ分析」ツールを使って一覧表をつくる
①「データ」タグ内の「データ分析」を選択
②「データ分析」ウィンドウ内の「相関」を選択
③「相関」ウィンドウ内の入力範囲を指定
④「先頭行をラベルとして使用」にチェックを入れる
※先頭行に項目名がない場合はチェックを入れなくても大丈夫です。
⑤新しいシートに相関係数の一覧表が作成される
関係性を調べたいデータを縦軸と横軸で照らし合わせると、相関係数の値がわかります。
同じデータ同士は同じ数値のため、相関係数が1となります。
「データ分析」が「データ」タグ内にない場合
Excelのデフォルトの状態では、「データ分析」が出てこない場合があります。
その場合は、以下の手順で「データ分析」を表示することが可能です。
①「ファイル」タグを選択
②「その他」内の「オプション」を選択
③「アドイン」内の「Excelアドイン」横の「設定」を選択
④「アドイン」ウィンドウ内の「分析ツール」のチェックボックスを選択して「OK」
これで「データ」タグ内に「データ分析」が表示されます。
「散布図」をつくる
続いて、視覚的に相関度合いを確認しやすい「散布図」の作成手順をご紹介します。
①関係性を調べたいデータをそれぞれ選択
※2つ目の行を選択する時は「Ctrl(Command)」を押しながら選択
②「挿入」タグ内の「散布図」を選択
散布図だと視覚的に相関性があるか確認できるのでとても便利です。
さらに、外れ値によって相関を見誤ってないか、分布が二極化していて細分化する必要はないかを判断するのにも使えます。
縦軸と横軸の数値を変更して見やすく整える
①横軸を右クリックして「軸の書式設定」を選択
②「最大値」や「主」の数値を変更
縦軸も同じ流れです。
数値が大きい場合は最小値を指定するなど、データの種類によって「軸のオプション」内の項目を変更して、散布図を見やすくしてください。
以上が、Excelを使った相関分析の手順です。
ビジネスでの相関分析の活用事例
次に、相関分析を使ったビジネスでの活用事例をご紹介します。
事例① Amazonのレコメンド機能
ユーザーにおすすめ商品やサービスの情報を提供するレコメンド。
レコメンドがEC業界で注目されたのは「Amazon」の存在が大きいでしょう。
自分好みの商品をすすめてもらえるのは調べる手間が省けてとても便利です。
ユーザーに欲しいと思える商品を伝えることができれば、売上につながります。
商品同士の関係性を把握するために相関分析が非常に重要になります。
この相関分析を用いたレコメンドは多くのECサイトで導入されてきました。
ECサイトにはたくさんのビッグデータが集まるので、とても適した条件が整っています。
過去のデータにもとづいて「よく一緒に購入されている商品」など類似商品をすすめています。
さらに、ニーズの変化にも迅速に対応することができ、リアルタイムで反映可能です。
当時のAmazonは、本やCD、DVDを主に販売しており、相関分析によるレコメンドがユーザーにはまりやすい商品だったといえるでしょう。
レコメンド施策の効果を高めるために
レコメンドの効果を最大限に高めるためには、ECサイトのデータ分析は欠かせません。
KUROCO株式会社では、ECに特化したデータ可視化・分析ツールとして、『EC-DashBoard』を提供しています。
『EC-DashBoard』では以下のような幅広い分析が可能です。
なかでもバスケット分析は、今回紹介したレコメンド施策の効果を高めることに大変役立ちます。
バスケット分析とは、「あるカテゴリの商品を購入したユーザが、その購入においてどのカテゴリの商品を一緒に購入しているか」を確認できるような分析のことです。
また、 EC-DashBoardではそれらを直近12ヶ月・直近1ヶ月、会員・非会員、年代別、性別、CPMグループごとに確認することが可能です。
これらのデータ一覧を表形式でダウンロードも出来るので、顧客セグメントやレコメンド施策のリストとして活用できます。
事例② 営業の訪問件数と売上金額の相関を確認する
例えば、とある会社で営業の訪問件数と契約件数の金額に相関があるかどうかを確認するとします。
相関分析を行った結果、訪問件数と契約件数には相関係数0.7という強い相関がみられることが分かりました。
単純に訪問を増やせば契約件数も増えるだろう、というのはなんとなくイメージしやすいですが、このように実際に相関係数を算出し、データ間の関連を数値で表すことで、その重要性を客観的に示すことができます。
これより営業担当は訪問件数を増やすことを一つのKPIにしてもいいのではないかと考えられます。
ただし、訪問件数以外にも「営業のやり方」「その後のフォローの仕方」など契約に至るかどうかは、数値化しにくい指標も含め、様々な要因が関わってくるものです。
そのため、相関分析を行ったからといって、そこだけ確認すればいいというわけではないので注意が必要です。
上記の例以外にも、たとえば「残業時間と営業成績」、「年間で読んだ本の数と収入」など、さまざまなデータで相関分析を行ってみても面白い結果が得られるかもしれません。
自社ではどのような活用方法ができるか考えてみてください。
まとめ
データ分析を行うことで、あなたのビジネスはまだ伸びる可能性があるかもしれません。
売上の課題というのは、いくつもの要素の組み合わせであり、なかなかデータ分析をしてみないと気づきにくい場合もあります。
たとえば、商品の販売方法に問題があるかと思っていたが、分析をした結果、実は販売場所に問題があった、ということも往々にしてあります。
「課題がどこにあるのか」を分析する手法の1つとして、是非相関分析も取り入れてみてください。
\ この記事を読んだ方におすすめ! /