1. HOME
  2. ブログ
  3. データ分析
  4. 分散分析とは エクセルを使った具体的な分析手順を解説

KUROCO NOTE

データ分析・活用ノウハウや調査報告などを発信しています

データ分析

分散分析とは エクセルを使った具体的な分析手順を解説

分散分析とは

分散分析とは、簡単にいうと「3グループ以上の平均を比較し、有意差があるかを判断する分析手法」のことです。

※有意差・・・統計的に意味のある差のこと。

平均値の差の検定といえばt検定ですが、t検定は3グループ以上では使えないため、3グループ以上の平均値の差の検定では分散分析を使います。

※t検定・・・2つのグループの平均値に有意差があるかどうかを調べる手法のこと。

※平均値の差の検定・・・それぞれのグループの平均値の差について、その差が統計的に意味のある差なのかどうかを調べる手法のこと。

分散分析のなかでも最も基本的なものが、一元配置分散分析とよばれるものです。

一元配置分散分析とは、実験の目的となる要因が1つ(1元)の場合に行う分散分析です。

「1元」とは、” 要因が一つである ”とイメージしてもらえればわかりやすいと思います。(たとえば、「職業別」「年齢別」という2つの要因を持つデータの場合は「2元」となります。)

今回は、Excelで簡単に一元配置分散分析を行う方法についてご紹介していきます。

Excelで一元配置分散分析を行う方法

ここからは「分析ツール」アドインが追加されている前提で、Excelで一元配置分散分析を行う手順をご紹介していきます。

アドインの追加がまだの方は、以下の記事にて画像付きでご紹介していますので、まずはそちらをもとに設定をしたうえで解説に進んでください。

(参考) 回帰分析とは 特徴やExcelでの分析方法を分かりやすく解説

例題 3クラスの50m走タイムの平均値に有意差があるか調べたい

今回は、とある学校における50m走のタイムについてクラス(1組~3組)間で有意な差があるかを見ていきたいと思います。

まずは、以下のような元データを用意します。

次に、「データ」 →「データ分析」とクリックし、


出てきたポップアップの中で「分散分析:一元配置」を選びます。(今回は要因が「クラス(1組、2組、3組)」の1つだけなので、1元になります)

そうすると詳しい設定内容が出てくるので、

「入力範囲」には対象となる元データがあるセルを選択し、

「先頭行をラベルとして使用」にチェックをつけます。

「α」は有意水準というものを表しており、これはp値がどれくらい小さいときに有意差があるかを判断する閾値です。一般的には5%(0.05)と設定することが多いので、特に理由がない限りデフォルトの0.05のままで問題ありません。

※p値・・・帰無仮説(否定したい仮説)のもとで、その事象が起こる確率のこと。

あとは出力先を選択し、「OK」をクリックします。

そうすると、以下のような分析結果が出力されました。

上にでている「概要」の表は、簡単な統計量をまとめたものであり、ここでは特に気にしなくても大丈夫です。

重要なのは下の「分散分析表」で、こちらの読み取りをしていきます。

特に大切なのは、p値です。

さきほど設定していた閾値0.05をp値が上回っていたため、3グループの平均値には有意差がないと判断できます。

二元配置の分散分析とは

ここまでは、1元配置の分散分析でしたが、二元配置の分散分析というものもあります。

これは名前の通り、要因が2つ(2元)の場合に行う分散分析です。

たとえば、「職業別」「男女別」を組み合わせたデータの平均値の差を知りたい場合には二元配置分散分析が適しています。

また、二元配置分散分析は、「繰り返しのある二元配置」「繰り返しのない二元配置」と分類出来ます。

これは元データが同一条件のなかで複数のデータが存在するかどうかの違いです。

例えば、以下の図ようなデータがあったとします。(土、コンクリートは走る環境の違いです。)

この場合、左の表には「太郎」×「土」といったように、同一条件のなかで複数のデータを持っています。一方、右の表では一つの条件においてデータが一つです。

左のようなデータだと「繰り返しあり」ですが、右のようなデータだと「繰り返しなし」となります。

二元配置の分散分析(繰り返しなし)の場合

二元配置になっても、基本的に分析の手順は同じです。

「データ」→「データ分析」と進み、対応した分析手法を選んでください。

あとは、設定画面で元データの範囲を選び「OK」をクリックします。

そうすると、以下のような分析結果が出てきます。

上の表は単純な集計です。

下の分散分析表は、一元配置分散分析の出力結果と比べると少しだけ行が増えています。

行は元データでいう「土」か「コンクリート」についてのデータを示しており、列は元データでいう「太郎、次郎、三郎」についての結果を示しています。

今回の場合、行も列もP値が0.05を大きく下回っているため、有意差があるといえます。

二元配置の分散分析(繰り返しあり)の場合

繰り返しありの場合も「データ分析」から進んでいきます。

繰り返しのある二元配置の場合、以下のように「1標本あたりの行数」を入力する必要があるので入力します。

必要な情報を入力できたら「OK」をクリックします。

そうすると、以下のような分析結果が出力されます。

分散分析表以外の3つの表は単純な集計です。

分散分析表には、「標本」「列」「交互作用」という列が出てきています。

「標本」は元データの「土、コンクリート」で違い出ているかを表しており、「列」は「太郎、次郎、三郎」の間で差が出ているかを表しています。

今回の場合、標本も列もp値が0.05を下回っているので、有意差があるといえます。

また「交互作用」は、2つの要因が組み合わさることで現れる差をみています。

たとえば、太郎は土が得意で、次郎はコンクリートが得意、といったように組み合わせごとで有意な差があるか、といったイメージです。

今回、交互作用のP値は0.05を上回っているため、組み合わせによる有意な差はないと判断することができます。

ビジネスにおける分散分析の活用イメージ

次に、ビジネスにおいて分散分析をどのように活用していくのか、活用イメージをご紹介します。

ケース1 より発酵が上手くいく条件の組み合わせを探す

たとえば、納豆を製造している会社の場合を考えてみましょう。

納豆菌の種類を変えるだけ、室温を変えるだけでは発酵スピードに大きな変化はなかったとします。

しかし、それぞれ一つずつ変えるだけでは変化がなくても、2つの要因を一緒に変更してみると、発酵のスピードがより早く進むかもしれません。

そこで、納豆菌の種類と室温を一緒に変えた場合に最も発酵スピードが速い組み合わせを分散分析で考えることができます。

上記例は2元なので、2元配置分散分析を行うことになります。

もし、有意に発酵が早く進むような組み合わせを見つけることが出来れば、短い時間でさらに多くの納豆を作ることが出来るようになり、ビジネスの加速につながるかもしれません。

ケース2 喫煙習慣と血圧値の関係

分散分析を使えば、非喫煙者、喫煙者(一日20本未満)、喫煙者(一日20本以上)のグループに分類し、血圧を測定し、3つのグループで平均値に差があるか検定を行うといったことも可能です。

喫煙習慣と血圧に関連があることがみられれば、医師の場合それを治療にも生かすことが出来ます。

ケース3 職場環境による作業効率の差

たとえば、同じ会社のなかで、複数の工場で同じ製品を作っているというケースがあったとします。

そこで、異なる3つの職場環境で働く従業員に対して調査を行ない、職場環境により作業効率に与える差があるのかを分析することも可能です。

職場環境による作業効率において有意差がみつかれば、そこから先は何が要因になっているかを調べることで、職場環境の改善による作業効率の改善に繋げていくことができます。

まとめ

分散分析は、ビジネスの現場でもよく使われる分析手法の一つです。

とはいえ、相関分析のようになじみがあるものでもなく、少し統計学やデータ分析を学んだ人でないと知らない場合も多いと思います。

そのため、分散分析を知っているか知っていないかは、データ分析において差をつけることが出来る部分かと思います。

是非この機会に覚えておきましょう!

データ分析で本当に必要な3つのエクセル活用法 無料ダウンロード

売上・利益を伸ばすデータ活用 3つの事例

この資料では、私たちが様々な業態の企業に対して行ってきたデータマーケティングの結果や、実際に行っているデータ分析のノウハウをご紹介します。是非参考にしてみてください。

関連記事