■Excelを使った一元配置の分散分析,多重比較…例題・問題
.
○ この頁では,多くの学生のパソコン環境で利用しやすいと考えられるExcelを使った分散分析とフリーソフトRコマンダーを用いた分散分析+多重比較を扱う.
 RとRコマンダーのインストール方法については【→この頁参照】
◇◇Excelによる◇◇
【1元配置の分散分析】(要約)1要因の分散分析ともいう
○ 2つの母集団の平均値に有意差があるかどうかはt検定で調べることができるが,3つ以上の母集団について平均値に有意差があるかどうかを調べには分散分析を使う.
○ 結果に影響を及ぼす様々な要因のうちで,他の要因は変えずに1つの要因の違いだけに着目して,その平均値に有意差があるかどうか調べるものを「一元配置法」(1因子の分散分析)という.
(1) 3つのグループから成るデータは一般に全体平均のまわりにバラついている.そのバラつきは,右図1にように各グループの平均値が違うことによるもの(グループ間の変動,列の効果)と,各グループの平均値からも各々のデータごとにずれているもの(グループ内の変動)に分けて考えることができる.
 すなわち,分散分析においては,全体の変動(各々の値と全体の平均との差の2乗の総和)をグループ内の変動(各々の値とそのグループの平均との差の2乗の和)とグループ間の変動に分けて,グループ間の分散とグループ内の分散の比がある比率よりも大きければ,この変動はグループ間の平均の差異によって生じたもの(列の効果)とみなす.

(2) 右図1のような3つのグループの母集団平均に有意差があるかどうかを調べる分散分析においては,帰無仮説は
すべての平均が等しいこと:μ123
対立仮説は,その否定,すなわち
μ1≠μ2またはμ1≠μ3またはμ2≠μ3
とする.
 上記のような帰無仮説,対立仮説の関係から,分散分析においては少なくとも1つのグループの母集団平均に他のグループの母集団平均と有意差があるか否かを判断する.

(3) 例えば3つのグループについて2グループずつt検定を行うことと,3グループまとめて分散分析を行うこととは同じではない.すなわち,3つのグループについて2グループずつ有意水準5%のt検定を行うと,少なくとも1組に有意差が認められる確率は,3組とも有意差がないことの余事象だから
1−(有意差なし)*(有意差なし)*(有意差なし)=1−0.95*0.95*0.95=0.1426
となって,有意水準14%の検定を行っていることになり,有意水準5%の検定にならない.したがって,3つのグループのうち「少なくとも1組」に有意差があるかどうかの検定は3組のt検定に置き換えることはできない.

【例1】・・・対応のない一元配置
 次の表1は異なる3つのグループA1,A2,A3について行った測定結果とする.これら3つのグループの母集団平均には有意差があるかどうか調べたい.
表1
  A B C
1 A1 A2 A3
2 9.5 10.1 11.3
3 9.7 10.5 10.7
4 10.1 9.6 10.2
5 9.8 9.3  
6 9.3    

 データはExcelワークシート上の左上端にあるものとする.(このデータを転記するには,上記のデータを画面上でドラッグ→右クリック→コピー→Excel上で左上端のセルに単純に貼り付けるとよい.ただし列見出し,行見出しの分が多いので削除する必要がある.)

■Excelでの操作方法

Excel2010, Exel2007での操作
・データ→データ分析
Exel2002での操作
・ツール→分析ツール

→分散分析:一元配置→OK
・入力範囲:A1:C6(上記の桃色の欄も含める)(グループA2,A3には空欄がある[データ件数が異なる]のはかまわない.ただし,空欄に「欠席」,「余白」,スペース文字などの文字データがあると分散分析を適用できない.)
・データ方向:列
・先頭行をラベルとして使用:上記のように入力範囲にラベルA1〜A3を含めた場合は,チェックを付ける
・α:有意水準を小数で指定する(デフォルトで0.05が入る)
・出力先:ブックやシートが幾つもできると複雑になるので,同じワークシートの右側の欄に出力するようにするには,[出力先]を選び空欄にE1などと書きこむ
図1
図2

※(参考)t検定と分散分析の関係
 通常,2グループからなる1組の母集団平均の有意差検定はt検定で行い,3グループ以上あるときは分散分析で行うが,分散分析は2グループに対しても行うことができる.そのときは,両側検定となり(t値は得られないが)t検定と同じp値が得られる.(表1,表2参照)
 2グループに対する分散分析において有意差が認められる場合は,以後の多重比較という問題はなくなり,当該2グループの平均に有意差があることになる.
表ア・・・表1のうちの1組(A1,A2)のデータに対するt検定の結果の出力
t-検定: 等分散を仮定した2標本による検定  
     
  A1 A2
平均 9.680 9.875
分散 0.092 0.282
観測数 5 4
プールされた分散 0.174  
仮説平均との差異 0  
自由度 7  
t -0.698  
P(T<=t) 片側 0.254  
t 境界値 片側 1.895  
P(T<=t) 両側 0.508  
t 境界値 両側 2.365  

表イ・・・表アと同じ1組のデータに対する分散分析の結果の出力
分散分析表      
変動要因 変動 自由度 分散 観測された分散比 P-値 F 境界値
グループ間 0.085 1 0.085 0.487 0.508 5.591
グループ内 1.216 7 0.174      
             
合計 1.3 8        


→次のような出力結果が得られる.

(ここに平均値の一覧表が入る)

分散分析表      
変動要因 変動 自由度 分散 観測された分散比 P-値 F 境界値
グループ間 2.187 2 1.094 5.401 0.029 4.256
グループ内 1.822 9 0.202      
             
合計 4.009 11        

■Excelによる分散分析表の出力の見方
○変動の下端行にある合計の欄 4.009 は,図1で赤で示した全体の変動,図2の全体の変動に対応している.
表1の12個のデータの全体の平均はm=10.01で,全体の変動は
(9.5−m)2+(9.7−m)2+(10.1−m)2+···
···+(10.2−m)2=4.009となる.
○グループ内の変動 1.822 は,図1で青で示したもの,図2の青枠に対応している.
A1の5個のデータの平均はm1=9.68で,A1のグループ内の変動は
(9.5−m1)2+(9.7−m1)2+(10.1−m1)2+···+(9.3−m1)2
A2の4個のデータの平均はm2=9.88で,A2のグループ内の変動は
(10.1−m2)2+(10.5−m2)2+(9.6−m2)2+(9.3−m2)2
A3の3個のデータの平均はm3=10.73で,A3のグループ内の変動は
(11.3−m3)2+(10.7−m3)2+(10.2−m3)2
これらの和,すなわちグループ内の変動は 1.822 となる.
○グループ間の変動は「全体の変動」−「グループ内の変動」で求める.
4.009−1.822=2.187 となる.
※ (m1m)2×5+(m2m)2×4+(m3m)2×3 としても同じ
○自由度は平均を使うたびに1つ減ると考えて(ある平均になるような元の変数の決め方からその確率を計算していくので,変数の個数から平均の分(1)だけ自由に決められる変数の数が減る)
グループが3個あるからグループ間の自由度は2
A1は標本数が5個ありその平均を使うから自由度は4,A2は標本数が4個ありその平均を使うから自由度は3,A3は標本数が3個ありその平均を使うから自由度は2.以上によりグループ内の自由度は4+3+2=9
合計で11
○変動を自由度で割ったものが分散の不偏推定値(不偏分散)
グループ間の変動÷グループ間の自由度=グループ間の分散 2.187÷2=1.094
グループ内の変動÷グループ内の自由度=グループ内の分散 1.822÷9=0.202
○以上の結果,「観測された分散比」を「グループ間の分散」÷「グループ内の分散」によって求める
1.094÷0.202=5.401
○F境界値は,分母の自由度=9,分子の自由度=2のときのF分布における5%点を読み取ったものであるが,コンピュータ処理においては自動的に計算される.
Excelワークシート関数を用いて =FINV(0.05, 分子自由度, 分母自由度) として計算したものと同じ
○P-値は,帰無仮説において上記のF比となる確率を求めたものであるが,コンピュータ処理においては自動的に計算される.
Excelワークシート関数を用いて =FDIST(求めた分散比, 分子自由度, 分母自由度) として計算したものと同じ
◎最終的に,「観測された分散比」が「F境界値より」も大きければ帰無仮説が棄却され,有意差が認められる.
5.401>4.256 だから有意差あり
(または,P-値が0.05よりも小さければ帰無仮説が棄却され,有意差が認められる.p=0.029<0.05だから有意差あり.
通常, p<.05 と書く)
■統計の参考書で一般に用いられる書き方1書き方2
分散分析表      
変動因
要因
SV
平方和
SS
自由度
df
平均平方
MS
列平均
条件
2.187 2 1.094 5.401
誤差
wc
1.822 9 0.202  
         
合計 4.009 11    

■用語・記号
○変動, SS・・・平方和(sum of square)ともいう
○グループ・・・要因,条件,群,列,(水準)ともいう
○誤差, wc・・・グループ内,群内(within cell)
○自由度・・・dfとも書く(degree of freedom)
○分散, MS・・・平均平方(mean square)ともいう
○観測された分散比・・・F比,単にFとも書く
○P-値・・・p値,有意確率ともいう

【問題1】
 次の表2は3つのグループからそれぞれ8人を選んで,ある運動能力を測定した結果とする.これら3つのグループにおいてこの運動能力の平均に有意差があるかどうかExcelの分析ツールを使って分散分析で示してください.
表2
グループ1 グループ2 グループ3
51.8 48.1 53.9
51.4 50.2 53.2
51.9 50.7 51.7
53.9 52.8 51.3
53.4 51.2 52.1
50.1 49.7 53.9
53.5 52.0 52.6
51.8 52.0 53.6
 データを転記するには,画面上でドラッグ→反転表示→右クリック→コピーしてから,Excel上で貼り付けるとよい.
 次の空欄を埋めてください.小数第4位を四捨五入して小数第3位まで答えてください.
p=<0.05
だから有意水準5%で有意差がある.
採点する やり直す


◇◇Rコマンダーによる◇◇
■多重比較
 分散分析で有意差が認められた場合に,どの2グループ間の母集団平均に有意差があるのかの判断は,分散分析だけではわからない.具体的にどのグループ間に有意差があるのかを調べる方法は多重比較と呼ばれる.
○すべての組合せについてt検定を行うことと多重比較は異なる.
○分散分析(3個以上同時)と多重比較(2個ずつ)とは原理的に異なる処理が行われるので,分散分析で有意差があっても多重比較でおこなうと有意な組が1つもない場合,逆に分散分析では有意差がないのに多重比較を行うと有意な対があるような事が起こる.(「心理統計学の基礎」有斐閣アルマ/南風原朝和著 p.284)
 そこで通常は,分散分析において有意差があった場合だけ多重比較を行う(事後検定).
○Excelの組み込みの関数や分析ツールによって多重比較を行うことはできないので,ここではRコマンダーによって行う方法を述べる.
フリーソフト:Rコマンダーで採用されている多重比較法はチューキー法である.(J.W.Tukey:アメリカの統計学者)
※多重比較法には,チューキー法,シェッフェ法,LSD法,ライアン法など多くの方法があるが各々一長一短(有意差のないものでもあると判断し易い傾向のあるもの,逆に,有意差のないものをあると判断し易い傾向など)があることが知られており,参考書やソフトによって採用している方法が分かれている.(定説・多数説的なものが絞れない.)
 
(1) Rコマンダーで一元配置(1要因の)分散分析・多重比較を行うためのデータの形
 右の表3のような形のデータにおいてグループA1,A2,A3の母集団平均の有意差検定を行いたいとき,Rコマンダーで分散分析・多重比較を行うにはExcel上で表4のようなデータの形に直しておいてこれをRコマンダーから読み込むようにする.(グループ名は数値データではなく文字データとする.)
(2) Rコマンダーを起動する
Excel2010, Excel2007での操作
(Excelの内部から)アドイン→RExcel→Start R
Excel2002での操作
(Excelの内部から)RExcel→Start R

→RExcel→RCommander:with separate menus
(3) Excel上で右の表2に示した範囲をコピーする.
(4) Rコマンダーのメニューから
データ→データのインポート:テキストファイルまたはクリップボード,URLから...
→右図3のようにクリップボードを選択(3)でメモリに入れた内容をインポートする
フィールドの区切り記号としてタブを選択
表2のように「列見出し」のないデータをコピーしているから「ファイル内に変数名あり」のチェックをはずす
(変数名がないので出力のときV1, V2という変数名が付けられる.)
→OK
(出力ウィンドウに Dataset <- read.table("clipboard", header=TRUE, sep="\t", na.strings="NA", + dec=".", strip.white=TRUE)などと表示される)
(このとき,データがうまくインポートできているかどうかはRコマンダーのメニューで[データセットを表示]というボタンをクリックすると分かる)
(5) 一元配置の分散分析を行い,同時に多重比較の結果も表示されるようにする
(Rコマンダーのメニューから)統計量:平均:一元配置分散分析
このとき右図4のように「2組ずつの平均の比較(多重比較)」にチェックを付ける→OK
(6) 出力ウィンドウに
> summary(AnovaModel.2)
            Df Sum Sq Mean Sq F value  Pr(>F)  
V1           2 2.1870 1.09350  5.401 0.02877 *
Residuals    9 1.8222 0.20246                  
---
Signif.codes: 0 '***'0.001'**'0.01'*'0.05'.'0.1' '1
のように出力があり*が有意水準5%の有意差があること(* p<.05)を表している.

 同時に,右図5のようなグラフが別ウィンドウに表示される.
95%信頼区間が (-------・------) という形で表示されるがこのとき,それぞれ
A2 - A1 = 0
A3 - A1 = 0
A3 - A2 = 0
という仮説の信頼区間を表しているので,この信頼区間の中に0が含まれていなければその仮説は棄却されることになる.
 右図5ではA3−A1=0は信頼度95%の信頼区間に入っていないから帰無仮説が棄却され,これらの母集団平均には有意差があることがわかる.

 以上により,3つのグループの母集団平均について分散分析を行うと有意水準5%で有意差が認められ,チューキー法による多重比較によりA1-A3の間に有意差があることがわかる.
表3
A1 A2 A3
9.5 10.1 11.3
9.7 10.5 10.7
10.1 9.6 10.2
9.8 9.3  
9.3    
表4
A1 9.5
A1 9.7
A1 10.1
A1 9.8
A1 9.3
A2 10.1
A2 10.5
A2 9.6
A2 9.3
A3 11.3
A3 10.7
A3 10.2

図3
図4
図5


【問題2】
 右の表5は上記の表2と同じデータをRコマンダーで使うためにデータの形を書き換えたものとする.これら3つのグループにおいてこの運動能力の平均に有意差があるかどうかRコマンダーを使って多重比較してください.
 データを転記するには,画面上でドラッグ→反転表示→右クリック→コピーしてから,Excel上で貼り付けるとよい.
 正しいものを番号で答えてください.

1 有意差のある組はない
2 有意差があるのはグループ1⇔2だけ
3 有意差があるのはグループ1⇔3だけ
4 有意差があるのはグループ2⇔3だけ
5 有意差があるのはグループ1⇔2, 1⇔3の2組
6 有意差があるのはグループ1⇔2, 2⇔3の2組
7 有意差があるのはグループ1⇔3, 2⇔3の2組
8 3組とも有意差がある


採点する やり直す
表5
グループ1 51.8
グループ1 51.4
グループ1 51.9
グループ1 53.9
グループ1 53.4
グループ1 50.1
グループ1 53.5
グループ1 51.8
グループ2 48.1
グループ2 50.2
グループ2 50.7
グループ2 52.8
グループ2 51.2
グループ2 49.7
グループ2 52.0
グループ2 52.0
グループ3 53.9
グループ3 53.2
グループ3 51.7
グループ3 51.3
グループ3 52.1
グループ3 53.9
グループ3 52.6
グループ3 53.6
.
【問題3】
 右の表6は3学級の生徒の数学の得点とする.これら3つの学級について数学の平均得点に有意差があるかどうかRコマンダーを使って分散分析と多重比較をしてください.
 データを転記するには,画面上でドラッグ→反転表示→右クリック→コピーしてから,Excel上で貼り付けるとよい.
 p値は小数第4位を四捨五入して小数第3位まで,多重比較の結果は番号で答えてください.
○分散分析表から p=<0.05
だから有意水準5%で有意差がある.
○多重比較のグラフから
1 有意差のある学級はない
2 有意差があるのは1組⇔2組だけ
3 有意差があるのは1組⇔3組だけ
4 有意差があるのは2組⇔3組だけ
5 有意差があるのは1組⇔2組, 1組⇔3組
6 有意差があるのは1組⇔2組, 2組⇔3組
7 有意差があるのは1組⇔3組, 2組⇔3組
8 3学級とも有意差がある



採点する やり直す
表6
1組 2組 3組
74 53 72
68 73 70
63 66 83
84 70 79
69 70 65
82 60 88
66 51 74
84 67  
87    
69    

〇=== メニューに戻る
■[個別の頁からの質問に対する回答][Excelを使った一元配置の分散分析について/16.12.6]
見づらいです。
=>[作者]:連絡ありがとう.モニター画面の32ビットで点検したものなので24ビットで見ると色調が薄くなり過ぎるようですので,灰色を茶色に変更しました.