※ このページは推定・検定の内容を前提としています.

■カイ2乗分布(χ2分布)
[chi-square distribution] ・・・ 比率の検定
◇簡単な例でイメージ作り(1)◇

例1
 日本人のABO式血液型の分布はおよそA型40%,B型20%,AB型10%,O型30%だといわれている.ある村で献血に応じた者のうち先着100人の血液型は次の表のとおりであった.(ただしデータは架空のもの)
血液型 A型 B型 AB型 O型
度数 37 25 12 26 100
 この村の住人の血液型分布は,日本人全体の血液型分布とほぼ同じと見なしてよいか?
(考え方) 
 もし,完全に一致していたら,次の表の期待度数で示される人数となるはずであるが,標本調査の場合には少々の凹凸はありうる.どの程度の差異ならば偶然として許容されるかと考える.
血液型 A型 B型 AB型 O型
観測度数 37 25 12 26 100
期待度数 40 20 10 30 100

 標準偏差を定義したときの式の作り方から類推して Σ(差)2 を考えると,
(37-40)2+(25-20)2+(12-10)2+(26-30)2
 この式は,観測値が大きくなると必要以上に大きくなり過ぎる.実際,標本を10倍に増やしたときを考えると,次の分布が上の分布と比較して100倍ずれているとは言えない.
血液型 A型 B型 AB型 O型
観測度数 370 250 120 260 1000
期待度数 400 200 100 300 1000

 そこで,各々の(差)2を各々の期待度数で割った次の式を考え,χ2と呼ぶ.(2つの分布が完全に一致していればこの式の値は0となり,食い違いが大きいほど大きな数となる.)
χ2 =
= 2.41

 この問題においては,期待度数の4個の数値の内3個までは変数として決められるが残り1個は合計から自動的に定まるので,このような分布を自由度3のχ2分布という.自由度3のχ2分布において,有意水準5%の限界値は,理論的なモデルから7.81と求められていて,これと比較して
χ2<7.81 だから有意水準5%で「有意差はない」と言える.

[与えられた母集団の分布と一致しているかどうかを判定するものは,適合性の検定と呼ばれる]
(少しだけ理屈を!)
○ 次のような観測データの分布を基準の比率と比較するには
  項目1 項目2 ・・・ 項目n
観測値の度数O O1 O2 ・・・ On
基準値の度数E E1 E2 ・・・ En
 次の式で定義されるカイ2乗値
χ2 =
を,理論的な計算で求めたχ2値と比較すればよい.
○ なぜ,この方法でできるのかという数学的根拠は難しい
 「n個の変数が各々独立に標準正規分布に従うとき」(自由度n),それらの2乗の和 χ2=Z12+Z22+…Zn2 は,標準正規分布(の2乗)を単純にn倍したものにはならず,自由度nのカイ分布と呼ばれるものになる.(シミュレーションにより目で確かめる方法は「仕事に役立つEXCEL統計解析」p.186〜に出ている)
 しかし,利用する側から見れば「前提条件に気をつけながら当てはめるだけ」で利用できる.

○ χ2分布関数は自由度に応じて関数の形が異なり,1枚の表にまとめられないので,自由度-よく使う確率(5%,1%など)からχ2を読み取るように作られている.(コンピュータではこの制限はない.)次の表では,自由度3でp=0.05に対応するχ2の値は7.815となる.
(pは右片側面積)

自由度\p 0.995 0.975 0.05 0.025 0.01 0.005
1 0.000 0.001 3.841 5.024 6.635 7.879
2 0.010 0.051 5.991 7.378 9.210 10.597
3 0.072 0.216 7.815 9.348 11.345 12.838
4 0.207 0.484 9.488 11.143 13.277 14.860
5 0.412 0.831 11.070 12.832 15.086 16.750
・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・

○ χ2は0以上の値に対して定義され,0のとき完全一致し,差異があるほど値が大きくなる.

○ χ2分布表:[ ↓こちら ][ 非表示 ])
◇簡単な例でイメージ作り(2)◇

例2
 ある果物をA方式で育てたものとB方式で育てたものの出荷時の等級が次の表のようになったとき,これらの育て方と製品の等級には関連があると見るべきかどうか.(ただしデータは架空のもの)
集計表
A方式 12 30 58 100
B方式 14 90 96 200
26 120 154 300
(考え方) 
 A,Bが独立であるとき,分割表は次のようになる.
集計表
A方式 8.7 40.0 51.3 100
B方式 17.3 80.0 102.7 200
26 120 154 300
 これらの観測度数と期待度数について,前の例1と同様にカイ2乗値を求める.
χ2=
=6.97
 自由度2,有意水準5%のときχ2= 5.99 
5.99<6.97 だから有意差があり,育て方と製品の等級には関連がある.

[2つのグループで比率に差異があるかどうかを判断するものは,独立性の検定と呼ばれる.]
(少しだけ理屈を!)
○ 2つの育て方が製品の等級に影響しない(育て方と製品の等級が独立なとき)ときは,次の表においてa1:a2:a3=b1:b2:b3が成り立つはずである.
集計表
A方式 a1 a2 a3 100
B方式 b1 b2 b3 200
26 120 151 300
 このとき,表の周辺和(黄色の背景で示した値:行小計,列小計)を元に考えると,a1:b1=100:200でa1+b1=26のように各々の値は,縦の計を右端の周辺和(行小計)の比率に配分したものとなるはずであるから,
a1 = 26×100/300=8.7
b1 = 26×200/300=17.3
他の値についても,期待度数を埋めることができる.

○ 各マスの (Oij-Eij)2/Eij の和
χ2=
自由度(m-1)(n-1)についての有意水準αを超えていれば,これらの方式は独立ではない(有意差がある)と言える.

○ 日常生活では,行小計に対する割合で表わした表
集計表
A方式 12% 30% 58% 100%
B方式 7% 45% 48% 100%
を元に「少し違う」「あまり違わない」といった議論をすることがあるが,カイ2乗を用いた検定は,割合ではなく,度数を用いて計算することが重要.
■要約■
1
 ある標本の各カテゴリー(分類項目)ごとの比率が,基準の比率と一致しているかどうかを判定するものは,適合度の判定と呼ばれる.
 観測度数が右の表1のようになったとき,この度数分布が表2で与えられる母集団の割合と一致するかどうかを判断するには,

(1) 表3のように計Nから理論的に求まる期待度数と観測度数を比較して
カイ2乗値
χ2 =
を,求める.

(2) この場合,n個の期待度数を変数と見るとき,これらの和はNでなければならないから,自由に決められるのはn-1個で残り1個は自動的に定まる.→自由度はn-1と考える.

(3) 次のグラフにおいて,多くの場合,右片側検定を考える.
(pは右片側面積)
(4) χ2分布表により,多くの場合,有意水準5%のχ2値と比較し,これよりも大きければ帰無仮説を棄却して有意差ありとし,そうでなければ有意差なしとする.
表1
  項目1 項目2 ・・・ 項目n
観測度数 x1 x2 ・・・ xn N
表2
  項目1 項目2 ・・・ 項目n
割合 p1 p2 ・・・ pn 1
表3
  項目1 項目2 ・・・ 項目n
観測度数 x1 x2 ・・・ xn N
期待度数 p1×N p2×N ・・・ pn×N N

○ 分類項目1〜nはカテゴリーデータでもよいし,定量的データ(もしくはそれらの階級)でもよい.

○ 期待度数が5未満のものがあるとき,分類の項目を併合して5以上にする.(カイ2乗分布という連続曲線で近似するためには,どの期待度数も pk×N≧5を満たすことが条件とされている.)

  不可
観測度数 7 18 10 9 44
期待度数 3 16 15 10 44
  不可
観測度数 25 10 9 44
期待度数 19 15 10 44

 2つの属性によって分類した分割表(クロス集計表)から,これらの分類が独立(無関係)かどうか調べるものは,独立性の検定と呼ばれる.
 右の表4のような分割表(クロス集計表)が得られたとき,2つの属性が独立(無関係)かどうか・・・項目A,B,Cに差異があるかどうかを判断するには

(1) 集計表の周辺和(行小計,列小計)の比率で割り出した期待度数を求める.(たとえば,項目A-項目1の期待度数はn・1×n1・/n)→表5

(2) 2つの表のすべてのマス目からカイ2乗値を計算する:
χ2 =

(3) 期待度数を計算するときに,右の表6のように行と列の各々残り1つは小計から自動的に決まるから,自由度は2×3
一般にm×nの分割表では,自由度は(m-1)(n-1)となる.]

(3) 次のグラフにおいて,多くの場合,右片側検定を考える.
(pは右片側面積)
(4) χ2分布表により,多くの場合,有意水準5%のχ2値と比較し,これよりも大きければ帰無仮説を棄却して有意差ありとし,そうでなければ有意差なしとする.

※重要 観測値は,観測度数を用いることが重要--割合表(%)では検定はできない.(同じ割合でも度数が異なれば検定結果は異なる.)
表4
観測度数  項目1 項目2 項目3 項目4
項目A O11 O12 O13 O14 n1・
項目B O21 O22 O23 O24 n2・
項目C O31 O32 O33 O34 n3・
n・1 n・2 n・3 n・4 n
表5
期待度数  項目1 項目2 項目3 項目4
項目A E11 E12 E13 E14 n1・
項目B E21 E22 E23 E24 n2・
項目C E31 E32 E33 E34 n3・
n・1 n・2 n・3 n・4 n

表6 [自由度]
期待度数  項目1 項目2 項目3 項目4
項目A E11 E12 E13 * n1・
項目B E21 E22 E23 * n2・
項目C * * * * n3・
n・1 n・2 n・3 n・4 n
※ E11E34は小数部分を四捨五入して整数化してもよいが,途中経過はすべて実数(小数)でおこなうので,小数のままでもよい.

※ 2×2の分割表では,期待度数のうち幾つかが4以下であっても分類の項目を併合すると意味がなくなる.この場合,標本の個数(観測度数)を大きくすることができなければ,「イエーツ(イエツ)の(連続)補正」呼ばれる方法(小さい方の期待度数に0.5を加える方法)がとられることがある.(離散分布を連続分布で近似するときに,真の値の限界を2つの整数の中央とするのと同様の考え方で,この方が経験的にも有効であるとされている.なお,列小計,行小計は変えない.
期待度数 項目1 項目2
項目A 4 15 19
項目B 7 11 18
11 26 37
期待度数 項目1 項目2
項目A 4+0.5 15-0.5 19
項目B 7-0.5 11+0.5 18
11 26 37


※ カイ2乗検定で「有意差がある」かどうかを調べるには,右側の片側検定を用いればよい.
「一致し過ぎ」を捉えたいとき(似すぎている文体を特定語彙の使用頻度で検出するなど)は左側の片側検定とすればよい.
「一致し過ぎ」のも「離れ過ぎ」のも捉えるには両側検定とすればよい.(5%のときは左右2.5%ずつ→97.5%と2.5%の表を読む)
※ 2×2分割表とそれ以外とで公式を分けて考える解説書もあるが,このページでは1つの公式で解説した.(別公式で考える立場もあるということは頭の隅に!) 
■例と答■
(1) [適合性の検定・・・片側検定]

 さいころを600回ふったとき出た目の回数は次のとおりとなった.このさいころは正しく作られているか.有意水準5%で検定せよ.
出た目 1 2 3 4 5 6
回数 103 95 102 97 108 95 600
(解答)
「帰無仮説:H0 さいころは正しく作られている.
 対立仮説:H1 さいころは正しく作られていない.」とする.
 帰無仮説を元に期待度数を計算すると,正しく作られたさいころは各目の出る確率が等しいから,期待度数は各々100となる.
出た目 1 2 3 4 5 6
回数 103 95 102 97 108 95 600
期待度数 100 100 100 100 100 100 600
 χ2=32/100+52/100+・・・+52/100 = 1.36
 自由度5,α=0.05のとき, χ2=11.07>1.36だから有意差はない.正しく作られていると考えられる.
(2) [独立性の検定・・・片側検定]
 ある単元の授業をA方式で行った50人とB方式で行った50人に各々事後アンケート調査を行った結果は次の表のとおりであった.これら2つの方式は分かりやすさに有意差があるといえるか.有意水準5%で検定せよ.(ただしデータは架空のもの)
分かりやすい 分かりにくい
A方式 28 22 50
B方式 35 15 50
63 37 100




 (参考)
 新しい教育システムを考案して,その効果を確かめたいとき,計画,試作,受講の依頼などに数ヶ月かかってしまうため標本データが50人程度しか確保できないことが多い.次の表で実験群,統制群とも50人,統制群が25対25の場合に,シミュレーションしてみると,

測定度数 効果あり 効果なし
実験群 34 16 50
統制群 25 25 50
59 41 100
 この程度の標本数で「有意差あり」と言えるためには,「効果あり」の度数が「効果なし」の2倍以上なければならないことが分かる.
 標本数が実験群200,統制群200程度になると,もっと低いレベルで有意差が得られる.
(解答)
「帰無仮説:H0 分かりやすさと教え方の方式は無関係である.
 対立仮説:H1 分かりやすさと教え方の方式は関係がある.」とする.
 観測度数の周辺和(行小計,列小計)を元に,帰無仮説を前提としたときの期待度数を計算する.
観測度数Oij 分かりやすい 分かりにくい
A方式 28 22 50
B方式 35 15 50
63 37 100
期待度数Eij 分かりやすい 分かりにくい
A方式 31.5 18.5 50
B方式 31.5 18.5 50
63 37 100
 各成分について (Oij-Eij)2/Eijを求める.
(Oij-Eij)2/Eij 分かりやすい 分かりにくい
A方式 0.389 0.662
B方式 0.389 0.662
 χ2=0.389+0.662+0.389+0.662=2.102
 自由度1,α=0.05のとき χ2=3.84>2.102であるから帰無仮説は棄却されない.有意差はない.
(3) [イエーツの補正]
 ある会社の製品を2つの工場で生産したものについて抽出検査をした結果,良品,不良品の度数は次の表のとおりであった.これら2つの工場の不良品発生状況について有意差が見られるか.有意水準5%で検定せよ.
 イエーツの補正を行って近似を良くした場合についても述べよ.(ただしデータは架空のもの)
観測度数 良品 不良品
A工場 196 4 200
B工場 93 7 100
289 11 300
(解答)
「帰無仮説:H0 2つの工場の不良品発生比率は同じ.
 対立仮説:H1 2つの工場の不良品発生比率は同じでない.」とする.
 観測度数の周辺和(行小計,列小計)を元に,帰無仮説を前提としたときの期待度数を計算する.
観測度数Oij 良品 不良品
A工場 196 4 200
B工場 93 7 100
289 11 300
期待度数Eij 良品 不良品
A工場 192.7 7.3 200
B工場 96.3 3.7 100
289 11 300
各成分について (Oij-Eij)2/Eijを求める.
(Oij-Eij)2/Eij 良品 不良品
A工場 0.058 1.515
B工場 0.115 3.030
 χ2=0.058+1.515+0.115+3.030=4.718
 自由度1,α=0.05のとき χ2=3.84<4.718であるから帰無仮説は棄却される.有意差が見られる.
(イエーツの補正を行う場合)
期待度数Eij 良品 不良品
A工場 192.7+0.5 7.3-0.5 200
B工場 96.3-0.5 3.7+0.5 100
289 11 300
各成分について (Oij-Eij)2/Eijを求める.
(Oij-Eij)2/Eij 良品 不良品
A工場 0.042 1.175
B工場 0.084 1.923
χ2=0.042+1.175+0.084+1.927 = 3.227
自由度1,α=0.05のとき χ2=3.84>3.227であるから帰無仮説は棄却されない.有意差が見られない.
(4) [カテゴリーの併合]
 次の表は3つの地区の年齢別人口構成とする.(ただしデータは架空のもの) これら3地区の年齢別人口構成について有意差は認められるか.有意水準5%で検定せよ.
観測度数 0-24 25-49 50-74 75-100
A地区 1 13 20 4 38
B地区 4 12 17 9 42
C地区 5 11 17 7 40
10 36 54 20 120
(解答)
「帰無仮説:H0 年齢別人口構成は地区によって変わらない.
 対立仮説:H1 年齢別人口構成は地区によって差異がある.」とする.
 観測度数の周辺和(行小計,列小計)を元に,帰無仮説を前提としたときの期待度数を計算する.
観測度数 0-24 25-49 50-74 75-100
A地区 1 13 20 4 38
B地区 4 12 17 9 42
C地区 5 11 17 7 40
10 36 54 20 120
期待度数 0-24 25-49 50-74 75-100
A地区 3.2 11.4 17.1 6.3 38
B地区 3.5 12.6 18.9 7.0 42
C地区 3.3 12.0 18.0 6.7 40
10 36 54 20 120
0-24歳の期待度数が小さすぎる(≦4)ので,カテゴリーを併合して0-49を1つのカテゴリーとする.
観測度数Oij 0-49 50-74 75-100
A地区 14 20 4 38
B地区 16 17 9 42
C地区 16 17 7 40
46 54 20 120
期待度数Eij 0-49 50-74 75-100
A地区 14.6 17.1 6.3 38
B地区 16.1 18.9 7.0 42
C地区 15.3 18.0 6.7 40
46 54 20 120
各成分について (Oij-Eij)2/Eijを求める.
(Oij-Eij)2/Eij 0-49 50-74 75-100
A地区 0.022 0.492 0.860
B地区 0.001 0.191 0.571
C地区 0.029 0.056 0.017
 χ2=0.022+0.492+・・・+0.017 = 2.238
 自由度4,α=0.05に対応するχ2値は9.49>2.238だから帰無仮説は棄却されない.年齢構成に有意差はない.
■Excelの利用■(解説)
○ CHIDIST(カイ2乗値, 自由度)
 右図のようなχ2分布関数[chi-square distribution]において,正の数xと自由度を指定したとき,P(X≧x)となる確率を返す.
 次のχ2分布表との関係では,
自由度\p 0.995 0.975 0.05 0.025 0.01 0.005
1 0.000 0.001 3.841 5.024 6.635 7.879
2 0.010 0.051 5.991 7.378 9.210 10.597
3 0.072 0.216 7.815 9.348 11.345 12.838
4 0.207 0.484 9.488 11.143 13.277 14.860
5 0.412 0.831 11.070 12.832 15.086 16.750
・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・
=CHIDIST(7.81, 3) が 0.05
=CHIDIST(13.27, 4) が0.01 などとなる.

○ CHIINV(確率p, 自由度)
 右図のようなχ2分布関数において,指定された自由度について,確率がp となる正の数を返す.
=CHIINV(0.05, 3) が 7.815
=CHIINV(0.01, 4) が 13.277 などとなる.
○ CHITEST(実測値範囲, 期待値範囲)
(1) 右表のように観測度数以外に期待度数をあらかじめユーザが入力しておく.
 CHITEST()の実測値範囲に右のB2:G2を指定,期待値範囲に右のB3:G3を指定すると確率pが返される
 有意水準αと比較して
 CHITEST()>α ならば 帰無仮説採択
 CHITEST()<α ならば 帰無仮説棄却
 上の例(1)の問題では,=CHITEST(B2:G2,B3:G3) が0.9286 >0.05 となるから,帰無仮説が採択される.

(2) 独立性の検定の場合も同様.右表の場合,期待度数はあらかじめユーザが入力しておき,実測値範囲にB2:C3を指定,期待値範囲にB6:C7を指定すると,=CHITEST(B2:C3,B6:C7)が0.1470と>α=0.05なるので帰無仮説採択

◇以上のまとめ◇・・・右片側検定の場合,次のいずれかによる
○カイ2乗値を自分で求めるとき
 
CHIDIST(カイ2乗値, 自由度)<α ならば棄却域
 
  実演 右の表7でCHIDIST(H5, 5)=0.9286>0.05 だから帰無仮説採択
 
CHIINV(α, 自由度)<カイ2乗値 ならば棄却域
  実演 右の表7でCHIINV(0.05, 5)=11.07>1.36 だから帰無仮説採択
○カイ2乗値を自分で求めないとき
 
CHITEST(実測値範囲, 期待値範囲)<α ならば棄却域
 自由度は向こう合わせ
  実演 右の表7でCHITEST(B2:G2, B3:G3)=0.9286>0.05 だから帰無仮説採択
表7
  A B C D E F G H
1 出た目 1 2 3 4 5 6
2 観測度数O 103 95 102 97 108 95 600
3 期待度数E 100 100 100 100 100 100 600
4                
5  (O-E)2/E 0.09 0.25 0.04 0.09 0.64 0.25 1.36

表8
  A B C D
1 観測度数O 分かりやすい 分かりにくい
2 A方式 28 22 50
3 B方式 35 15 50
4 63 37 100
5 期待度数E 分かりやすい 分かりにくい
6 A方式 31.5 18.5 50
7 B方式 31.5 18.5 50
8 63 37 100
■Excelの利用.例と答■
(1)
 さいころを60回振って出た目を記録した.このさいころは正しく作られているかどうか有意水準5%で検定せよ.
  A B C D E F G H
1 出た目 1 2 3 4 5 6
2 回数 14 5 6 13 6 16 60
(解答) 〜検算の意味で幾通りかやっておくとよい.〜
 次の表のように,あらかじめ期待度数を入力しておく.
  A B C D E F G H
1 出た目 1 2 3 4 5 6
2 回数O 14 5 6 13 6 16 60
3 期待度数E 10 10 10 10 10 10 60
4                
5  (O-E)2/E 1.6 2.5 1.6 0.9 1.6 3.6 11.8
解1
CHIDIST(H5, 5) = 0.038<0.05 だから,さいころは正しくない.
解2
CHIINV(0.05, 5) = 11.07<11.8 だから,さいころは正しくない.
解3
CHITEST(B2:G2,B3:G3) = 0.038<0.05 だから,さいころは正しくない.
(2)
 あるコンビニの3支店での1日の売り上げ個数は,次の表のとおりであった.この3支店の売り上げ個数の比率には有意差があるか.有意水準5%で検定せよ.
 売り上げ個数 パン おにぎり 弁当 飲み物
A支店 82 60 15 120 277
B支店 12 15 10 50 87
C支店 50 72 20 95 237
144 147 45 265 601
(解答) 〜検算の意味で幾通りかやっておくとよい.〜
 次の表のように,あらかじめ期待度数を入力しておく.
(CHITEST()で行うときは12行目以下は不要)
A B C D E F
1 観測度数O パン おにぎり 弁当 飲み物
2 A支店 82 60 15 120 277
3 B支店 12 15 10 50 87
4 C支店 50 72 20 95 237
5 144 147 45 265 601
6            
7 期待度数E パン おにぎり 弁当 飲み物
8 A支店 66.37 67.75 20.74 122.14 277
9 B支店 20.85 21.28 6.51 38.36 87
10 C支店 56.79 57.97 17.75 104.50 237
11 144 147 45 265 601
12            
13 (O-E)2/E パン おにぎり 弁当 飲み物  
14 A支店 3.68 0.89 1.59 0.04  
15 B支店 3.75 1.85 1.87 3.53  
16 C支店 0.81 3.40 0.29 0.86  
17           22.55
解1 自由度は2×3=6
CHIDIST(F17, 6) = 0.00096<0.05 だから,有意差あり.
解2 自由度は2×3=6
CHIINV(0.05, 6) = 12.59<F17 だから,有意差あり.
解3 自由度は向こう合わせ
CHITEST(B2:E4,B8:E10) =0.00096 <0.05 だから,有意差あり.
(参考) ■カイ2乗分布と2項分布,正規分布の関係
■カイ2乗,カイ2乗(χ2)分布とは

○ 標準正規分布に従う確率変数zの2乗がなす確率分布を自由度1のカイ2乗分布という.
χ2=z2
(2乗しているので正または0の値のみをとる.)
○ 標準正規分布に従う2個の確率変数z1,z2の2乗の和がなす確率分布を自由度2のカイ2乗分布という.
χ2=z12+z22
(2つの変数が独立に動くので,自由度1のときと比べると縦に2倍になるのでなく横に広がった形になる.)
○ 一般に標準正規分布に従うn個の独立な確率変数の2乗の和は自由度nのカイ2乗分布に従うという.
χ2=z12+z22+···+zn2

※ このように「カイ2乗分布(χ2分布)」は,もともと数学的に定義された連続関数に付けられた名前である.
 これに対して「カイ2乗検定」に登場する「カイ2乗」はm×n分割表などにおいて各セル(窓枠)に入ったデータの観測度数(離散的なデータ)をもとに計算される式の値である.
 以下においては,観測度数をもとに計算される「カイ2乗」をグラフや表で示される「カイ2乗分布」と照らし合わせことによって比率の検定ができる仕組みを考える.

 カイ2乗分布は右図2のように自由度(degree of freedom → df と略されることが多い)ごとに異なる形をした連続型の確率分布で,x≧0の区間において定義され,与えられたxの値よりも上側に来る確率は,自由度ごとに計算されて参考書の巻末表に掲載されていることが多い.(カイ2乗分布表を調べるときは自由度dfとxの値の2つ指定しなければならない.)
 右図2で赤で示した自由度4(df=4)のカイ2乗分布を例として見ると,n個の確率変数が独立に動くために自由度が1のときの4倍になるのでなく(縦に伸びるのではなく)右側のすそ野の長い曲線になっており,左右非対称な山形をしている.

図1


図2
■2つの比率に分かれる確率・・・2項分布
 1回の試行で事象Aの起こる確率がp,事象が起る確率がq (=1-p)であるとき,この試行をN回行ったときに事象Aがm回,事象Aがn回(合計N回)起こる確率は2項定理で求められ
NCmpmqn
となる.

■2項分布の正規分布による近似
 右の表1においてNが十分大きな値のとき事象Aが起こる回数をxとすると,xは平均Np,標準偏差 の正規分布で近似され,

は標準正規分布に従う.
 ここで,事象Aが起こる観測度数がmとなるときのχ2を求めると
・・・(1)
(1)は次のように変形できる.(*)
・・・(2)
(2)式は表1における事象A,事象の観測度数,期待度数が各々m,Np,n,Nqであることに注意すると
の形になっている.
 一般にすべてのセル(マス目)について を加えたもの
を「カイ2乗」という.

表1
  事象A 事象
確率 p q 1
観測度数 m n N
 さいころを100回投げて1の目が20回出た場合に,このさいころが正しく作られたものかどうか判断したい場合を考えてみると,事象Aは「さいころを投げたときに1の目が出ること」を表し,は「1以外の目が出ること」を表す.確率pは1/6,qは5/6,観測度数mは20,nは80,総度数Nは100になる.
 正しく作られたさいころでは,1の目が100÷6≒17回程度出るはずだが確率的な偶然で実際には多少の増減はある.とすれば20回なら偶然の範囲と言えるかどうか.このように指定された比率(1/6)と実際の観測度数(100のうちの20)が等しいとみなせるかどうかを判断するのが「比率の検定」の問題である.

(*)
(2)を変形すると(1)に等しくなることが示せる.
■カイ2乗の値の例
例1
 右の表2において期待度数はさいころを60回投げたときに出た目の回数を集計したものとする.このさいころが「どの目も確率1/6で出るように作られているかどうか」を検定するには,
(1) はじめに観測度数の他に「どの目も確率1/6で出るように作られている」という仮定を満たす場合の期待度数を計算する・・・60×1/6=10になる.
 これは基準とすべき確率分布が与えられている場合,したがって基準となる期待度数が与えられている場合になっている・・・適合性の検定の場合にはこのようにして期待度数が求められる.
(2) 次にすべてのセル(マス目)に対してχ2を求め,その和を計算する.
(3) 検定の内容に応じてこのχ2値をχ2表と見比べて判断する.(この例では自由度5のχ2分布表を見る.)
表2
出た目 1 2 3 4 5 6
観測度数 13 12 8 6 11 10 60
期待度数 10 10 10 10 10 10 60
χ2=
=3.40
例2
 右の表3において観測度数は男女合計100人にある製品の好感度をアンケート調査した結果だとする.このとき,この製品の好感度は男女の性別によって違いがないかどうかを検定したいものとする.
(1) 帰無仮説として「男女の性別によって好感度には違いがない」と仮定したときの,各々のセルの期待度数の表を作る.
 たとえば「男子」「よい」のセルの期待度数は,列の和27を54:46に配分したものになるべきだから27*54/100=14のように求める.(小数のままでも四捨五入して整数にしたものを使ってもよい.)
 これは,性別に対して独立という仮定に基づいて,周辺度数(列の小計,行の小計)から期待度数を求めていることになる.このような独立性の検定においては,帰無仮説に基づいて観測度数から周辺和を計有して期待度数を求めることになる.
(2) 次にすべてのセル(マス目)に対してχ2を求め,その和を計算する.
(3) 検定の内容に応じてこのχ2値をχ2表と見比べて判断する.(この例では自由度2のχ2分布表を見る.)
表3
観測度数 よい 普通 悪い
男子 12 30 12 54
女子 15 21 10 46
27 51 22 100
         
期待度数 よい 普通 悪い
男子 14 27 11 54
女子 12 23 10 46
27 51 22 100
         
χ2 0.286 0.333 0.091  
  0.750 0.174 0.000  
        1.634
■自由度と確率変数の個数
 2つの事象のどちらかになる回数は2項分布で与えられるが,3つの事象A,B,Cに分かれるときの自由度を考えてみる.たとえば,ある人がジャンケンでN回手を出すときに,グーをa回,チョキをb回,パーをc回出したとき,この手の出し方は均等であったかどうか調べたいものとする.
 これを2段階に分けて考えて,まずAとそれ以外(BまたはC)に分かれると考えると
 まずAとそれ以外に分かれる確率を求めるために確率変数z1を用い,さらにBとCに分かれる確率を求めるために確率変数z2を用いるので,A,B,Cの3つに分かれる確率を求めるためには確率変数が2つ必要になる.
 このようにして,順次にn個の事象に分けるためには確率変数がn-1個必要になるから,自由度はn-1になる.
 
 これに対して,右の表4の2×2分割表で周辺度数が与えられているときは,1つのセルの値が決まれば残りのセルの値が決まるから,2×2分割表を埋めるときの自由度は1になる.
 一般に表5のようにm行×n列の分割表においてセルの期待度数を求めるときの自由度は(m-1)(n-1)になる.
2項展開の繰り返しによって多項展開を行う考え方

 (a+b)Nを展開したときのarbN-rの係数は2項定理によって求められ,NCrになる.
 そこで(a+b+c)Nを展開したときのarbsctの係数を求めるには,まず(a+(b+c))Nを展開してar(b+c)N-rの係数を求めると
NCr
 次に(b+c)N-rを展開するとよい.

表4
a b a+b
c d c+d
a+c b+d N
表5
          行和1
          行和2
          行和3
          行和4
          行和5
          行和6
          行和7
          行和8
          行和9
列和1 列和2 列和3 列和4 列和5 合計
○=== メニューに戻る