■z検定,t検定

【前提】
この頁では母集団の分布が正規分布であると仮定できる場合を扱う.また,有意水準(めったに起こらない確率)を5%とする.
【記号の約束】
 標本の平均や標準偏差をアルファベット , sで,母集団の平均,標準偏差をギリシャ文字μ,σで表す.
○正規分布とt分布
■簡単な復習■
○正規分布
 平均がμ0,分散がσ2の母集団からとられた大きさnの標本の平均は,
平均μ0 , 分散
の正規分布になる.
nが十分大きな値のときは,母集団の標準偏差σは標本の標準偏差sに等しい.さらに,「標本平均の標準偏差」はに等しい.
[z検定]・・・正規分布を用いた検定
 平均がμ0,分散がσ2の母集団からとられた大きさnの標本の平均が,
の範囲内に入る確率は95%になる.(上の正規分布のグラフから)
 この式を変形すると,
と書けるから,
とおくとき,|z|の値が1.96よりも大きいときは,その標本から推定される母集団の平均μμ0と一致することはめったになく,その標本はこの母集団からとられたものとは見なせない.
z値を用いた検定 ⇒ z>1.96またはz<−1.96のときは有意差ありとして,μ=μ0という仮説を棄却する.
p値を用いた検定 ⇒ 棄却域に入る確率が直接計算できるときは,p<0.05(5%)のときは有意差ありとして,μ=μ0という仮説を棄却する.
○t分布

 平均がμ0の母集団からとられた大きさnの標本の平均は,
 は自由度n−1のt分布になる.
※この分布は標本の大きさnの値によって変わり,nの値が小さいときは正規分布よりもすそ野が広い.nの値が十分大きいときは正規分布に近くなる.
値を用いた検定 ⇒ |t|の値がその自由度n−1に対して計算される境界値よりも大きいときは有意差ありとして,μ=μ0という仮説を棄却する.
p値を用いた検定 ⇒ 棄却域に入る確率が直接計算できるときは,p<0.05(5%)のときは有意差ありとして,μ=μ0という仮説を棄却する.








※ 検定においては「母集団の平均や分散がある値に等しい」と仮定して,その標本の分布がどうなるかを調べる.母集団の平均や分散についての仮説から標本平均がある値となる確率を計算し,めったに起こらない確率になれば元の仮説が間違っているという論法をとる.
 (もし,平均値が等しくない方を仮定すれば「どれだけ等しくないかの程度によって無限の場合分け」を要し,標本平均の分布について推論を進めることができない.)
○平均値の検定,平均値の差の検定
■この頁で扱う主な内容■
○1組の標本について,その標本から推定される母集団の平均値がある値に等しいかどうかを判断することを平均値の検定という.
 平均値の検定では,検定すべき母集団の平均値が示される.
 (1) 母集団の分散も示されているときはこれに従って分布しているものと仮定したときに,与えられた標本が抽出されることがめったに起こらないならばその標本の母集団は示された値とは異なると判断できる.(z検定)
正規分布を使う
 (2) 母集団の分散が示されていないときは,標本から母集団の分散を求めて,これに従って分布しているものと仮定して,確率的にまれなことなのかどうかを調べる.
 i) 母集団の分散が示されていないときで,標本の個体数が多い(標本が"大きい"という.概ね n≧30)ときは,母集団の分散は標本の分散に等しいとみなして正規分布を用いればよい.(z検定)
 ii) 母集団の分散が示されていないときで,標本が小さい(概ね n<30)ときは,母集団の分散は標本の分散から求められる不偏分散に等しいとみなしてt分布を用いればよい.(t検定)
t分布を使う
○2組の標本から推定される各々の母集団の平均値が等しいかどうかを判断することを平均値の差の検定という.
 平均値の差の検定についても標本の個体数が多いか少ないかによって,z検定,t検定に分かれる.

標本が大きい(概ね30以上)ときは「差が正規分布」になる
標本が小さい(概ね30未満)ときは「差がt分布」になる
正規分布の形は決まっているが,t分布は標本の大きさn(正確には自由度n-1)によって形が変わるので,各自由度に応じたt分布を用いる.
○平均の検定
■z検定
【例1】
 標本平均が=56,母標準偏差がσ=8,標本の大きさがn=16のとき,
帰無仮説 H0μ=50
対立仮説 H1μ≠50
の検定をせよ.
[ポイント]
 標本の大きさはn=16であるが,母集団の分散が既知だから正規分布を用いる.
 対立仮説がH1μ≠50だから両側検定とする.

(解答)
 >1.96だから,帰無仮説を棄却し,対立仮説を採択する.
■Excelでこの問題を解くときに使える関数
=NORMDIST(X, 平均, 標準偏差, TRUE)
第4引数にTRUEまたは1を指定すると下図のように変数Xまでの累積確率が返される.

 この問題では=1-NORMDIST(56, 50, 2, TRUE)
により上側の確率が求められ,その値を2倍すると両側確率 p=0.0027 が得られる.これは0.05よりも小さいから棄却域に入る.

=NORMSDIST(u)は平均0,標準偏差1の標準正規分布について上の図と同様にuまでの累積確率を返す.
 この問題では=1-NORMSDIST(3)→0.0013となるから両側確率は0.0026(少数の丸め方により末尾は変わる)となり0.05よりも小さいから棄却域に入る.
【例2】
 ある規格の製品は重さの平均がμ=50(g)で標準偏差がσ=3(g)となるように作られている.12個の製品を抽出して重さを測定したところ,次のようなデータを得た.
50.2 46.4 46.2 51.0 51.0 47.9 47.9 46.5 46.9 49.0 48.8 49.0
 この製品の平均の重さが50(g)であるといえるかどうか有意水準5%で検定をせよ.
(架空データ)
[ポイント]
 標本の大きさはn=12であるが,母集団の分散が既知だから正規分布を用いる.
 大きいのではないかとか,小さいのではないかという偏った疑いを持っているわけではないから両側検定とする.

(解答)
 =48.4
 = -1.84>-1.96だから,帰無仮説は棄却されない.
■Rコマンダーでこの問題を解くには
(アクティブデータとは関係なしに,Rコマンダーのメニューで)
分布→連続分布→正規分布→正規分布の確率
変数の値 48.4
μ(平均) 50
σ(標準偏差) (1/√12=) 0.866
下側確率を選ぶ
→pnorm(c(48.4), mean=50, sd=0.866, lower.tail=TRUE)
[1] 0.03233192
となるから確率2*0.0323=0.0646>0.05ということで帰無仮説は棄却されない.
【例3】
 ある県で模擬試験を受けた生徒から50人を無作為抽出してしたところ,平均63点,標準偏差11点であった.このことから,この県の生徒の得点は全国平均60点よりも高いといえるか.有意水準5%で検定せよ.
(架空データ)
[ポイント]
 標本の大きさがn=50だから,母集団の標準偏差は標本の標準偏差に等しいと見なせる.また,正規分布が使える.
 超えるのではないかということに関心があるのだから片側検定とする.
 片側検定のときは|z|=1.645が境界値となる.

(解答)
 =1.92>1.645だから,帰無仮説は棄却される.したがって,高いといえる.
■Excelでは
11/√50=1.56
=1-NORMDIST(63, 60, 1.56, TRUE)→0.027<0.05により帰無仮説棄却.
■Rコマンダーでは
分布→連続分布→正規分布→正規分布の確率
変数の値 63
μ(平均) 60
σ(標準偏差) 1.56
上側確率を選ぶ
→pnorm(c(63), mean=60, sd=1.56, lower.tail=FALSE)
[1] 0.02723520
となるから確率0.027<0.05ということで帰無仮説は棄却される.
■t検定
【例4】
 ある果物の出荷時の平均重量は55.0gである.この果物を実験的な環境で育てたとき,出荷時の重量は次のようになった.
55.9 54.6 57.3 52.8 51.1 57.2 53.7 52.0 59.5 58.9 52.3 50.6 55.7 52.0
 この実験的な環境は出荷時重量に影響があるか.
(架空データ)
[ポイント]
 標本の大きさがn=14<30だから,t検定による.
 増減のいずれにも関心があるから両側検定とする.

■電卓とt分布表によるt検定
標本の平均値 =54.5
母平均 μ=55.0
標本の標準偏差 s=2.81
自由度 ν=14-1=13
= -0.58
t分布表により,自由度13のときの両側確率0.05の境界値は2.16だから,有意差なし.したがって,影響があるとはいえない.

■Excelでこの問題を解くときに使える関数
(Web画面上で上の表をコピーし,Excel上に単純に貼り付けるとよい.次にExcel上でもう一度コピーして,貼り付けのときに行列を入れ替えるとよい.)
標本の平均値やt値の計算は,上記の計算をExcel上の演算で行えばよいが,計算としては同じ.

○t分布表が手元にない場合には,次のように計算できる.
t値を用いた検定 ⇒ =TINV(0.05,13)→2.16により棄却域の境界値が得られる.これに対して求めた|t|値は0.58であるから有意差なし.
p値を用いた検定 ⇒ =TDIST(0.58,13,2)→0.567
(第1引数を負の数のまま代入するとエラーになる.|t|を代入すること.)これは棄却域に入る確率0.05よりも大きいから有意差なし.
■Rコマンダーでこの問題を解くには
(左欄下のようにExcel上で列データにし,これをコピーしてクリップボード[メモリ]に入れる:列ラベルは付いていないものとする.)

データ→データのインポート→テキストファイルまたはクリップボード,URLから

データセット名を入力(→例えばyとする)
ファイル内に変数名あり(チェックを外す
データファイルの場所(→クリップボード)
フィールドの区切り記号(→タブ)
→OK
[データセットを表示]で確かめる方がよい.

○ここからがRコマンダーを用いたt検定
統計量→平均→1標本t検定→(次の図のように選ぶ)


出力ウインドウに次にように出力される.
t.test(Dataset$V1, alternative='two.sided', mu=55.0, conf.level=.95)

One Sample t-test

data: Dataset$V1
t = -0.5866, df = 13, p-value = 0.5675
alternative hypothesis: true mean is not equal to 55
95 percent confidence interval:
52.85940 56.22631
sample estimates:
mean of x
54.54286
→P値が0.05よりも大きいから有意差なしと判断する.
○平均の差のz検定(データに対応がない場合)
【例5】
 2つの銘柄のおのおのから選ばれた100個の電球をテストしてその平均寿命について,=1160 , s1=90 , =1140 , s2=80を得たとする.
 これら2つの銘柄の電球の平均寿命に有意差が認められるか.  
問題の出典:
「初等統計学」(培風館/P.G.ホーエル著/浅井晃.村上正康共訳)第4版31刷 p.172本文
[ポイント]
 標本の大きさがいずれも30よりも大きいからz検定による.
 等しいか等しくないかに関心があるから両側検定とする.

■電卓と正規分布表によるz検定
右欄の公式によりz値を求める.
= 1.66
正規分布表により,両側確率0.05の境界値は1.96だから,有意差なし.
■Excelでこの問題を解くときに使える関数
=SQRT(8100/100+6400/100)→12.0をあらかじめ求めておく.
=1-NORMDIST(1160, 1140, 12.0, TRUE)→0.048
により上側の確率が求められ,その値を2倍すると両側確率が得られる.p=0.096となってp値が0.05よりも大きいから有意差なし.

=2*(1-NORMSDIST(1.66))によっても同様の結果が得られる.
■Rコマンダーでは
分布→連続分布→正規分布→正規分布の確率
変数の値 1160
μ(平均) 1140
σ(標準偏差) 12.0
上側確率を選ぶ
→pnorm(c(1160), mean=1140, sd=12, lower.tail=FALSE)
[1] 0.04779035
となるから両側確率は0.096>0.05ということで有意差なし.
※[復習]
○ 合成変数の分散
 変数xの標準偏差をsx(分散はsx2),変数x , yの共分散をsxyで表すとき,合成変数x+y及びx−yの分散については,次の関係が成り立つ.
sx+y2=sx2+2sxy+sy2
sx−y2=sx2−2sxy+sy2
特に,独立な2変数x , yについては共分散がsxy=0となるから
sx+y2=sx2+sy2…(1)
sxy2=sx2+sy2…(2)
が成り立つ.((2)の符号に注意)
したがって,独立な2変数x , yの標本平均の分散が各々 であるとき,それらの差の分散はになる.
○ n130 , n230のとき,は標準正規分布をなす.
○平均の差のt検定(データに対応がない場合)
【例5】
 次のデータは,20匹のネズミのうち,その半分は生の落花生から,他の半数は炒った落花生からタンパク質をとらせたときの摂取量を示す.落花生を炒ることがタンパク質の価値に影響を与えるかどうかを,t分布を用いて検定せよ.
生のもの 61 60 56 63 56 63 59 56 44 61
炒ったもの 55 54 47 59 51 61 57 54 62 58
問題の出典:
「初等統計学」(培風館/P.G.ホーエル著/浅井晃.村上正康共訳)第4版31刷p.188,6節34.
[ポイント] 20匹のネズミがたまたま10匹ずつに分かれただけであり「生のもの」と「炒ったもの」に対応があるわけではない.したがって,対応のないt検定を行う.

(参考) 上記のデータをWeb画面上で生〜58までをドラッグ・コピーし,Excel上に単純に貼り付けると転記ミスなしに取り込むことができる.次に,Excel上でもう一度コピーし,貼り付け→行列を入れ替える ・・・・・・(1)
(Excel2002の場合は,編集→形式を選択して貼り付け→行列を入れ替える)
■Excel上でのt検定
◇◇初めにF検定を行う◇◇
まず分散が等しいと見なせるかどうかについてF検定を行う.(次のいずれか1つの方法による.)
  A B
1 生のもの 炒ったもの
2 61 55
3 60 54
4 56 47
5 63 59
6 56 51
7 63 61
8 59 57
9 56 54
10 44 62
11 61 58
 データは右の表の形になっているものとする.

○各々の不偏分散を求める
=VAR(A2:A11)→31.21
=VAR(B2:B11)→21.07
○分散比(大きい方÷小さい方)を求める
 =31.21/21.07=1.48

[関数]
FINV(確率0.05,自由度1,自由度2)によって有意と見なせる境界値のF値が返されるのでこれよりも大きければ有意差あり,小さければ有意差なしと判断する.
FDIST(F値,自由度1,自由度2)によって分散が等しいと仮定したときにその分散比が起こる確率が返されるので,これが0.05よりも小さければ分散が等しいという帰無仮説が棄却される.
FTEST(データ1の範囲,データ2の範囲)によって2つのデータの分散が等しいと仮定したときにその分散比となる両側確率が返されるので(大きい方しか使わないので),これを2で割って上側確率が0.05よりも小さくなるかどうかを調べる.
上記の分散比(F値)と片側確率5%の境界値と比較する
=FINV(0.05,9,9)3.18
1.48<3.18だから分散の有意差は認められない
⇒等分散とみなせる場合のt検定に進む
=FDIST(1.48,9,9)
→0.28>0.05だから分散の有意差は認められない
⇒等分散とみなせる場合のt検定に進む
=FTEST(A2:A11,B2:B11)
→0.5675だから上側確率は0.28
0.28>0.05だから分散の有意差は認められない
⇒等分散とみなせる場合のt検定に進む
分析ツールを利用する場合
データ→データ分析→F検定:2標本を使った分散の検定→OK

  変数 1 変数 2
平均 57.9 55.8
分散 31.211 21.067
観測数 10 10
自由度 9 9
観測された分散比 1.482  
P(F<=f) 片側 0.284  
F 境界値 片側 3.179  
右のような表が出力されるので
p片側の値が0.05よりも大きいから有意差なしと判断する.
(または観測された分散比1.482がF境界値片側3.179よりも小さいから有意差なしと判断する)
⇒等分散とみなせる場合のt検定に進む
◇◇F検定の結果を用いてt検定を行う◇◇
[関数]
TTEST(データ1の範囲, データ2の範囲, 両側検定の場合は第3引数2とする, 等分散を仮定できるときは第4引数を2とする)によって平均値が等しいと仮定したときにそのt分布となる確率が返されるので,確率が0.05よりも小さければ有意差あり,大きければ有意差なしと判断する.
=TTEST(A2:A11,B2:B11,2,2)→0.3705
確率が0.3705>0.05だから有意差なしと判断する.
分析ツールを利用する場合
データ→データ分析→t検定:等分散を仮定した2標本による検定→OK
  生のもの 炒ったもの
平均 57.9 55.8
分散 31.211 21.067
観測数 10 10
プールされた分散 26.139  
仮説平均との差異 0  
自由度 18  
t 0.918  
P(T<=t) 片側 0.185  
t 境界値 片側 1.734  
P(T<=t) 両側 0.371  
t 境値 両側 2.101  
P値が0.05よりも大きいから有意差なしと判断する.(または,t値が両側境界値よりも小さいから有意差なしと判断する.)
■Rコマンダーでのt検定
○ そのままのデータでは「対応のない場合のt検定」が選択できないので,右図のようにExcel上で1列に加工する(分類名A,Bで区別する.Aが生,Bが炒ったものに対応)・・・(2)

Excel上で(2)の範囲を変転表示にし,コピーし(メモリ=クリップボードに入れる.)

○ Rコマンダーのメニューで
データ→データのインポート→テキストファイルまたはクリップボード,URLから

データセット名を入力(→例えばxとする)
ファイル内に変数名あり(右図の摂取量,分類を含めてコピーしているのならチェックありのまま)
データファイルの場所(→クリップボード)
フィールドの区切り記号(→タブ)
→OK
[データセットを表示]で右図下のように表示されればよい.




○ここからがRコマンダーを用いたt検定

◇◇初めにF検定を行う◇◇
統計量→分散→分散の比のF検定
→(次の図のように選ぶ)


出力ウインドウに次にように出力される.
var.test(摂取量 ~ 分類, alternative='two.sided', conf.level=.95, data=x) F test to compare two variances data: 摂取量 by 分類 F = 1.4815, num df = 9, denom df = 9, p-value = 0.5675 alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 0.3679936 5.9646717 sample estimates: ratio of variances 1.48154
→P値が0.05よりも大きいから有意差なしと判断する.
◇◇F検定の結果を用いてtF検定を行う◇◇
統計量→平均→独立サンプルt検定→(次の図のように選ぶ)


出力ウインドウに次にように出力される.
t.test(摂取量~分類, alternative='two.sided', conf.level=.95, var.equal=TRUE,
+ data=x)

Two Sample t-test

data: 摂取量 by 分類
t = 0.9185, df = 18, p-value = 0.3705
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-2.703618 6.903618
sample estimates:
mean in group A mean in group B
57.9 55.8
→P値が0.05よりも大きいから有意差なしと判断する.
○平均の差のt検定(データに対応がある場合)
【例6】
 あるダイエット法が体重の減量に効果があるかどうかを調べる実験に,10人の女性が参加した.この療法に入る前と,2ヶ月間試みた後の体重(kg)を測定して次の結果を得た.
女性 1 2 3 4 5 6 7 8 9 10
51.0 55.2 52.6 61.2 55.4 57.1 58.6 61.4 57.8 67.6
51.8 55.6 50.9 59.6 54.5 56.4 58.0 60.3 56.9 66.0
体重は正規分布に従うとして,このダイエット法は減量に効果があるかどうかを有意水準5%で検定せよ.

問題の出典:「統計学演習」(培風館/村上正康.安田正實共著)初版第18刷 p.123,例題6
  A B C
1 女性
2 1 51.0 51.8
3 2 55.2 55.6
4 3 52.6 50.9
5 4 61.2 59.6
6 5 55.4 54.5
7 6 57.1 56.4
8 7 58.6 58.0
9 8 61.4 60.3
10 9 57.8 56.9
11 10 67.6 66.0
(参考)
 このWeb画面からデータをExcelに移す方法は前の項参照
[ポイント]
※個体番号ごとに前後のデータが同一人物のデータを表しているから「対応のある場合」とする.
※対応のある場合のt検定では標本の個数がそろっていなければならない.
※対応のある場合のt検定では,分散が等しいかどうかは問題にならない.
※両側検定にするか片側検定にするかは,標本から得られる情報ではなく分析者の関心によって決めなければならないとされている.ここでは「減量に効果があるか」に関心があるのだから,
帰無仮説 H0:平均の差が0
対立仮説 H1:前の平均>後の平均
とする片側検定を行う.

■Excel上でのt検定
[関数]
TTEST(データ1の範囲, データ2の範囲, 片側検定の場合は第3引数1とする, 対応のあるデータでは第4引数を1とする)によって平均値が等しいと仮定したときにそのt分布となる確率が返されるので,確率が0.05よりも小さければ有意差あり,大きければ有意差なしと判断する.
=TTEST(B2:B11,C2:C11,1,1)→0.008
確率が0.008<0.05だから有意差ありと判断する.
分析ツールを利用する場合
データ→データ分析→t検定:一対の標本による平均の検定→OK
t-検定: 一対の標本による平均の検定ツール    
     
 
平均 57.79 57
分散 23.054 19.164
観測数 10 10
ピアソン相関 0.988  
仮説平均との差異 0  
自由度 9  
t 2.998  
P(T<=t) 片側 0.008  
t 境界値 片側 1.833  
P(T<=t) 両側 0.015  
t 境界値 両側 2.262  
P値0.008が0.05よりも小さいから有意差ありと判断する.(または,t値が片側境界値よりも大きいから有意差ありと判断する.)
以上により効果があるといえる.
■Rコマンダーでのt検定
○Rコマンダーで使うデータは,左の問題の行列を入れ替えたもの(3列11行)の形でよい.
 左の問題文のデータをWeb画面上で女〜66.0までをドラッグ・コピーし,Excel上に単純に貼り付けると転記ミスなしに取り込むことができる.次に,Excel上でもう一度コピーし,貼り付け→行列を入れ替える ・・・・・・(1)

Excel上で(1)の範囲を変転表示にし,コピーし(メモリ=クリップボードに入れる.)

○ Rコマンダーのメニューで
データ→データのインポート→テキストファイルまたはクリップボード,URLから

データセット名を入力(→例えばyとする)
ファイル内に変数名あり(女性,前,後を含めてコピーしているのならチェックありのまま)
データファイルの場所(→クリップボード)
フィールドの区切り記号(→タブ)
→OK
[データセットを表示]で確かめる方がよい.
○ここからがRコマンダーを用いたt検定

統計量→平均→対応のあるt検定
→(右図のように選ぶ)
出力ウインドウに次にように出力される.
t.test(t_test3$前, t_test3$後, alternative='greater', conf.level=.95,
+ paired=TRUE)

Paired t-test

data: t_test3$前 and t_test3$後
t = 2.9981, df = 9, p-value = 0.007502
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
0.306971 Inf
sample estimates:
mean of the differences
0.79
P値が0.0075<0.05だから有意差ありと判断する.
以上により効果があるといえる.
...メニューに戻る ..Rのメニューに戻る