→ 携帯用は別ページ

《図解,例解,実習
--- R,Excel,生成AI..やさしい統計(1)

== 目次 ==
《Rの関数》・・・解説
pnorm()
qnorm()
prop.test()
binom.test()


(1) 位置引数とキーワード引数

共通(1):引数と戻り値

 様々なプログラミング言語で,関数に入力する値を引数という.
 例えば,プログラミング言語Pythonにおいて,次のように定義される関数area( )を使って,area(4, 5)と書けば,20が戻り値として返される.
def area(width, height):
	return width * height

共通(2):位置引数

 共通(1)の例では,area(4, 5)を実行することにより,関数定義において仮引数widthと書かれている箇所に値4が代入され,仮引数heightと書かれている箇所に5が代入される.
 このように,関数area( )に対する引数は,1番目の引数がwidthに置き替わり,2番目の引数がheightに置き換わるから,引数がどの仮引数に対応するかは,それが書かれている順序(位置)によって決まる.このように用いる引数を位置引数という.

共通(3):キーワード引数

 例えば,プログラミング言語Pythonにおいて,次のように定義される関数vol3( )を使って,vol3(height=3)と書けば,48が戻り値として返される.
def vol3(width=4, height=5):
	return (width ** 2) * height
 共通(2)のときのように,位置引数を使って関数を呼び出すには,第1引数,第2引数,...それぞれの働きを知っていなければならない.例えば,第1引数と第2引数を入れ換えて関数を呼び出すと結果が変わるのが普通.
 これに対して,共通(3)で示した引数はキーワード引数と呼ばれ,
〇1 「仮引数として使われている文字を使って引数を指定すると,引数の順序は自由に変えられる」
〇2 「引数を省略すれば,関数定義で指定された値が代入される」.
〇1 キーワード引数を使って,height=3と書けば,それが1番目に書かれているか,2番目に書かれているかに関係なく,仮引数heightに3の値が代入される.
〇2 キーワード引数widthに対応する値が省略されていれば,関数定義において指定されていた仮引数の値4が使われる.
以上により,vol3(height=3)は,(4**2)*3=48を返す.

共通(4):位置引数とキーワード引数の併用

 統計ソフトRでは,位置引数とキーワード引数が併用される関数もあり,
〇1 関数の定義においてデフォルトの値(省略されたときに使われる値)が =値 の形で書かれていない引数は,位置引数になり必ず書かなければならない.
〇2 関数の定義においてデフォルトの値(省略されたときに使われる値)が =値 の形で書かれている引数は,キーワード引数になり,どこに書いてもよく,省略されればデフォルトの値が使用される.

(2) 正規分布の確率
◆正規分布曲線
\(\displaystyle y=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\)
において,Xの値qが与えられたとき,正規分布曲線とx軸の間にできる図形の面積(確率)を求める.
◆下の図は,平均μ=0,標準偏差σ=1のときのグラフで,標準正規分布と呼ばれる.
\(\displaystyle y=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}\)
◆図においてP(X≦q)となる確率がpになる.
◇なお,高校の教科書の巻末などに書かれている正規分布表では,P(0≦X≦q)の値(図の濃い青で塗り込んだ図形の面積)p'=p−0.5が表になっている.
\(0\) \(x\) \(-2\) \(-1\) \(1\) \(2\) \(\textcolor{blue}{q}\) \(\textcolor{blue}{p}\) \(\textcolor{blue}{p'}\)

 A) 直接計算で求めたいとき
 次の形の積分計算を,初等的に求めることはできない.(有限回の和差積商,根号計算などでは表せない)
\(\displaystyle \int_{-\infty}^q\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}dx\)
 コンピュータを使って,区分求積法で求めることができる.
 例えば短冊形に1000等分した面積を足すと
などと,近似値を求めることはできる.(実際上,小数第3位まで求めることができれば,実用的には十分正確な値だと言えるでしょう)
※教科書の巻末などに付録で付いている正規分布表を見れば,qに対応する確率pの値が求められるようになっている.
 B) Rで求めるとき
 上の図のような正規分布曲線において,Xの値がq以下となる確率(曲線の下にできる図形の面積)が水色の図形の面積pで定義されている.
【R1】
pnorm(q, mean = 0, sd = 1, lower.tail = TRUE)
 Rのコンソールからhelp(pnorm)と入力すると,ヘルプを使って関数pnorm()の解説が読める.
 各々の引数は,次のように使われる.
〇 mean:平均.省略された場合は,0が用いられる.
〇 sd:標準偏差.省略された場合は,1が用いられる.
〇 lower.tail:境界線よりも左側の面積.省略された場合,X≦qとなる水色部分の図形の面積pになる.lower.tail=FALSEとすれば,境界線よりも右側の桃色部分の図形の面積になる.
〇 log.p:確率の対数で返されるかどうか.通常使わないから,この引数は省略すればよい.(FALSEとなって,対数にはならない)
〇 q:この値は必ず書かなければならない.

【例R1.1】 pnorm(1) ⇒ 0.8413447
  • mean が省略されたら,mean=0,すなわち,平均0と書いたことになる.
  • sd が省略されたら,sd=1すなわち,標準偏差1と書いたことになる.
  • ここまでで,平均 0,標準偏差 1の「標準正規分布」になっている.
  • pnorm(1)という形で,1つの引数だけが指定されたとき,その値は,標準正規分布のz値を表す.
  • lower.tailが省略されているから,lower.tail=TRUEと解されて,z値よりも左側の面積(確率)を表す.
  • P(z≦1)=0.8413すなわち,高校の教科書の正規分布表でP(0≦z≦1)=0.3413と書かれていることに対応する
\(0\) \(z\) \(-2\) \(-1\) \(1\) \(2\) \(\textcolor{blue}{p=0.8413}\) \(\textcolor{#0000dd}{p'=0.3413}\)

【例R1.2】 pnorm(2, lower.tail = FALSE) ⇒ 0.0227
  • mean が省略されたら,mean=0,すなわち,平均0と書いたことになる.
  • sd が省略されたら,sd=1すなわち,標準偏差1と書いたことになる.
  • ここまでで,平均 0,標準偏差 1の「標準正規分布」になっている.
  • 1つの引数2だけが指定されたとき,その値は,標準正規分布のz値を表す.
  • lower.tail=FALSEにより,z値よりも右側の面積(確率)を表す.
  • P(z≧2)=0.0227と書かれていることに対応する
\(0\) \(z\) \(-2\) \(-1\) \(1\) \(2\) \(\textcolor{red}{p=0.0227}\)

※なお,Rでは一般に,TRUE, T, 1は真に対応し,FALSE, F, 0は偽に対応するが,True, true,False, false(一部または全部が小文字)は使えない.

【例R1.3】 pnorm(sd=5, mean=10, 7.5) ⇒ 0.3085
\(10\) \(x\) \(15\) \(20\) \(25\) \(5\) \(0\) \(-5\) \(\textcolor{blue}{p=0.3085}\)

 単独で数値を書いたもの7.5は,3番目に書かれていてもqの値として受け止められ,平均10,標準偏差5の正規分布で,確率P(−∞<X≦7.5)を求めている.
 平均\(m\),標準偏差\(s\)の正規分布で\(x\leqq q\)の範囲に入る確率を,標準正規分布\(z\)の範囲に直して考えるときは,\(z\leqq\frac{q-m}{s}\)に対応する.
\(1\) \(2\) \(0\) \(-1\) \(-2\) \(z\) \(z=\frac{q-m}{s}\)

pnorm(x, mean=m, sd=s) ⇔ z=(x-m)/s pnorm(z)
【例】
pnorm(30, mean=20, sd=10) ⇒ 0.8413
z=(30-20)/10
pnorm(z) ⇒ 0.8413
【例】
pnorm(0.8, mean=1.5, sd=0.3) ⇒ 0.0098
z=(0.8-1.5)/0.3
pnorm(z) ⇒ 0.0098

※なお,q=7.5のようにqをキーワード引数として代入することはできない.
 C) Excelで求めるとき
Microsoft Excel Online, Google Spread Sheetsも同様)
 Excelでは,ワークシート関数
【Ex1】
=NORM.DIST(x, 平均, 標準偏差, 累積分布関数ならTRUE)
において,引数は位置引数として用いられる。すなわち,1番目の数字はxを,2番目の数字は平均を,・・・というように決められた順に引数の意味が決まっている.4番目の引数は省略されれば累積分布関数(左端からの面積の総和)を表すようになっているから,書かなくてもよい.
〇 第1引数xの値により,X≦xとなる水色部分の図形の面積を求める.
〇 第2引数は正規分布の平均を表す.
〇 第3引数は正規分布の標準偏差を表す.
〇 第4引数にTRUEを指定した場合,X≦xとなる水色部分の図形の面積(累積分布関数)を返す.
 第4引数にFALSEを指定した場合は,X=xとなる確率密度関数(x軸から正規分布曲線までのy座標)になる.
※Excelのこの関数で,第1引数から第4引数まで「どれも省略できない」=省略すればエラーになる.
【例Ex1.1】
NORM.DIST(7.5, 10, 5, TRUE) ⇒ 0.3085
 平均10,標準偏差5の正規分布において,x≦7.5となる確率を求める.上の図の青い背景色の部分の面積は,0.3085になる.
\(10\) \(x\) \(0\) \(5\) \(15\) \(20\) \(\textcolor{blue}{7.5}\) \(\textcolor{blue}{p=0.3085}\)

【例Ex1.2】
 NORM.DIST(11, 5, 3, TRUE) ⇒ 0.9772
 平均5,標準偏差3の正規分布においてP(X≦11)となる図形の面積は,0.9772
【例Ex1.2】
NORM.DIST(0, 0, 1, FALSE) ⇒ 0.3989
 第4引数にFALSEを指定すると,確率密度関数(確率分布関数のy座標)を返す.
 平均0,標準偏差1(標準正規分布)において,z=0となる点のy座標は0.3989
\(\displaystyle y=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}\)
において\(x=0\)のとき\(\displaystyle y=\frac{1}{\sqrt{2\pi}}e^{0}=\frac{1}{\sqrt{2\pi}}=0.3989\)
\(1\) \(2\) \(0\) \(-1\) \(-2\) \(z\) \(y\)


 Excelで,標準正規分布関数を使って,z値から確率を求める.(.S.が付いているのは,各々の標準・・・関数)
【Ex2】
=NORM.S.DIST(z, 累積分布関数ならTRUE)
 標準正規分布関数では,平均0,標準偏差1と決まっているから,z値を指定すると確率が決まる.
 但し,第2引数に累積分布関数(左側の確率)ならTRUE,確率密度関数ならFALSEを指定する.(省略できない)
〇 第1引数zの値により,Z≦zとなる水色部分の図形の面積を求める.
〇 第2引数はTRUEまたはFALSE
※Excelのこの関数で,第1引数から第2引数まで「どれも省略できない」=省略すればエラーになる.
【例Ex2.1】
 NORM.S.DIST(1.96, TRUE) ⇒ 0.9750
 標準正規分布においてP(Z≦1.96)となる図形の面積は,0.9750
\(1\) \(2\) \(0\) \(-1\) \(-2\) \(1.96\) \(p=0.95\) \(z\)

NORM.DIST(x, 平均, 標準偏差, TRUE)
z=(x−平均)/標準偏差 NORM.S.DIST(z, TRUE)
【例】
NORM.DIST(7.5, 10, 5, TRUE) ⇒ 0.3085
z=(7.5-10)/5
NORM.S.DIST(z) ⇒ 0.3085
【例】
NORM.DIST(0.12, 6, 3, TRUE) ⇒ 0.0250
z=(0.12-6)/3
NORM.S.DIST(z) ⇒ 0.0250
 D) 生成AIを使って,直接答えを尋ねるとき
 ChatGPT,Google Gemini,Microsoft Copilotのいずれでも,次のように入力した場合
【GPT1.1】
平均10,標準偏差12の正規分布において,x≦8となる確率を求めてください.
(返される答案)
 標準正規分布に変換した値で確率の計算が行われ,「途中経過」「解答」とも示される.
ChatGPT
P(X≦8)=P(Z≦−0.1667)≈0.4337・・・(答)
Google Gemini
P(X≦8)=P(Z≦−0.17)≈0.4325・・・(答)
Microsoft Copilot
P(X≦8)=P(Z≦−0.1667)≈0.4337・・・(答)
※微妙に小数第3,4位の数字が合わないが,zを求めるときの小数第3位を四捨五入するかどうかの違い.やっている事が分かれば,精度を上げるのは各自でどうぞ.
 参考までに,
Rでpnorm(8,mean=10,sd=12)を求めた値は0.4338,
Excelで=NORM.DIST(8,10,12,TRUE)を求めた値は0.4338

(3) 正規分布の逆変換
◆正規分布で,下側確率pが与えられたときのXの値qを求める.
◆次の図においてp=P(X≦q)となるqを求める.
\(\textcolor{blue}{p}\) \(\textcolor{blue}{q}\) \(\textcolor{red}{\rm{lower.tail=FALSE}}\)


 A) 直接計算で求めたいとき
 正規分布において,確率pに対応するXの値qの値を筆算で求めることはできない.
※教科書の巻末などに付いている正規分布表(標準正規分布表)を見れば,確率pに対応するXの値qの値が求められるようになっている.
 B) Rで求めるとき
 上の図のような正規分布曲線において,Xの値がq以下となる確率(曲線の下にできる図形の面積)が水色の図形の面積pで定義されている.
【R2】
qnorm(p, mean = 0, sd = 1, lower.tail = TRUE)
 各々の引数は,次のように使われる.
〇 mean:平均.省略された場合は,0が用いられる.
〇 sd:標準偏差.省略された場合は,1が用いられる.
〇 lower.tail=TRUE : 境界線よりも左側の面積になる.省略された場合も lower.tail=TRUE となって,X≦qとなる水色部分の図形の面積pになる. lower.tail=FALSEとすれば,境界線よりも右側の桃色部分の図形の面積になる.
 通常,高校の教科書の巻末に書かれている正規分布表では,P(0≦X≦q)の値(0以上の値:右半分の部分)が表として示されている.
〇 log.p:確率の対数で返されるかどうか.通常使わないから,この引数は省略すればよい.(FALSEとなって,対数にはならない)
〇 p:この値は必ず書かなければならない.(0≦p≦1に対してqの値が決まるから,p<0p>1の値を指定すると,エラー(NaN⇔数値でない)になる)

【例R2.1】 qnorm(0.5) ⇒ 0
qnorm(0.5, mean = 0, sd = 1, lower.tail = TRUE)と書いたことになり,P(X≦0)=0.5に対応する
【例R2.2】 qnorm(0.05, lower.tail = FALSE) ⇒ 1.644854
qnorm(0.05, mean = 0, sd = 1, lower.tail = FALSE)と書いたことになり,P(X>q)=0.05(上5%の片側検定,桃色の部分の面積)に対応するqの値が約1.65sdであることに対応する
【例R2.3】 qnorm(0.025, sd=10) ⇒ −19.5996
qnorm(0.025, mean = 0, sd = 10, lower.tail = TRUE)と書いたことになり,P(X>q)=0.025(下側2.5%の片側検定)に対応するqの値が約−1.96sdであることに対応する
 C) Excelで求めるとき
Microsoft Excel Online, Google Spread Sheetsも同様)
 Excelでは,ワークシート関数
【R3】
NORM.INV(確率p, 平均m, 標準偏差s)
において,引数は位置引数として用いられる。すなわち,1番目の数字は確率を,2番目の数字は平均を,3番目の数字は標準偏差を表す.
【例R3.4】 =NORM.INV(0.65, 5, 3) ⇒ 6.1559
\(\textcolor{blue}{p=0.65}\) \(\textcolor{blue}{6.156}\) \(5\) \(8\) \(11\) \(2\) \(-1\) \(x\)

 平均5,標準偏差3の正規分布において,背景色が青の図形の面積が0.65になるようなxの値を求めると,6.1559になる.
(標準正規分布でP(Z≦z)となる確率がpとなるzの値を求める)
【R4】
NORM.S.INV(確率p)
引数は1つだけでよい.
【例R4.1】 =NORM.S.INV(0.65) ⇒ 0.3853

正規分布の逆変換
 NORM.INV(確率p, 平均m, 標準偏差s) ⇒ xとする
標準正規分布の逆変換
 NORM.S.INV(確率p) ⇒ zとするとき,これらの関係は
\(\displaystyle z=\frac{x-m}{s}\)
\(x=m+z*s\)
【例R34.1】
NORM.INV(0.75, 8, 5) ⇒ x=11.3724・・・@
このとき,次のAで計算したものは,z=(x−8)*5と等しい
NORM.S.INV(0.75) ⇒ z=0.6745・・・A
このとき,@で計算したものは,x=8+5*zと等しい.
 D) 生成AIを使って,直接答えを尋ねるとき
 ChatGPT,Google Gemini,Microsoft Copilotのいずれでも,次のように入力した場合
【例4】
平均5,標準偏差3の正規分布で,x≦qとなる確率が0.65のとき,qの値は幾らか.
(返される答案)
 q≒6.155が示される.

(4) 母平均(母集団の平均値)の区間推定
  ・・・大標本:正規分布が使えるとき
95%信頼区間,σが既知の場合
【例】
 母標準偏差σ=12の母集団から大きさn=36の標本を無作為抽出した.標本平均が\(\bar{x}\)=10のとき,母平均μの信頼度95%の信頼区間を求めてください.
\(0\) \(\bar{x}\) \(z\) \(-2\) \(-1\) \(1\) \(2\) \(\textcolor{red}{1.96}\) \(\bar{x}+\frac{\sigma}{\sqrt{n}}\) \(\bar{x}+\textcolor{red}{1.96}\frac{\sigma}{\sqrt{n}}\) \(\bar{x}+2\frac{\sigma}{\sqrt{n}}\) \(\textcolor{blue}{p=0.95}\) \(\textcolor{red}{0.025}\)

 母標準偏差σが既知の場,大きさnの標本の標本平均\(\bar{x}\)の分布は,平均\(\mu\),標準偏差\(\frac{\sigma}{\sqrt{n}}\)の正規分布で近似できる.
 そこで,95%の信頼区間は
\(\displaystyle\bar{x}-1.96\frac{\sigma}{\sqrt{n}}\leqq\mu\leqq\bar{x}+1.96\frac{\sigma}{\sqrt{n}}\)
 A) 直接計算で求めるとき
\(\displaystyle \frac{\sigma}{\sqrt{n}}=\frac{12}{\sqrt{36}}=2\)
\(\displaystyle 1.96\frac{\sigma}{\sqrt{n}}=1.96\times 2=3.92\)
\(\displaystyle 10-3.92\leqq\mu\leqq 10+3.92\)
\(\displaystyle 6.08\leqq\mu\leqq 13.92\)・・・(答)
 B) Rで求めるとき
 Rでは,次の関数qnormを使うことができる.
qnorm(p,mean=0,sd=1,lower.tail=TRUE)
上の図において,p=0.975, lower.tail=TRUEとおくと,両側確率5%となる上側の限界値qが返される.
qnorm(0.975,mean=10,sd=12/sqrt(36),lower.tail=TRUE)
により,13.91993が得られる.
qnorm(0.025,mean=10,sd=12/sqrt(36),lower.tail=FALSE)によって,図の桃色の面積0.025から上側の限界値qを求めることもできる
また,
qnorm(0.025,mean=10,sd=12/sqrt(36),lower.tail=TRUE)
により,下側の限界値 6.080072が得られる.
 以上により,\(\displaystyle 6.08\leqq\mu\leqq 13.92\)・・・(答)
 C) Excelで求めるとき
(Microsoft Excel Online, Google Spread Sheetsも同様)
●Excelでは,ワークシート関数
NORM.INV(確率,平均,標準偏差)
において,確率に上の図のpの確率(求めたい限界値の下側の確率),平均に標本平均,標準偏差に\(\frac{\sigma}{\sqrt{n}}\)を引数として代入すると,限界値qが返される.
=NORM.INV(0.975,10,12/SQRT(36))
により,13.91992797が得られる. また,
=NORM.INV(0.025,10,12/SQRT(36))
により,下側の限界値 6.080072031が得られる.
 以上により,\(\displaystyle 6.08\leqq\mu\leqq 13.92\)・・・(答)
●Excelでは,ワークシート関数
=CONFIDENCE.NORM(有意水準,標準偏差,標本数)
により,(平均)±(誤差の範囲)となる誤差の範囲が計算できる.
 この問題では,=CONFIDENCE.NORM(0.05,12,36)により3.919927969が得られるので
 \(\displaystyle 10-3.92\leqq\mu\leqq 10+3.92\)
 \(\displaystyle 6.08\leqq\mu\leqq 13.92\)・・・(答)
 D) 生成AIを使って,直接答えを尋ねるとき
 ChatGPT,Google Gemini,Microsoft Copilotのいずれでも,次のように入力した場合
統計で標本大きさn=36,標本平均10,母標準偏差12のとき,母集団の95%信頼区間を求めてください.
(返される答案)
 \(\displaystyle \frac{12}{\sqrt{36}}=2\) などの計算を経て [ 6.08, 13.92 ] の区間が示される.

母平均(母集団の平均値)の区間推定
  ・・・大標本:正規分布が使えるとき
99%信頼区間,σが既知の場合
【例】
 母標準偏差σ=12の母集団から大きさn=36の標本を無作為抽出した.標本平均が\(\bar{x}\)=10のとき,母平均μの信頼度99%の信頼区間を求めてください.
\(0\) \(\bar{x}\) \(z\) \(-2\) \(-1\) \(1\) \(2\) \(\textcolor{red}{2.58}\) \(\textcolor{red}{-2.58}\) \(\textcolor{blue}{p=0.99}\) \(\textcolor{red}{0.005}\) \(\textcolor{red}{0.005}\)

 母標準偏差σが既知の場,大きさnの標本の標本平均\(\bar{x}\)の分布は,平均\(\mu\),標準偏差\(\frac{\sigma}{\sqrt{n}}\)の正規分布で近似できる.
 そこで,99%の信頼区間は
\(\displaystyle\bar{x}-2.58\frac{\sigma}{\sqrt{n}}\leqq\mu\leqq\bar{x}+2.58\frac{\sigma}{\sqrt{n}}\)
 A) 直接計算で求めるとき
※筆算で求めるときは,2.58という定数を覚えていなければならない.
\(\displaystyle \frac{\sigma}{\sqrt{n}}=\frac{10}{\sqrt{100}}=1\)
\(\displaystyle 2.58\frac{\sigma}{\sqrt{n}}=2.58\times 1=2.58\)
\(\displaystyle 50-2.58\leqq\mu\leqq 50+2.58\)
\(\displaystyle 47.42\leqq\mu\leqq 52.58\)・・・(答)
 B) Rで求めるとき
 Rでは,次の関数qnormを使うことができる.
qnorm(p,mean=0,sd=1,lower.tail=TRUE)
上の図において,p=0.005, lower.tail=FALSEとおくと,両側確率1%となる上側の限界値qが返される.
qnorm(0.005,mean=50,sd=10/sqrt(100),lower.tail=FALSE)
により,52.58が得られる.
また,
qnorm(0.005,mean=50,sd=10/sqrt(100),lower.tail=TRUE)
により,下側の限界値 47.42が得られる.
 以上により,\(\displaystyle 47.42\leqq\mu\leqq 52.58\)・・・(答)
 C) Excelで求めるとき
(Microsoft Excel Online, Google Spread Sheetsも同様)
●Excelでは,ワークシート関数
NORM.INV(確率,平均,標準偏差)
において,確率に上の図のpの確率(求めたい限界値の下側の確率),平均に標本平均,標準偏差に\(\frac{\sigma}{\sqrt{n}}\)を引数として代入すると,限界値qが返される.
=NORM.INV(0.995,50,10/SQRT(100))
により,52.58が得られる.
また,
=NORM.INV(0.005,50,10/SQRT(100))
により,下側の限界値 47.42が得られる.
 以上により,\(\displaystyle 47.42\leqq\mu\leqq 52.58\)・・・(答)
●Excelでは,ワークシート関数
=CONFIDENCE.NORM(有意水準,標準偏差,標本数)
により,(平均)±(誤差の範囲)となる誤差の範囲が計算できる.
 この問題では,=CONFIDENCE.NORM(0.01,10,100)により2.58が得られるので
 \(\displaystyle 50-2.58\leqq\mu\leqq 50+2.58\)
 \(\displaystyle 47.42\leqq\mu\leqq 52.58\)・・・(答)
 D) 生成AIを使って,直接答えを尋ねるとき
 ChatGPT,Google Gemini,Microsoft Copilotのいずれでも,次のように入力した場合
統計で,標準偏差10,標本平均50,標本の大きさが100のとき,母平均の99%信頼区間を求めてください.
(返される答案)
 \(\displaystyle 2.58\times\frac{10}{\sqrt{100}}=2.58\) などの計算を経て [ 47.42, 52.58 ] の区間が示される.

(5) 母平均(母集団の平均値)の区間推定
  ・・・大標本:正規分布が使えるとき
95%信頼区間,σが未知の場合
【例】
 標本平均が\(\bar{x}\)=15,標本標準偏差s=10.3の大きさn=64の標本について,母平均μの信頼度95%の信頼区間を求めてください.
 ※大標本(標本の大きさが概ね30以上の大きな標本)の場合,母標準偏差σと標本標準偏差sはほとんど等しいとみなしてよい.そこで,母標準偏差σが未知の場合,その代わりに標本標準偏差sを使ってよい.
 95%の信頼区間は
\(\displaystyle\bar{x}-1.96\frac{s}{\sqrt{n}}\leqq\mu\leqq\bar{x}+1.96\frac{s}{\sqrt{n}}\)
 A) 直接計算で求めるとき
\(\displaystyle \frac{s}{\sqrt{n}}=\frac{10.3}{\sqrt{64}}=1.2875\)
\(\displaystyle 1.96\frac{\sigma}{\sqrt{n}}=1.96\times 1.2875=2.5235\)
\(\displaystyle 15-2.5235\leqq\mu\leqq 15+2.5235\)
\(\displaystyle 12.48\leqq\mu\leqq 17.52\)・・・(答)
 B) Rで求めるとき
 Rでは,次の関数qnormを使うことができる.
qnorm(p,mean=0,sd=1,lower.tail=TRUE)
上の図において,p=0.975, lower.tail=TRUEとおくと,両側確率5%となる上側の限界値qが返される.
qnorm(0.975,mean=15,sd=10.3/sqrt(64))
により,17.52が得られる.
qnorm(0.025,,mean=15,sd=10.3/sqrt(64),
lower.tail=FALSE)によって,図の桃色の面積0.025から上側の限界値qを求めることもできる
また,
qnorm(0.025,mean=15,sd=10.3/sqrt(64))
により,下側の限界値 12.48が得られる.
 以上により,\(\displaystyle 12.48\leqq\mu\leqq 17.52\)・・・(答)
 C) Excelで求めるとき
(Microsoft Excel Online, Google Spread Sheetsも同様)
●Excelでは,ワークシート関数
NORM.INV(確率,平均,標準偏差)
において,確率に上の図のpの確率(求めたい限界値の下側の確率),平均に標本平均,標準偏差に\(\frac{s}{\sqrt{n}}\)を引数として代入すると,限界値qが返される.
=NORM.INV(0.975,15,10.3/SQRT(64))
により,17.52が得られる. また,
=NORM.INV(0.025,15,10.3/SQRT(64))
により,下側の限界値 12.48が得られる.
 以上により,\(\displaystyle 12.48\leqq\mu\leqq 17.52\)・・・(答)
●Excelでは,ワークシート関数
=CONFIDENCE.NORM(有意水準,標準偏差,標本数)
により,(平均)±(誤差の範囲)となる誤差の範囲が計算できる.
 この問題では,=CONFIDENCE.NORM(0.05,10.3,64)により2.52が得られるので
 \(\displaystyle 15-2.52\leqq\mu\leqq 15+2.52\)
 \(\displaystyle 12.48\leqq\mu\leqq 17.52\)・・・(答)
 D) 生成AIを使って,直接答えを尋ねるとき
 ChatGPT,Microsoft Copilotで,次のように入力した場合
標本平均が15,標本標準偏差10.3の大きさn=64の標本について,母平均の信頼度95%の信頼区間を求めてください.
(返される答案)
 「標本の大きさがn=64 と大きいので,近似的にZ分布でも構いませんが,厳密にはt分布を使います」という断り書きが示され,t分布を用いた答案になる.
 \(\displaystyle \frac{12}{\sqrt{36}}=2\) などの計算を経て [ 6.08, 13.92 ] の区間が示される.

 Google Geminiで,次のように入力した場合
標本平均が15,標本標準偏差10.3の大きさn=64の標本について,母平均の信頼度95%の信頼区間を求めてください.
(返される答案)
 「標本の大きさが十分に大きい場合、標本標準偏差を母標準偏差の良い推定値とみなせる」ということを使ってz分布を用いた答案が示される  \(\displaystyle \frac{10.3}{\sqrt{64}}=1.2875\) などの計算を経て,自由度63のt分布から [12.43, 17.58] の区間が示される.

99%信頼区間,σが未知の場合
【例】
 標本平均が\(\bar{x}\)=20,標本標準偏差s=5の大きさn=100の標本について,母平均μの信頼度99%の信頼区間を求めてください.
 ※大標本(標本の大きさが概ね30以上の大きな標本)の場合,母標準偏差σと標本標準偏差sはほとんど等しいとみなしてよい.そこで,母標準偏差σが未知の場合,その代わりに標本標準偏差sを使ってよい.
 99%の信頼区間は
\(\displaystyle\bar{x}-2.58\frac{s}{\sqrt{n}}\leqq\mu\leqq\bar{x}+2.58\frac{s}{\sqrt{n}}\)
 A) 直接計算で求めるとき
 ※試験などで,コンピュータが利用できない場面で,直接計算で行う場合,±2.58という数字は覚えていなければならない.
\(\displaystyle \frac{s}{\sqrt{n}}=\frac{5}{\sqrt{100}}=0.5\)
\(\displaystyle 2.58\frac{\sigma}{\sqrt{n}}=2.58\times 0.5=1.29\)
\(\displaystyle 20-1.29\leqq\mu\leqq 20+1.29\)
\(\displaystyle 18.71\leqq\mu\leqq 21.29\)・・・(答)
 B) Rで求めるとき
 Rでは,次の関数qnormを使うことができ,±2.58という数字を覚えていなくてもできる.
qnorm(p,mean=0,sd=1,lower.tail=TRUE | FALSE)
上の図において,p=0.005/2, lower.tail=TRUEとおくと,両側確率1%となる下側の限界値qが返される.
qnorm(0.005/2,mean=20,sd=5/sqrt(100),lower.tail=TRUE)
により,下側の限界値 18.71209が得られる. また,
qnorm(0.005/2,mean=20,sd=5/sqrt(100),lower.tail=FALSE)
により,上側の限界値 21.28791が得られる.
 以上により,\(\displaystyle 18.71\leqq\mu\leqq 21.29\)・・・(答)
 C) Excelで求めるとき
(Microsoft Excel Online, Google Spread Sheetsも同様)
●Excelでは,ワークシート関数
NORM.INV(確率,平均,標準偏差)
において,確率に上の図のpの確率(求めたい限界値の下側の確率),平均に標本平均,標準偏差に\(\frac{s}{\sqrt{n}}\)を引数として代入すると,限界値qが返される.
=NORM.INV(0.01/2,20,5/SQRT(100))
により,下側限界値 18.71208535が得られる.
また,
=NORM.INV(1−0.01/2,20,5/SQRT(100))
により,上側の限界値 21.28791465が得られる.
 以上により,\(\displaystyle 18.71\leqq\mu\leqq 21.29\)・・・(答)
●Excelでは,ワークシート関数
=CONFIDENCE.NORM(有意水準,標準偏差,標本数)
により,(平均)±(誤差の範囲)となる誤差の範囲が計算できる.
 この問題では,=CONFIDENCE.NORM(0.01,5,100)により1.29が得られるので
 \(\displaystyle 20-1.29\leqq\mu\leqq 20+1.29\)
 \(\displaystyle 18.71\leqq\mu\leqq 21.29\)・・・(答)
 D) 生成AIを使って,直接答えを尋ねるとき
 ChatGPT,Microsoft Copilotでは,次のように入力した場合,t分布を用いて範囲を求めるので,学説としては正しくても,高校数学の範囲を逸脱するため,問題あり.
標本平均が20,標本標準偏差5,大きさn=100の標本について,母平均の信頼度99%信頼区間を求めてください.
(返される答案)
 t分布を用いた答案になり, [ 18.687, 21.313 ] の区間が示される.

 Google Geminiで,次のように入力した場合は,正規分布を用いた答案が示される.
標本平均が20,標本標準偏差5,大きさn=100の標本について,母平均の信頼度99%信頼区間を求めてください.
(返される答案)
 信頼区間は [18.712, 21.288] です。

母比率の区間推定
  ・・・大標本:正規分布が使えるとき
95%信頼区間,σが未知の場合
【例】
 ある製品100個を検査したところ,不良品が8個あった.この製品全体について不良品の割合を信頼度95%で推定してください.
 標本の大きさがnの大標本(概ね30以上)の場合,標本比率をRとするとき,母比率pに対する95%の信頼区間は
\(\displaystyle R-1.96\sqrt{\frac{R(1-R)}{n}}\leqq p\leqq R+1.96\sqrt{\frac{R(1-R)}{n}}\)
 99%の信頼区間は
\(\displaystyle R-2.58\sqrt{\frac{R(1-R)}{n}}\leqq p\leqq R+2.58\sqrt{\frac{R(1-R)}{n}}\)
 A) 直接計算で求めるとき
 ※試験などで,コンピュータが利用できない場面で,直接計算で行う場合,±1.96という数字は覚えていなければならない.
\(\displaystyle \sqrt{\frac{R(1-R)}{n}}=\sqrt{\frac{0.08\times 0.92}{100}}= 0.0271\)
\(\displaystyle 1.96\sqrt{\frac{R(1-R)}{n}}=1.96\times 0.0271=0.053\)
\(\displaystyle 0.08-0.053\leqq p \leqq 0.08+0.053\)
\(\displaystyle 0.027\leqq p\leqq 0.133\)・・・(答)
 B) Rで求めるとき
 Rでは,次の関数qnormを使うことができ,±1.96という数字を覚えていなくてもできる.
qnorm(p,mean=0,sd=1,lower.tail=TRUE | FALSE)
p=0.005/2, lower.tail=TRUEとおくと,両側確率1%となる下側の限界値qが返される.
qnorm(0.025,mean=0.08,sd=sqrt(0.08*0.92/100),
lower.tail=TRUE)
により,下側の限界値 0.02682751が得られる. また,
qnorm(0.025,mean=0.08,sd=sqrt(0.08*0.92/100),
lower.tail=FALSE)
により,上側の限界値 0.1331725が得られる.
 以上により,\(\displaystyle 0.027\leqq p\leqq 0.133\)・・・(答)
 C) Excelで求めるとき
(Microsoft Excel Online, Google Spread Sheetsも同様)
●Excelでは,ワークシート関数
NORM.INV(確率,平均,標準偏差)
=NORM.INV(0.975,0.08, SQRT(0.08*0.92/100))
により,上側限界値 0.13317249が得られる.
また,
=NORM.INV(0.025,0.08, SQRT(0.08*0.92/100))
により,下側の限界値 0.02682751が得られる.
 以上により,\(\displaystyle 0.027\leqq p\leqq 0.133\)・・・(答)
●Excelでは,ワークシート関数
=CONFIDENCE.NORM(有意水準,標準偏差,標本数)
により,(平均)±(誤差の範囲)となる誤差の範囲が計算できる.
今の場合,標準偏差を\(\sqrt{R(1-R)}\)とするところが,少し考えるところ.
 この問題では,=CONFIDENCE.NORM(0.05,SQRT(0.08*0.92),100)により0.0531が得られるので
 \(\displaystyle 0.08-0.053\leqq p\leqq 0.08+0.053\)
 \(\displaystyle 0.027\leqq\mu\leqq 0.133\)・・・(答)
 D) 生成AIを使って,直接答えを尋ねるとき
 ChatGPT,Microsoft Copilot,Google Geminiで,次のように入力した場合は,正規分布を用いた答案が示される.
ある製品100個を検査したところ,不良品が8個あった.この製品全体について不良品の割合を信頼度95%で推定してください.
(返される答案)
 信頼区間は 2.7%〜13.3% です。

母比率の区間推定
  ・・・大標本:正規分布が使えるとき
99%信頼区間,σが未知の場合
【例】
 サイコロを60回投げて1の目が10回出たとき,1の目が出る確率の99%信頼区間を求めてください.
 標本の大きさがnの大標本(概ね30以上)の場合,標本比率をRとするとき,母比率pに対する99%の信頼区間は
\(\displaystyle R-2.58\sqrt{\frac{R(1-R)}{n}}\leqq p\leqq R+2.58\sqrt{\frac{R(1-R)}{n}}\)
 A) 直接計算で求めるとき
 ※試験などで,コンピュータが利用できない場面で,直接計算で行う場合,±2.58という数字は覚えていなければならない.
\(\displaystyle \sqrt{\frac{R(1-R)}{n}}=\sqrt{\frac{0.08\times 0.92}{100}}= 0.0271\)
\(\displaystyle 1.96\sqrt{\frac{R(1-R)}{n}}=1.96\times 0.0271=0.053\)
\(\displaystyle 0.08-0.053\leqq p \leqq 0.08+0.053\)
\(\displaystyle 0.027\leqq p\leqq 0.133\)・・・(答)
 B) Rで求めるとき
 Rでは,次の関数qnormを使うことができ,±1.96という数字を覚えていなくてもできる.
qnorm(p,mean=0,sd=1,lower.tail=TRUE | FALSE)
p=0.005/2, lower.tail=TRUEとおくと,両側確率1%となる下側の限界値qが返される.
qnorm(0.005,mean=1/6,sd=sqrt(1/6*5/6/60),
lower.tail=TRUE)
により,下側の限界値 0.04273702が得られる. また,
qnorm(0.005,mean=1/6,sd=sqrt(1/6*5/6/60),
lower.tail=FALSE)
により,上側の限界値 0.2905963が得られる.
 以上により,\(\displaystyle 0.043\leqq p\leqq 0.291\)・・・(答)
 C) Excelで求めるとき
(Microsoft Excel Online, Google Spread Sheetsも同様)
●Excelでは,ワークシート関数
NORM.INV(確率,平均,標準偏差)
=NORM.INV(0.995,1/6, SQRT(1/6*5/6/60))
により,上側限界値 0.290596312が得られる.
また,
=NORM.INV(0.005,1/6, SQRT(1/6*5/6/60))
により,下側の限界値 0.042737022が得られる.
 以上により,\(\displaystyle 0.043\leqq p\leqq 0.291\)・・・(答)
●Excelでは,ワークシート関数
=CONFIDENCE.NORM(有意水準,標準偏差,標本数)
により,(平均)±(誤差の範囲)となる誤差の範囲が計算できる.
今の場合,標準偏差を\(\sqrt{R(1-R)}\)とするところが,少し考えるところ.
 この問題では,=CONFIDENCE.NORM(0.01, SQRT(1/6*5/6), 60)により0.124が得られるので
 \(\displaystyle 1/6-0.124\leqq p\leqq 1/6+0.12\)
 \(\displaystyle 0.043\leqq\mu\leqq 0.291\)・・・(答)
 D) 生成AIを使って,直接答えを尋ねるとき
 ChatGPT,Microsoft Copilot,Google Geminiで,次のように入力した場合は,正規分布を用いた答案が示される.
【例】
サイコロを60回投げて1の目が10回出たとき,1の目が出る確率の99%信頼区間を求めてください.
(返される答案)
 信頼区間は 4.3%〜29.1% です。

標本の大きさの求め方(母平均95%信頼区間)
  ・・・大標本:正規分布が使えるとき
σが既知の場合
【例】
 1個当たりの重さが正規分布にしたがう製品があるとき,母標準偏差がσ=3(g)である母集団から標本を無作為抽出して,95%信頼区間の幅を1(g)以下にするためには,標本の大きさnを何個にすればよいか.
 母標準偏差σが既知の場合,大きさnの標本の標本平均\(\bar{x}\)の分布は,平均\(\mu\),標準偏差\(\frac{\sigma}{\sqrt{n}}\)の正規分布で近似できる.
 95%の信頼区間は
\(\displaystyle\bar{x}-1.96\frac{\sigma}{\sqrt{n}}\leqq\mu\leqq\bar{x}+1.96\frac{\sigma}{\sqrt{n}}\)
 このとき信頼区間の幅は
\(\displaystyle 2\times 1.96\frac{\sigma}{\sqrt{n}}\)
 99%の信頼区間は
\(\displaystyle\bar{x}-2.58\frac{\sigma}{\sqrt{n}}\leqq\mu\leqq\bar{x}+2.58\frac{\sigma}{\sqrt{n}}\)
 このとき信頼区間の幅は
\(\displaystyle 2\times 2.58\frac{\sigma}{\sqrt{n}}\)
\(0\) \(\bar{x}\) \(z\) \(-2\) \(-1\) \(1\) \(2\) \(\textcolor{red}{1.96}\) \(\bar{x}+\frac{\sigma}{\sqrt{n}}\) \(\bar{x}+\textcolor{red}{1.96}\frac{\sigma}{\sqrt{n}}\) \(\bar{x}+2\frac{\sigma}{\sqrt{n}}\) \(\textcolor{blue}{p=0.95}\) \(\textcolor{red}{0.025}\) 信頼区間の幅

 A) 直接計算で求めるとき
 ※試験などで,コンピュータが利用できない場面で,直接計算で行う場合,±1.96という数字は覚えていなければならない.
\(\displaystyle 2\times 1.96\frac{3}{\sqrt{n}}\leqq 1\)
\(\displaystyle \sqrt{n}\geqq 2\times 1.96\times3=11.76\)
\(\displaystyle n\geqq 138.2976\)
\(\displaystyle n\geqq 139\)・・・(答)
 B, C) RやExcelで求めるとき
 RやExcelで,正規分布の標本の大きさを求める関数はないようです.(上記 A) の直接計算をコンピュータで行うことはできる)
 D) 生成AIを使って,直接答えを尋ねるとき
 ChatGPT,Microsoft Copilot,Google Geminiで次のように入力した場合は,正規分布を用いた答案が示される.
【例】
標準偏差3(g)の正規分布に従う母集団から標本を無作為抽出し,母平均の区間推定を行います。 95%信頼区間の幅を1(g)以下にするために必要な標本の大きさを求めてください。
(返される答案)
 必要な標本の大きさは 139 以上です。
標本の大きさの求め方(母平均99%信頼区間)
  ・・・大標本:正規分布が使えるとき
σが未知の場合
【例】
 正規分布に従う母集団から標本を無作為抽出し,母平均の区間推定を行う。 標本の標準偏差が5(g)のとき99%信頼区間の幅を3(g)以下にするために必要な標本の大きさを求めてください。
 母標準偏差σが未知の場合,近似的に標本の標準偏差sで代用してよいとされている.大きさnの標本の標本平均\(\bar{x}\)の分布は,平均\(\mu\),標準偏差\(\frac{s}{\sqrt{n}}\)の正規分布で近似できる.
 95%の信頼区間は
\(\displaystyle\bar{x}-1.96\frac{s}{\sqrt{n}}\leqq\mu\leqq\bar{x}+1.96\frac{s}{\sqrt{n}}\)
 このとき信頼区間の幅は
\(\displaystyle 2\times 1.96\frac{s}{\sqrt{n}}\)
 99%の信頼区間は
\(\displaystyle\bar{x}-2.58\frac{s}{\sqrt{n}}\leqq\mu\leqq\bar{x}+2.58\frac{s}{\sqrt{n}}\)
 このとき信頼区間の幅は
\(\displaystyle 2\times 2.58\frac{s}{\sqrt{n}}\)
\(0\) \(\bar{x}\) \(z\) \(-2\) \(-1\) \(1\) \(2\) \(\textcolor{red}{2.58}\) \(\textcolor{red}{-2.58}\) \(\textcolor{blue}{p=0.99}\) \(\textcolor{red}{0.005}\) \(\textcolor{red}{0.005}\) 信頼区間の幅

 A) 直接計算で求めるとき
 ※試験などで,コンピュータが利用できない場面で,直接計算で行う場合,±2.58という数字は覚えていなければならない.
\(\displaystyle 2\times 2.58\frac{5}{\sqrt{n}}\leqq 3\)
\(\displaystyle \sqrt{n}\geqq \frac{2\times 2.58\times 5}{3}=8.5867\)
\(\displaystyle n\geqq 73.74\)
\(\displaystyle n\geqq 74\)・・・(答)
 B, C) RやExcelで求めるとき
 RやExcelで,正規分布の標本の大きさを求める関数はないようです.(上記 A) の直接計算をコンピュータで行うことはできる)
 D) 生成AIを使って,直接答えを尋ねるとき
 ChatGPT,Microsoft Copilot,Google Geminiで次のように入力した場合は,正規分布を用いた答案が示される.
【例】
正規分布に従う母集団から標本を無作為抽出し,母平均の区間推定を行う。 標本の標準偏差が5(g)のとき99%信頼区間の幅を3(g)以下にするために必要な標本の大きさを求めてください。
(返される答案)
 必要な標本の大きさは 74 以上です。

標本の大きさの求め方(母比率95%信頼区間)
  ・・・大標本:正規分布が使えるとき
95%信頼区間,σが既知
【例】
 さいころを投げて,1の目が出る確率を信頼度95%で推定したい.信頼区間の幅を1/6以下にするために必要な標本の大きさを求めてください。
 標本の大きさがnの大標本(概ね30以上)の場合,母比率をpとするとき,母比率pに対する95%の信頼区間は
\(\displaystyle p-1.96\sqrt{\frac{p(1-p)}{n}}\leqq p\leqq p+1.96\sqrt{\frac{p(1-p)}{n}}\)
 A) 直接計算で求めるとき
 ※試験などで,コンピュータが利用できない場面で,直接計算で行う場合,±1.96という数字は覚えていなければならない.
 信頼区間の幅は\(\displaystyle 2\times 1.96\sqrt{\frac{R(1-R)}{n}}\)
\(\displaystyle 2\times 1.96\sqrt{\frac{1/6\times 5/6}{n}}\leqq 1/6\)
\(\displaystyle \sqrt{n}\geqq 2\times 1.96\times 2.236=8.76512\)
\(\displaystyle n\geqq 76.82733\)
\(\displaystyle n\geqq 77\)・・・(答)
 B, C) RやExcelで求めるとき
 RやExcelで,正規分布の標本の大きさを求める関数はないようです.(上記 A) の直接計算をコンピュータで行うことはできる)
 D) 生成AIを使って,直接答えを尋ねるとき
 ChatGPT,Microsoft Copilot,Google Geminiで次のように入力した場合は,正規分布を用いた答案が示される.
【例】
さいころを投げて,1の目が出る確率を信頼度95%で推定したい.信頼区間の幅を1/6以下にするために必要な標本の大きさを求めてください。
(返される答案)
 77回以上です。
標本の大きさの求め方(母比率99%信頼区間)
  ・・・大標本:正規分布が使えるとき
99%信頼区間,σが未知
【例】
 ある世論調査で100人に内閣支持率を尋ねたところ,60人が支持であった.内閣支持率を信頼度99%で推定して信頼区間の幅を10%以下にするには,何人を抽出する必要があるか.
 標本の大きさがnの大標本(概ね30以上)の場合,標本比率をRとするとき,母比率pに対する99%の信頼区間は
\(\displaystyle R-2.58\sqrt{\frac{R(1-R)}{n}}\leqq p\leqq R+2.58\sqrt{\frac{R(1-R)}{n}}\)
 信頼区間の幅は\(\displaystyle 2\times 2.58\sqrt{\frac{R(1-R)}{n}}\)になります.
 A) 直接計算で求めるとき
 ※試験などで,コンピュータが利用できない場面で,直接計算で行う場合,±2.58という数字は覚えていなければならない.
 信頼区間の幅は\(\displaystyle 2\times 2.58\sqrt{\frac{0.6(1-0.6)}{n}}\)
\(\displaystyle 2\times 2.58\sqrt{\frac{0.6\times 0.4}{n}}\leqq 0.1\)
\(\displaystyle \sqrt{n}\geqq 2\times 2.58\times 0.4899\times 10=19.204\)
\(\displaystyle n\geqq 25.28\)
\(\displaystyle n\geqq 639.0784\)
\(\displaystyle n\geqq 640\)・・・(答)
 B, C) RやExcelで求めるとき
 RやExcelで,正規分布の標本の大きさを求める関数はないようです.(上記 A) の直接計算をコンピュータで行うことはできる)
 D) 生成AIを使って,直接答えを尋ねるとき
 ChatGPT,Microsoft Copilot,Google Geminiで次のように入力した場合は,正規分布を用いた答案が示される.
【例】
ある世論調査で100人に内閣支持率を尋ねたところ,60人が支持であった.内閣支持率を信頼度99%で推定して信頼区間の幅を10%以下にするには,何人を抽出する必要があるか.
(返される答案)
 640人以上です。
(途中計算の小数の切り上げ方により,637〜640人程度の幅のある回答になります)

母平均のz検定(両側検定)
σは既知
※母集団は正規分布で,大標本とする[前提]
母集団の平均μ標準偏差σが分かっている場合,標本平均 \(\bar{x}\),標本の大きさnとなる標本が母集団と有意差があるかどうかを判断する.
lower.tail = TRUEのとき,pは境界線の左側の面積を表す
 z検定の両側検定の場合,よく使われる限界値は次の3種類なので,これらと比較すればよい.
両側検定
有意水準α
α/2 限界値z
0.10.05 ±1.64
0.050.025±1.96
0.010.005±2.58
【例1】
 中学2年生数学の学力テストにおいて,全国の平均は54点,標準偏差は12点であった.そのテストで,ある中学校の2年生100人の得点は平均51点であった.この中学校2年生の数学の得点は,全国平均と比べて有意差があると言えるか.有意水準5%の両側検定で答えよ.

 A) 直接計算で求めるとき
 ※試験などで,コンピュータが利用できない場面で,直接計算で行う場合,±1.96という数字は覚えていなければならない.
\(z=\dfrac{\bar{x}-\mu}{\frac{\sigma}{\sqrt{n}}}\)
 母集団の平均μ,標準偏差σが分かっている場合,標本平均 \(\bar{x}\),標本の大きさnから,標本平均\(\bar{x}\)のz値を,右の式で直接計算して,上の表の限界値と比較する。
(解答)
\(z=\dfrac{51-54}{\frac{12}{\sqrt{100}}}=\dfrac{-3}{1.2}=-2.5(\lt-1.96)\)
だから,有意差があると言える.
 B) Rで求めるとき
 Rで,
(1) 関数pnorm(q, mean, sd)を使う方法
pnorm(q, mean, sd)を用いて,この中学校2年生数学平均の確率が両側棄却域に入るかどうか調べる.
(解答)
pnorm(51, mean = 54, sd = 12/sqrt(100)) ⇒ 0.0062
⇒ 0.0062 (< 0.025)だから,有意差があると言える.
(2) 関数pnorm(z値)を使う方法
 pnorm(q, mean, sd) は,meanを省略すれば0となり,sdを省略すれば1となるから,pnorm(z値)によって標準正規分布のz値に対応する左側累積確率が得られる.
(解答)
(51-54)/(12/sqrt(100)) ⇒ −2.5
pnorm(−2.5) ⇒ 0.0062
⇒ 0.0062 (< 0.025)だから,有意差があると言える.
(3) 関数qnorm(p, mean, sd)を使う方法
 qnorm(p, mean , sd) を用いて,51点が両側棄却域に入るかどうか調べる.
(解答)
qnorm(0.025, mean=54, sd=12/sqrt(100))⇒ 52.04004
⇒ 52.04004 (> 51)だから,有意差があると言える.
 C) Excelで求めるとき
(Microsoft Excel Online, Google Spread Sheetsも同様)
Excelで
(T) NORM.S.DIST(Z値, TRUE)
が「標準正規分布」のZ値以下の累積確率を返すので,両側検定の場合,その2倍が有意水準よりも大きいかどうかを調べます.
(51-54)/(12/SQRT(100)) ⇒ −2.5
NORM.S.DIST(−2.5, TRUE)⇒ 0.0062
⇒ 0.0062 (< 0.025)だから,有意差があると言える.
 D) 生成AIを使って,直接答えを尋ねるとき
 ChatGPT,Microsoft Copilot,Google Geminiで次のように入力した場合は,標本サイズが100と大きく,母標準偏差が与えられているため,1標本 z検定で答案が示される.
【例】
中学2年生数学の学力テストにおいて,全国の平均は54点,標準偏差は12点であった.そのテストで,ある中学校の2年生100人の得点は平均51点であった.この中学校2年生の数学の得点は,全国平均と比べて有意差があると言えるか.有意水準5%の両側検定で答えよ.
(返される答案)
 p値 0.0124< 有意水準 0.05 帰無仮説を棄却する
母平均のz検定(片側検定)
σが既知
※母集団は正規分布で,大標本とする[前提]
lower.tail = TRUEのとき,pは境界線の左側の面積を表す
 z検定の片側検定の場合,よく使われる限界値は次の3種類なので,これらと比較すればよい.
片側検定
有意水準α
限界値z
0.1 ±1.24
0.05±1.64
0.01±2.33
【例】
 母集団が平均40,標準偏差15の正規分布であるとき,標本の大きさ36,標本平均44の標本について,標本平均が母集団平均に比べて有意に大きいと言えるか
 A) 直接計算で求めるとき
 ※試験などで,コンピュータが利用できない場面で,直接計算で行う場合,±1.64という数字は覚えていなければならない.
\(z=\dfrac{\bar{x}-\mu}{\frac{\sigma}{\sqrt{n}}}\)
 母集団の平均μ,標準偏差σが分かっている場合,標本平均 \(\bar{x}\),標本の大きさnから,標本平均\(\bar{x}\)のz値を,右の式で直接計算して,上の表の限界値と比較する。 (解答)
\(z=\dfrac{44-40}{\frac{15}{\sqrt{36}}}=\dfrac{4}{2.5}=1.6(\lt 1.64)\)
だから,有意差があるは言えない.
 B) Rで求めるとき
 Rで,
(T) 関数pnorm(z値)を使う方法
 正規分布で近似してこの問題を解くには,上記の直接計算をたどりながら,関数qnormを使うと1.64という数字を覚えていなくてもできる.
 pnorm(q, mean, sd) を用いて,標本平均の確率が片側棄却域に入るかどうか調べる.
(解答)
pnorm(44, mean=40, sd=15/sqrt(36))
⇒ 0.9452007 (< 0.95)だから,有意差があるとは言えない.
 (U) 関数qnorm(p, mean, sd)を使う方法
 qnorm(p, mean , sd) を用いて,51点が両側棄却域に入るかどうか調べる.
(解答)
qnorm(0.95, mean=40, sd=15/sqrt(36))
⇒ 44.11213 (> 44)だから,44点は片側棄却域に入らず,有意差があるとは言えない.
 C) Excelで求めるとき
(Microsoft Excel Online, Google Spread Sheetsも同様)
●Excelで
(T) NORM.DIST(x,平均,標準偏差,TRUE)を使う方法
 
x=44, 平均=40, 標準偏差\(\frac{15}{\sqrt{36}}\), 累積確率=TRUEとする
=NORM.DIST(44,40,15/SQRT(36),TRUE)=0.9452 < 0.95
1−0.9452=0.0548 >0.05だから44点は片側棄却域に入らず,有意差があるとは言えない.
(U)  NORM.S.DIST(Z値, TRUE)
が「標準正規分布」のZ値以下の累積確率を返すので,両側検定の場合,その2倍が有意水準よりも大きいかどうかを調べます.
=NORM.S.DIST((44-40)/(15/sqrt(36))=0.9452 < 0.95
1−0.9452=0.0548 >0.05だから44点は片側棄却域に入らず,有意差があるとは言えない.
 D) 生成AIを使って,直接答えを尋ねるとき
 ChatGPT,Microsoft Copilot,Google Geminiで次のように入力した場合
【例】
母集団が平均40,標準偏差15の正規分布であるとき,標本の大きさ36,標本平均44の標本について,標本平均が母集団平均に比べて有意に大きいと言えるか
(返される答案)
p = 0.0548 > 0.05 → 有意差なし
よって、標本平均が母平均より有意に大きいとは言えない(帰無仮説を棄却できない)

母比率のz検定(両側検定,有意水準5%)
母比率pが既知
※母集団は正規分布で,大標本とする[前提]
【例】
 10円硬貨を40回投げたところ,表が30回出た.この10円硬貨の表裏の出方には偏りはないと言えるか.有意水準5%で検定してください.
 標本の大きさがnの大標本(概ね30以上)の場合
\(\displaystyle z=\frac{p-p_0}{\sqrt{\dfrac{p_0(1-p_0)}{n}}}\)
として,帰無仮説\(\displaystyle p=p_0\)が有意水準5%で棄却されるかどうかを,\(|z|\gt 1.96\)か否かで調べる.
 A) 直接計算で求めるとき
 ※試験などで,コンピュータが利用できない場面で,直接計算で行う場合,±1.96という数字は覚えていなければならない.
 \(\displaystyle p_0=0.5,\hspace{3px}p=0.75\)
\(\displaystyle z=\frac{0.75-0.5}{\sqrt{\frac{0.5*0.5}{40}}}\)
\(\displaystyle z=3.162278\gt 1.96\)
有意水準5%で偏りがあると言える・・・(答)
 B) Rで求めるとき
 Rで,
(T) 関数pnorm(z値)を使う方法
正規分布で近似してこの問題を解くには,上記の直接計算をたどりながら,関数qnormを使うと1.96という数字を覚えていなくてもできる.
正確には二項分布で行うべき問題を正規分布で近似して解いてよいための条件:\(np_0=40\times 0.5\geqq 5\)かつ\(n(1-p_0)=40\times 0.5\geqq 5\)
> n <- 40
> x <- 30
> p0 <- 0.5
> phat <- x / n
> 
> # z値の計算(標準正規分布による近似)
> z <- (phat - p0) / sqrt(p0 * (1 - p0) / n)
> 
> # 両側p値の計算
> p_value <- 2 * (1 - pnorm(abs(z)))
> 
> # 結果表示
> z
[1] 3.162278
> p_value
[1] 0.001565402
 p値が 0.05より小さいため、帰無仮説を棄却します。 ⇒ この10円硬貨には偏りがあるといえます・・・(答)
関数prop.test(成功回数, 試行回数, 帰無仮説の確率, alternative ="two.sided"(デフォルト)"greater"または"less", 有意水準)を使う方法
prop.test(30,40,p=0.5,alternative="two.sided")
⇒ p-value = 0.002663 <0.05となって,有意水準5%で偏りがあると言える・・・(答)
(U)二項分布を利用して正確に解くには,
関数 binom.test(成功回数, 試行回数, 成功の確率 = 0.5, alternative = "two.sided",conf.level = 0.95)を使う方法
alternative = "two.sided"は両側検定を表す.
conf.levelconf.level = 0.95は信頼区間の信頼度95%を表す.
binom.test(x = 30, n = 40, p = 0.5, 
alternative = "two.sided")
⇒ p-value = 0.002221
 p値が 0.05より小さいため、帰無仮説を棄却します。 ⇒ この10円硬貨には偏りがあるといえます・・・(答)
 C) Excelで求めるとき
(Microsoft Excel Online, Google Spread Sheetsも同様)
●Excelで
(T) NORM.S.DIST(Z値, TRUE)
が「標準正規分布」のZ値以下の累積確率を返すので,両側検定の場合,その2倍が有意水準よりも大きいかどうかを調べます.
\(0\) \(x\) \(-2\) \(-1\) \(1\) \(2\) NORM.S.DIST(Z値, TRUE) 1−NORM.S.DIST(Z値, TRUE) \(z\) \(\uparrow\)

\(\displaystyle z=\frac{0.75-0.5}{\sqrt{\dfrac{0.5*0.5}{40}}}=3.162278\)
2*(1−NORM.S.DIST(3.1622, TRUE))=0.001565402
 0.001565<0.05により,有意水準5%で偏りがあると言える・・・(答)
(U)二項分布を利用して正確に解くには,
関数
BINOM.DIST.RANGE(試行回数,成功率,成功回数1,成功回数2)
を使う方法
40回投げて:試行回数40
帰無仮説の確率0.5:成功率0.5
30回以上:成功回数1 30
40回以下:成功回数2 40
となる確率は,
=BINOM.DIST.RANGE(40,0.5,30,40)⇒0.0011
40回投げて:試行回数40
帰無仮説の確率0.5:成功率0.5
0回以上:成功回数1 0
10回以下:成功回数2 0
となる確率は,
=BINOM.DIST.RANGE(40,0.5,0,10)⇒0.0011
これらの和が両側確率0.0022<0.05により,有意水準5%で偏りがあると言える・・・(答)
母比率のz検定(両側検定, 有意水準5%)
母比率p0が既知
※母集団は正規分布で,大標本とする[前提]
【例】
 ある提案について、無作為に100人を抽出し、調査したところ74人が「賛成」と回答しました。この回答は,2年前に実施した同種の調査で「賛成」と回答のあった割合60%と比較して変化したと言えるか、有意水準5%の両側検定で示してください。
 標本の大きさがnの大標本(概ね30以上)の場合
\(\displaystyle z=\frac{p-p_0}{\sqrt{\dfrac{p_0(1-p_0)}{n}}}\)
として,帰無仮説\(\displaystyle p=p_0\)が有意水準5%で棄却されるかどうかを,\(|z|\gt 1.96\)か否かで調べる.
 A) 直接計算で求めるとき
 ※試験などで,コンピュータが利用できない場面で,直接計算で行う場合,±1.96という数字は覚えていなければならない.
\(\displaystyle p_0=0.6,\hspace{3px}p=0.74\)
\(\displaystyle z=\frac{0.74-0.6}{\sqrt{\frac{0.6*0.4}{100}}}=2.857\)
\(\displaystyle z\gt 1.96\)だから,60%に等しいという仮説は有意水準5%で棄却される。変化したと言える。・・・(答)
 B) Rで求めるとき
 Rで,
(T) 関数pnorm(z値)を使う方法
 正規分布で近似してこの問題を解くには,上記の直接計算をたどりながら,関数qnormを使うと1.64という数字を覚えていなくてもできる.
 正確には二項分布で行うべき問題を正規分布で近似して解いてよいための条件:\(np_0=100\times 0.6\geqq 5\)かつ\(n(1-p_0)=100\times 0.4\geqq 5\)を満たしている必要がある:(満たしている)
> n <- 100
> x <- 74
> p0 <- 0.6
> phat <- x / n
> 
> # z値の計算(標準正規分布による近似)
> z <- (phat - p0) / sqrt(p0 * (1 - p0) / n)
> # 片側p値の計算
> p_value <- 2*(1 - pnorm(z))
> p_value
⇒ 0.0042< 0.05だから,有意差5%の片側検定で有意差があると言える。・・・(答)
関数prop.test(成功回数, 試行回数, 帰無仮説の確率, alternative ="two.sided"(デフォルト),"greater"または"less", 有意水準, correct:イェーツの連続性補正を適用するかどうか)を使う方法
※理論的なz検定と一致させるためには,「イェーツの連続性補正を適用しない:correct=FALSE」を指定する.限界値が微妙な場合に「イェーツの連続性補正を適用する(デフォルト:TRUE)」と理論的なz検定と一致しないことがある.
prop.test(74,100,p=0.6,alternative="two.sided",
conf.level=0.95,correct=FALSE)
⇒ p-value = 0.004267 <0.05となって,有意水準5%で高いと言える・・・(答)
(U)二項分布を利用して正確に解くには,
関数 binom.test(成功回数, 試行回数, 成功の確率 = 0.5, alternative = "two.sided",conf.level = 0.95)を使う方法
alternative = "two.sided"は両側検定を表す.
conf.levelconf.level = 0.95は信頼区間の信頼度95%を表す.
binom.test(74, 100, p = 0.6, alternative = "two.sided") ⇒ p-value = 0.004107
p< 0.05となって,有意水準5%で高いと言える・・・(答)
 C) Excelで求めるとき
(Microsoft Excel Online, Google Spread Sheetsも同様)
●Excelで
(T) NORM.S.DIST(Z値, TRUE)
が「標準正規分布」のZ値以下の累積確率を返すので,両側検定の場合,その2倍が有意水準よりも大きいかどうかを調べます.
\(\displaystyle p_0=0.6,\hspace{3px}p=0.74\)
\(\displaystyle z=\frac{0.74-0.6}{\sqrt{\frac{0.6*0.4}{100}}}=2.8578\)
\(\displaystyle 2*(1-\rm{NORM.S.DIST(1.6888, TRUE))}=0.00427\)
< 0.05だから,正解率が等しいという仮説は有意水準5%で棄却され,有意に高いと言える
・・・(答)
(U)二項分布を利用して正確に解くには,
関数
BINOM.DIST.RANGE(試行回数,成功率,成功回数1,成功回数2)
を使う方法
両側検定で行うために,期待値 np = 60 から +14 離れている74回と対称な左側の値の分布として,60回から −14離れた46回以下となる確率BINOM.DIST.RANGE(100,0.6,0,46)も加える.
=BINOM.DIST.RANGE(100,0.6,74,100)
+BINOM.DIST.RANGE(100,0.6,0,46) ⇒ 0.0056<0.05となって,有意水準5%で高いと言える・・・(答)
 D) 生成AIを使って,直接答えを尋ねるとき
 ChatGPT,Microsoft Copilot,Google Geminiで次のように入力した場合は,標本サイズが100と大きく,母比率0.66が与えられているため,そのまま1標本 z検定で答案が示される.
【例】
ある提案について、無作為に100人を抽出し、調査したところ74人が「賛成」と回答しました。この回答は,2年前に実施した同種の調査で「賛成」と回答のあった割合60%と比較して変化したと言えるか、有意水準5%の両側検定で示してください。
(返される答案)
両側z検定が行われ,z=2.857>1.396により,有意差ありと判断される.

母比率のz検定(片側検定, 有意水準5%)
母比率p0が既知
※母集団は正規分布で,大標本とする[前提]
【例】
 ある試験問題について,A高校の生徒100人のうちで正解者は74人であった。この問題の正解率は全国平均で66%であった。この問題に対するA高校の生徒の正解率は,全国平均と比べて高いと言えるか.有意水準5%の片側検定で示してください。
 標本の大きさがnの大標本(概ね30以上)の場合
\(\displaystyle z=\frac{p-p_0}{\sqrt{\dfrac{p_0(1-p_0)}{n}}}\)
として,帰無仮説\(\displaystyle p=p_0\)が有意水準5%で棄却されるかどうかを,\(z\gt 1.64\)か否かで調べる.
 A) 直接計算で求めるとき
 ※試験などで,コンピュータが利用できない場面で,直接計算で行う場合,±1.64という数字は覚えていなければならない.
\(\displaystyle p_0=0.66,\hspace{3px}p=0.74\)
\(\displaystyle z=\frac{0.74-0.66}{\sqrt{\frac{0.66*0.34}{100}}}=1.6888\)
\(\displaystyle z\gt 1.64\)だから,正解率が等しいという仮説は有意水準5%で棄却され,有意に高いと言える・・・(答)
 B) Rで求めるとき
 Rで,
(T) 関数pnorm(z値)を使う方法
 正規分布で近似してこの問題を解くには,上記の直接計算をたどりながら,関数qnormを使うと1.64という数字を覚えていなくてもできる.
 正確には二項分布で行うべき問題を正規分布で近似して解いてよいための条件:\(np_0=100\times 0.66\geqq 5\)かつ\(n(1-p_0)=100\times 0.34\geqq 5\)を満たしている必要がある:(満たしている)
> n <- 100
> x <- 74
> p0 <- 0.66
> phat <- x / n
> 
> # z値の計算(標準正規分布による近似)
> z <- (phat - p0) / sqrt(p0 * (1 - p0) / n)
> # 片側p値の計算
> p_value <- 1 - pnorm(z)
> p_value
[1] 0.04562876
p=0.0456 < 0.05だから,有意差5%の片側検定で有意差があると言える。・・・(答)
関数prop.test(成功回数, 試行回数, 帰無仮説の確率, alternative ="two.sided"(デフォルト),"greater"または"less", 有意水準, correct:イェーツの連続性補正を適用するかどうか)を使う方法
※理論的なz検定と一致させるためには,「イェーツの連続性補正を適用しない:correct=FALSE」を指定する.限界値が微妙な場合に「イェーツの連続性補正を適用する(デフォルト:TRUE)」と理論的なz検定と一致しないことがある.
prop.test(74,100,p=0.66,alternative="greater",
conf.level=0.95,correct=FALSE)
⇒ p-value = 0.04563 <0.05となって,有意水準5%で高いと言える・・・(答)
 C) Excelで求めるとき
(Microsoft Excel Online, Google Spread Sheetsも同様)
●Excelで
(T) NORM.S.DIST(Z値, TRUE)
が「標準正規分布」のZ値以下の累積確率を返すので,両側検定の場合,その2倍が有意水準よりも大きいかどうかを調べます.
\(\displaystyle p_0=0.66,\hspace{3px}p=0.74\)
\(\displaystyle z=\frac{0.74-0.66}{\sqrt{\frac{0.66*0.34}{100}}}=1.6888\)
\(\displaystyle 1-NORM.S.DIST(1.6888, TRUE)=0.0456\lt 0.05\)だから,正解率が等しいという仮説は有意水準5%で棄却され,有意に高いと言える・・・(答)
(U)二項分布を利用して正確に解くには,
関数
BINOM.DIST.RANGE(試行回数,成功率,成功回数1,成功回数2)
を使う方法
実は,この方法で行うと,微妙なところで有意差が認められない.Rのbinom.testでも同様.
 D) 生成AIを使って,直接答えを尋ねるとき
 ChatGPT,Microsoft Copilot,Google Geminiで次のように入力した場合は,標本サイズが100と大きく,母比率0.66が与えられているため,そのまま1標本 z検定で答案が示される.
【例】
ある試験問題について,A高校の生徒100人のうちで正解者は74人であった。この問題の正解率は全国平均で66%であった。この問題に対するA高校の生徒の正答率は,高いと言えるか.有意水準5%の片側検定で示してください。
(返される答案)
 有意水準5%の片側検定の結果、A高校の正答率は全国平均66%よりも有意に高いと判断されます。

...メニューに戻る