PC用は別頁
== 資料の代表値 ==

1. 代表値
 資料の特徴を1つの数字で表すものを代表値という.
 代表値の中で最も重要なものは平均値で,他の代表値としては中央値最頻値などがある.
英語で言えば,平均値(mean),中央値(medium),最頻値(mode)・・・全部mなのでMだけでは,どれか分からん ⇒ Me , Moなどと書く
(1.1) 平均値
 相加平均算術平均は単に平均値もしくは平均と呼ばれ,ほとんどの統計で代表値として平均値が用いられる.
(1) n個の変数の相加平均(算術平均)は

で定義される.
(2) 資料が次のような度数分布表で与えられているとき,
階級
階級値
a1≦x<a2
x1
a2≦x<a3
x2

an≦x<an+1
xn
度数f1f2fnN

1) (1)の定義は,「各々の資料の確率(加重)を等しく」「確率の総和を1」としたものになっている.
X
p計1
 中央値や最頻値など他の代表値や,平均値の中でも相乗平均,調和平均,2乗平均などではこのようにはならない.
相加平均M1
相乗平均M0
調和平均M−1
2乗平均M2
※一般に,M−1≦M0≦M1≦M2が成り立つ
2) 資料が次のような度数分布表で与えられているとき,
階級階級値度数
a1≦x<a2x1f1
a2≦x<a3x2f1
a3≦x<a4x3f1
an≦x<an+1xnfn

N
 各階級の中央(中央値)に度数で表される加重平均をとると考えます.
 元の資料を1つずつ足した場合と度数分布表から計算した場合とでは,理屈上は差異があるが,通常,その差異は無視できるものと見なす.


3) 平均値(算術平均)以外の代表値が使われる例として,「跳躍競技,投てき競技」で3回の試技のうちで最大値を代表値とする,「体操競技」で評価の最大値と最小値を除いた残りの平均値を代表値とすることなどがある.

《仮平均,仮変数を用いた平均値の計算》
 資料が表1のような度数分布表で与えられているとき,平均値の計算をコンピュータを使って行うときは,定義の通りに直接計算する方が間違いが少ないので,表2のように階級値×度数(xf)を求めて,その総和を度数の総和で割ればよい.
-- 表1 --
階級度数
30≦x<353
35≦x<405
40≦x<457
45≦x<504
50≦x<551
20
-- 表2 --
階級階級値(x)度数(f)xf
30≦x<3532.5397.5
35≦x<4037.55187.5
40≦x<4542.57297.5
45≦x<5047.54190
50≦x<5552.5152.5

20825

 コンピュータが利用できない環境であったり,試験会場のように筆算だけで行う必要があるときは,表3のように仮平均と仮変数を使って,「整数の掛け算」「足し算」として仮の解答を求めてから,小数に戻す.
-- 表3 --
階級階級値(x)度数(f)仮変数(u)uf
30≦x<3532.53−2−6
35≦x<4037.55−1−5
40≦x<45x0=42.57u=00
45≦x<5047.5414
50≦x<5552.5122

20
−5

(1) 仮変数は−2, −1, 0, 1, 2, ...のように整数値を使う.
(2) 仮変数(u)×度数(f)を階級値(x)×度数(f)の代わりに使うので,「真ん中付近で,度数(f)の大きい階級」を仮平均(x0→u=0)とすると計算が楽になる.
 この表では,階級値42.5を仮平均(x0→u=0)とおく.
 度数の大きい階級を仮平均にすると,uf=0となって,計算が楽になる.
 真ん中付近に仮平均(u=0)となる階級を決めると,その前後は±1, ±2, ...となって,小さな整数の掛け算,足し算でできる.
 階級幅は5だから,階級値(x)と仮変数(u)とは,次の関係になる.



 そこで,小さな整数値の計算の結果として,を求めておいてから,

とすれば,平均値に戻ることができる.
 それでは,次の表4のように,階級値37.5を仮平均(x0→u=0)とおいて計算したら,間違いなのか?
-- 表4 --
階級階級値(x)度数(f)仮変数(u)uf
30≦x<3532.53−1−3
35≦x<40x0=37.5500
40≦x<4542.5717
45≦x<5047.5428
50≦x<5552.5133

20
15


 仮変数を使った計算の結果として,を求めておいてから,
とすると,前の結果と一致する.
 すなわち,仮平均を「真ん中付近で,度数(f)の大きい階級」とするというのは,計算量を減らすための工夫なので,仮平均の選択が少々ずれた場合,計算量が少し増えるということで,結果の正誤には影響しない.

階級度数
10≦x<151
15≦x<202
20≦x<255
25≦x<303
30≦x<351
12
【問題1】
 次の度数分布表で表される資料について,仮平均を使って平均値を求めてください.
解答を見る

(1.2) 中央値
 資料を大きさの順に並べたとき,中央に来る値を中央値(メジアン)という.
 中央値はMeで表される.
(1) 中央値を具体的に求める方法
ア) 資料が奇数個nから成るときは,第番目の資料の値が中央値になります.
【例】 資料が5個の値{ 1.3, 1.7, 2.3, 3.5, 4.1 }から成るとき,これらの中央値は第番目の値 Me=2.3 である.
 資料が偶数個n=2kから成るときは,第k番目と第k+1番目の値の平均値を中央値とする.
【例】 資料が6個の値{ 1.3, 1.7, 2.3, 3.5, 4.1, 4.3 }から成るとき,これらの中央値は第3番目と第4番目の平均値である.Me=2.9
イ) 資料が度数分布表で与えられているとき,まず中央値が含まれる階級を考え,次にその階級の中で中央値の来るべき場所を按分(比例配分)で決めます.
階級度数
10≦x<151
15≦x<202
20≦x<255
25≦x<303
30≦x<351
12
【例】 資料が右のような度数分布表で与えられているとき,これらの資料の中央値を求めるには
 まず,中央値は小さい方から第6位と第7位の間だから,20≦x<25の階級に入ります.
 次に,その階級を5等分して
第6位と第7位の中間の位置を按分(比例配分)によって求めます.
第6位が22.5,第7位が23.5だからその中間の値で Me=23.0 になります.
(2) 中央値の長所
 代表値として最もよく利用されるのは平均値ですが,平均値は「外れ値に対する抵抗性」が弱いという特徴があります.外れ値は極端値とも呼ばれ,他の資料とかけ離れた最大値や最小値となっているもののことです.
 例えば,ある町内5人の年間所得が{ 210万円, 350万円, 400万円, 700万円, 1億5000万円 }の場合,年間所得の平均値は3332万円となり,1人の高額所得者がいるために,町内の他の誰の年間所得とも関係のない高い値になります.
 これを中央値にすると400万円になり,その辺りに該当者がいます.
 中央値は,町内5人の年間所得が{ 210万円, 350万円, 400万円, 700万円, 1500万円 }の場合でも変化しないので,「外れ値に対する抵抗性」があると言えます.
 ほとんどの統計資料で平均値が使われており,平均値を使わない統計資料は考えにくいが,年間所得のように平均値と中央値に大きな隔たりがある場合には,どちらか一方だけが正しいと考えるのでなく,参考資料として中央値も併記するのがよいとされている.(「心理統計学の基礎」南風原朝和著など)
(3) 中央値の数式的な特徴
 資料がn個の値から成るとき,代表値tと資料の各値との距離の総和

もしくは,平均偏差

が小さいほど全体の値の代表値としてふさわしいと考えると,これを満たす代表値tは中央値(メジアン)Meになります.
(解説)
 解説の都合上,は小さいものから順に並べ直したものに改めて名前をつけたものとする.

 S=|x1−t|のグラフは,右図茶色のグラフのように,x軸上のx=x1に折り目がある折れ線になる.
 同様にして,S=|x2−t|のグラフは,右図薄茶色のグラフのように,x軸上のx=x2に折り目がある折れ線になり,S=|x3−t|のグラフは,右図黄色のグラフのように,x軸上のx=x3に折り目がある折れ線になる.
@) t≧x3のとき
t≧x3, t≧x2, t≧x1となるから
S=|x1−t|+|x2−t|+|x3−t|=3t−(x1+x2+x3)
となって,傾き3の直線になる
A) x2≦t<x3のとき
t<x3, t≧x2, t≧x1となるから
S=|x1−t|+|x2−t|+|x3−t|
のうち2つは負の符号を付けてはずれ,1つは正の符号を付けてはずれるから
S=(t−x1)+(t−x2)+(x3−t)=t−(x1+x2−x3)
となって,傾き1の直線になる
B) x1≦t<x2のとき
t<x3, t<x2, t≧x1となるから
S=|x1−t|+|x2−t|+|x3−t|
のうち1つは負の符号を付けてはずれ,2つは正の符号を付けてはずれるから
S=(t−x1)+(x2−t)+(x3−t)=−t−(x1−x2−x3)
となって,傾き−1の直線になる
C) t<x1のとき
t<x3, t<x2, t<x1となるから
S=|x1−t|+|x2−t|+|x3−t|
は3つとも正の符号を付けてはずれるから
S=(x1−t)+(x2−t)+(x3−t)=−3t+(x1+x2+x3)
となって,傾き−3の直線になる
 3つの資料の場合,以上の@)〜C)から分かるように,x2まで減少で,x2から増加になる.したがって,中央値x2で最小値をとる.
 偶数個n=2kの場合は,xk+1の右側で増加,xkの左側で減少,xkxk+1の間で定数となるが,このxkxk+1の間で定数が最小値となる.

階級度数
30≦x<351
35≦x<402
40≦x<454
45≦x<503
50≦x<551
11
【問題2】
 次の度数分布表で表される資料について,中央値(メジアン)を求めてください.
解答を見る

(1.3) 最頻値(モード,並み数)
 資料の内で度数が最大である値を最頻値(モード,並み数)という.
 最頻値はMoで表される.
(1) ほとんどの場合,度数分布表において度数が最大である階級の階級値を最頻値とすればよい.
(2) 詳細に答えるとき,度数が最大である階級を按分して最頻値とする方法も用いられる.
詳細に求めるには幾つかの方法があるが,次の式は放物線の頂点を最頻値とするものである
 度数が最大である階級の下限をx0,階級幅をc,1つ下の階級の度数をf−1,度数が最大である階級の度数をf0,1つ上の階級の度数をf1とするとき

(1) 少ない資料や実数の測定値そのままの資料などに対しても,最頻値の定義にあてはめることはできるが,そのようなものは偶然的事情で動きやすく,あまり意味のあるものではない.
【例】 資料が5個の値{ 1, 1, 2, 3, 4 }から成るとき,この資料の最頻値は1である.(2回出てきたから)
【例】 小数第1位までの測定値が100この値{ 10.1, 12.3, 13.1, ....., 98.7 }から成るときに,たまたま15.7が2個含まれていても,その数字が出やすいということにはならない.
(2) 度数分布表における最頻値は,度数が最も大きな階級値とする.
最頻値をこの意味で使うと,「最もよく売れる服装のサイズ」「よく売れる価格帯」のように日常生活との関わりが深い.
(3) 単峰形以外で,双峰形,多峰形,一様分布などの場合,「最頻値は幾つもあって決まらない」と言う場合もあり,「最頻値はない」という場合もあるが,単峰形以外の分布では,最頻値を考えてもあまり意味をなさないことが多い.

《参考》・・・以下の内容は,中学では使わない.高校以上では使うことがある
(4) 度数最大の階級を按分して最頻値を詳しく求める方法
 度数が最大である階級の下限をx0,階級幅をc,1つ下の階級の度数をf−1,度数が最大である階級の度数をf0,1つ上の階級の度数をf1とするとき

(解説)
この証明はどこにも書いてなかったので,筆者が試しに書いてみたものです.間違いがあればお知らせください
 右図のように,放物線のグラフ

が3点を通っているとき,頂点のx座標pが最大となる点だから,この座標pの所に最頻値があると考える.
 この放物線は3点を通るから
・・・(1)
・・・(2)
・・・(3)
が成り立つ.これらの式からpを求めるとよい.
(2)−(1)



(2)−(3)








したがって




以上により

が求めるべき最頻値を与えるx座標である.

【問題3】
 次の度数分布表A, B, Cについて,平均値,中央値,最頻値の大小関係を調べてください.
-表A-
階級度数
0≦x<102
10≦x<204
20≦x<303
30≦x<401
40≦x<501
11
-表B-
階級度数
0≦x<101
10≦x<202
20≦x<305
30≦x<402
40≦x<501
11
-表C-
階級度数
0≦x<101
10≦x<201
20≦x<303
30≦x<404
40≦x<502
11

解答を見る
(参考)ピアソンの経験則
 上記のBのように完全に左右対称の場合は,平均値=中央値=最頻値であるが,少し左右にズレている場合,「平均値は,外れ値やロングテールに引きずられやすく,敏感に反応する」が中央値は,これらに左右されにくい.
 ピアソンは実験式・経験則の近似式として次の式を示した.

すなわち,中央値は,平均値と最頻値を1:2に内分する点に来る.
(経験則なので,証明はない.近似的なものだから,過大な期待は無理.「中央値」は中央だ!チャンチャン〜♪と覚えておけば役に立つかも)
 上記のA, Cでは,近似的に成り立っている.

【問題4】
 次の度数分布表A, Bについて,平均値,中央値,最頻値の大小関係を調べてください.なお,中央値,最頻値は,その値が含まれる階級を按分して詳しい値で求めてください.
-表A-
階級度数
30≦x<401
40≦x<502
50≦x<606
60≦x<707
70≦x<803
80≦x<901
20
-表B-
階級度数
30≦x<402
40≦x<503
50≦x<607
60≦x<705
70≦x<802
80≦x<901
20

解答を見る

...(携帯版)メニューに戻る

...(PC版)メニューに戻る