■データの代表値(平均値,中央値,最頻値)
■データの代表値
■平均値
 N個の値x1 , x2 , x3 , ... , xNからなるデータの平均値は
= …(1)
表1
階級値 度数
x1 f1
x2 f2
x3 f3
... ...
xn fn
 データが表1のように度数分布表で与えられている場合は,それぞれ
x1f1
x2f2
……
xnfn
(ただし,f1+f2+f3+...+fn=N
あるのだから
=
=
= …(2)
(解説)
 多くの数値からなるデータの特徴を1つの数値で表すものは「代表値」と呼ばれます.代表値のうちで最もよく利用され,最も重要なのが平均値です.
 平均値は,(値の合計)÷(個数の合計)で定義され,小中学校以来誰もがよく知ってるものです.
【例1】 (Excelを使った計算)
 右の表2のように,Excelのワークシート上のA1からA30の範囲にデータがあるとき,(1)式の
分子のx1+x2+x3+ ... +xN
=SUM(A1:A30)
で求められます.(結果は,1642)
分母のN
=COUNT(A1:A30)
で求められます.(結果は,30)
したがって,平均値は
=SUM(A1:A30)/COUNT(A1:A30)
で求められます.(結果は,54.7)
 1つのワークシート関数で平均値を求めるには,
=AVERAGE(A1:A30)
とします.(結果は,54.7)
(参考)数個の数値の平均では,有効数字は元の数値に合わせますが,この例のように概ね10個以上の数値の平均を求めるときは,有効数字を1桁増やして小数第1位まで求めるとよい・・・何度も測定すれば精度が高くなると考えるとよい.

【例2】 (Excelを使った計算)
 右の表3のように,Excelのワークシート上のA1からD11の範囲にデータがあるとき,(2)式の
 分子のx1f1+x2f2+x3f3+ ... +xnfnを求めるためには
例えば,D列の右隣のE列に
=C2*D2
として,まず積x1f1を求めておき
次に,この式をコピーして,E3からE11の範囲に貼り付けます.(式のコピー・貼り付けにより,いわゆる「相対参照」となり,E3には =C3*D3,E4には =C4*D4,E5には =C5*D5,...,E11には =C11*D11が入ります.)
さらに,E12に =SUM(E2:E11)とすれば,x1f1+x2f2+x3f3+ ... +xnfnに対応する値になります.(結果は 1660)
 分母のN=f1+f2+f3+...+fn
例えば,D12に
=SUM(D2:D11)
とすれば求められます.(結果は,30)
 以上の準備ができたら,平均値は
=E12/D12
で求められます.(結果は,55.3)
(参考)表2のデータを階級幅10の度数分布表にしたものが表3ですが,例えば表2の6や7は表3においてはいずれも階級値5と”みなされる”ので,例1と例2の結果は完全には一致しません.
 C列の値とD列の値の積の和(C2*D2+C3*D3+C4*D4+...+C11*D11)を直接求める関数 =SUMPRODUCT() (←積の和)を使えば,分子は
=SUMPRODUCT(C2:C11,D2:D11)
によって求められます.
 したがって,平均値は
=SUMPRODUCT(C2:C11,D2:D11)/SUM(D2:D11)
によって求められます.
.
表2

A
1 93
2 87
3 30
4 7
5 66
6 11
7 46
8 57
9 63
10 49
11 46
12 14
13 95
14 71
15 89
16 30
17 20
18 50
19 75
20 97
21 6
22 60
23 25
24 64
25 74
26 76
27 68
28 11
29 89
30 73
表3

A B C D
1 以上 未満 階級値 度数
2 0 10 5 2
3 10 20 15 3
4 20 30 25 2
5 30 40 35 2
6 40 50 45 3
7 50 60 55 2
8 60 70 65 5
9 70 80 75 5
10 80 90 85 3
11 90 100 95 3
度数分布表においては,それぞれの階級の中央の値を階級値として,その階級に属するデータはすべてその階級値をとるものと見なします.


表2

A
1 93
2 87
3 30
4 7
5 66
28 11
29 89
30 73
【よく登場する用語】

 「データの大きさ」とは,例えば,右の表で先頭の数値93などの大きさのことではありません

 統計では,何個(何件)の観測値・測定値があるかによって,その資料の信頼性が左右されることが多く,何個(何件)の値があるかに大きな関心があります.

 個々の値のことではなく,資料に示された値全体のことを「データ」といい(集合に付けられた名前がデータ),その資料にある値の個数(件数)のことを「データの大きさ」といいます.

【例】
 例えば,25人の身長を記録した資料は,「大きさ25のデータ」といいます.

【例】
 例えば,500個の豆の重さを記録した資料は,「大きさ500のデータ」といいます.

※ 上の表2,表3はいずれも「大きさ30のデータ」です.
(1)式のN,(2)式のf1+f2+f3+...+fn=N
Excelで = COUNT() で計算する値がデータの大きさです.
【問題1】
 Excelを使って,右の表4に示されるデータの平均値を求めてください.(転記するのは大変ですので,画面上でドラッグ&コピーし,Excelのワークシート上に単純に貼り付けて使ってください.)  

144.9 245.8 354.7 463.6



【問題2】
 Excelを使って,右の表5に示されるデータの平均値を求めてください.(転記するのは大変ですので,画面上でドラッグ&コピーし,Excelのワークシート上に単純に貼り付けて使ってください.)  

125.9 226.6 327.2 428.3



表4
71
21
56
83
10
12
97
11
34
83
7
98
0
82
22
表5
以上 未満 階級値 度数
0 10 5 1
10 20 15 6
20 30 25 9
30 40 35 4
40 50 45 3

■メジアン(中央値)
 ほとんどの統計データにおいて,代表値として平均値が使われますが,平均値は必ずしも大小の順に並べたときの中央の値を示す訳ではないので,大小2つに分けたときの真ん中の値が必要な場合には,中央値(メジアン)が使われます.
 平均値は極端値(外れ値)の影響を受けやすいのに対して,大小の順に並べた順位を元にした中央値は極端値(外れ値)の影響を受けにくい特徴があります.

■メジアン(中央値)
 データを大小の順に並べたときに,中央にくる値を中央値(メジアン)といいます.

○ 奇数個あるときは,ちょうど中央の値が中央値です.

○ 偶数個あるときは中央の前後2個の平均が中央値です.

【例3】 (Excelを使った計算)
 上の表4のように,Excelのワークシート上のA1からA15の範囲にデータがあるとき,
=MEDIAN(A1:A15)
によって中央値が求められます.(結果は34)
○ データが度数分布表で与えられているときは,中央値が含まれる階級の中に値を均等に並べて判断します.
【例】
 表6で与えられるデータは,合計13個の数値からなるので,小さい方から7番目(大きい方から7番目)は20以上30未満の階級に入ります.下の階級までに3個あるので,20以上30未満の階級幅10に21,23,25,27,29と5つの値を均等に並べて,その4番目の値27を中央値とします.
【例】
 表7で与えられるデータは,合計14個の数値からなるので,小さい方から7.5番目(大きい方から7.5番目)は20以上30未満の階級に入ります.下の階級までに4個あるので,20以上30未満の階級幅10に21,23,25,27,29と5つの値を均等に並べて,その3番目255と4番目27の平均をとって,26を中央値とします.
表6
以上 未満 階級値 度数
0 10 5 1
10 20 15 2
20 30 25 5
30 40 35 3
40 50 45 2

表7
以上 未満 階級値 度数
0 10 5 1
10 20 15 3
20 30 25 5
30 40 35 3
40 50 45 2
【問題3】
 Excelを使って,右の表8に示される20個の数値の中央値を求めてください.(転記するのは大変ですので,画面上でドラッグ&コピーし,Excelのワークシート上に単純に貼り付けて使ってください.)  

120 220.5 321

421.5 522 622.5



【問題4】
 Excelを使って,右の表9に示される19個の数値の中央値を求めてください.(転記するのは大変ですので,画面上でドラッグ&コピーし,Excelのワークシート上に単純に貼り付けて使ってください.)  

125.5 226 326.5

427 57.5 628



【問題5】
 右の表10に示される20個の数値の中央値を求めてください.(小数第2位四捨五入で小数第1位まで)  

121.4 222.9 323.6

424.3 525 625.7



表8
4
21
22
40
18
13
1
24
20
28
39
25
10
18
36
29
35
46
4
2
表9
3
39
28
29
27
37
5
15
39
29
13
42
16
33
23
40
16
11
44
表10
以上 未満 階級値 度数
0 10 5 2
10 20 15 5
20 30 25 7
30 40 35 4
40 50 45 2

■最頻値(モード)
 商品の売れ筋(よく売れる価格帯,サイズ)などを判断したときは,最頻値と呼ばれるものを利用します.
■最頻値(モード)

 データの中で最も個数の多い値を最頻値(モード)といいます.
 実際上は,度数分布表における最頻値が重要で,度数分布表になっているデータについては,度数が最も多い階級の階級値を最頻値(モード)とします.
(解説)
△ 右の表11のように「単純にデータを並べたもの」についても最頻値(モード)を考えることができます.この表においては,1.4と1.6とが各々2回ずつ登場しますので,これらが最頻値です.
Excelのワークシート関数では,この例のように「単純にデータを並べたもの」の中から最頻値を求めるために =MODE() が利用できます.
 表11のデータがExcelのワークシート上のA1からA10の範囲にあるとき,
=MODE(A1:A10)
によって最頻値(モード)が求められます.
 表11のように最頻値が2個以上あるとき,Excelのワークシート関数 =MODE() では,そのうちの1つでも先に登場したものが返されます.(結果は1.6)
 同じデータを表12のように並べ変えた場合には, =MODE() は1.4となります.

 Excelのマニュアルの中には,これと異なる記述のものがありますが(”最頻値が2つ以上あるとき絶対値の小さい方が返される”という記述),Excel2002, Excel2007のいずれにおいても,上記のように先に登場した方が返されるようです.
※実際には,表11のように「単純にデータを並べたもの」において最頻値となっても「たまたま重なっただけ」ということが多く,統計的な意義は低いと考えられます.

◎ データが度数分布表で与えられている右の表13のような場合には,度数が最も大きい階級(70以上80未満)の階級値75が最頻値です.これは度数分布表を見れば分かります(度数17に対応する階級値75が最頻値です)が,商品の売れ筋などを考えるときは,このように度数分布表における最頻値が重要です
表11
1.6
1.7
1.4
1.2
1.1
1.6
1.3
1.5
1.4
1.0
表12
1.0
1.1
1.2
1.3
1.4
1.4
1.5
1.6
1.6
1.7
表13
以上 未満 階級値 度数
0 10 5 0
10 20 15 0
20 30 25 1
30 40 35 2
40 50 45 3
50 60 55 5
60 70 65 13
70 80 75 17
80 90 85 7
90 100 95 2


表14
71
54
71
54
49
73
25
37
15
22
95
43
69
60
10
48
30
9
60
89
87
59
93
81
61
51
56
58
43
35
47
57
【問題6】
 右の表14に示される32個の数値を先頭の階級を0以上10未満とする階級幅10の度数分布表にしたとき,最頻値を求めてください.
 データを転記するのは大変ですので,画面上でドラッグ&コピーして,Excelのワークシートに単純に貼り付けて作業をしてください.
 なお,Excelを使って度数分布表を作成する方法は,[この頁]にあります.
 

150 255 360

465 570 675





.