■ 度数分布表,相対度数分布表

.
例1
 右のデータは,1学級40人分についてのある試験(100点満点)の得点であるとする.(数えやすくするために小さい順に並べてある.)このデータについて,度数分布表とヒストグラムを作りたい.
 0, 2, 15, 15, 18,  19, 24, 26, 27, 32,
32, 33, 40, 40, 44,  44, 45, 49, 52, 54,
55, 55, 59, 61, 64,  64, 67, 69, 70, 71,
71, 77, 80, 82, 84,  84, 85, 86, 91, 100
【チェックポイント】
○ 階級の個数は少な過ぎても,多過ぎてもよくない.
(グラフで考えてみる.)
 右の図1が,40人の学級で100点満点の試験の得点を2つの階級に分けた場合であるとすると,階級の個数が少な過ぎて分布状況がよく分からない.
 また,右の図2のように細かく分け過ぎると,不規則に凸凹が現われて分布の特徴はつかみにくくなる.
○ 階級の個数は,最大値と最小値の間を,5〜20個とか,10〜15個程度に分けるのが目安とされている.(書物によって示されている目安は異なるが,あくまで目安として記憶にとどめる.)
  階級の個数目安として,スタージェスの公式(※)
n = 1 + log2N  (n:階級の個数,N:データの総数)
というものもある.(右の表※参照)

○ 階級の幅は等間隔にとるのが普通.
○ 身長や体重のように連続的な値をとるデータを階級に分けるときは,ちょうど階級の境目となるデータが登場する場合があるので,0≦x1<10,10≦x2<20,・・・ のように境目のデータをどちらに入れるかをあらかじめ決めておく.
○ ヒストグラ (・・・グラではない)
 度数分布を柱状のグラフで表わしたもの.
図1
図2

※ スタージェス:人名
この公式で階級の個数を求めたときの例
N 8 16 32 64 128 256 512 1024 2048
n 4 5 6 7 8 9 10 11 12

例えば約50万人が受けるセンター試験の得点分布を考えると,この公式では 1 + log2500000 = 約20となるが,実際の資料では1点刻み(101階級)でも十分なめらかな分布となる.要するに,「目安」は参考程度と考える.
.
例1の案
度数分布表
階級(点) 度数(人)
0 〜 20 6
21 〜 40 8
41 〜 60 9
61 〜 80 10
81 〜100 7
40
ヒストグラム
参考 
1
 スタージェスの公式で計算すれば,N=40のとき階級の個数nの「目安」は約6〜7であるが,95-1=94(得点は95種類)や100点を6〜7個に分割すると,16点〜14点間隔の階級となり,この分析を読む人はそのような不自然な分割は好まず,10点ないし20点刻みのグラフに慣れていると考えられる.
 10点ないし20点刻みにすると,度数分布表から平均値や標準偏差を計算するときに,階級の中央値がすっきりした値になる利点がある.
 10点という分け方を検討してみると,次のグラフのように凹凸がひどくて規則性がきれいにならないので,結果を見てからやめる.



 身長や体重のような連続量の場合は等分できるが,この問題のように整数値だけをとるときは,各階級の区間が等しくならないことがある:1点から100点で値は100種類であるが,0点があるので得点は101種類.左の例では0〜20の階級が一個分多くなっている.


 ヒストグラムは,いわゆる棒グラフと違って縦棒の間に隙間を作らない.
 すなわち,あるグループにおける血液型別人数表,出身都道府県別人数表のように定性的な分類(カテゴリーデータ)を棒グラフにするときは,下の図のように棒の間に隙間のあるグラフとする.これに対して,本来つながっている数値の区間を集計の都合で適当に分けてできるヒストグラムでは,隙間のない棒グラフを使う.
 (Excelで棒グラフを作成したとき,隙間のないグラフにするには,棒を右クリック→データ系列の書式設定→(オプションタブ)→「棒の間隔」を「0」にすればよい.)
※ ここから下の記述は,作者の私案程度の読み物です.
■(一般の)棒グラフや円グラフで表示する項目の順序
○ 血液型の順序はどのように並べるとよいか

  ヒストグラムでは,階級はその値(度数ではない)の小さいものから大きいものへ順に並べるので「並べ方」は決まるが,次のような棒グラフや円グラフでは表示する「項目の順序」はどのように考えればよいか?

 日本人の血液型は,A型:約40%,B型:約20%,AB型:約10%,O型:約30%だといわれている.血液型の棒グラフで,人数の多い型から並べれば,A,O,B,ABの順となるが,Webで調べると,実際には

  O, A, B, AB (オーを零と読み替えれば先頭?)
  A, O, B, AB (度数の多いもの順)
  A, B, O, AB (ABO式という名前順?)
  A, B, AB, O (ほぼ辞書式)

のどれもある.
(どんな順序でもあるわけでなく, A<B<AB はこの順で,Oの置き場所にバリエーションがある.完全に辞書式ならA<AB<Bの順となるが,この順に作成されたものはまだお目にかからない.)
 ※「度数の多い順」「項目の名前の順序」いずれの並べ方も利用されるが,血液型の場合は名前の並べ方が4通りある?
 
■相対度数分布表
○ 相対度数:各階級の度数をデータ総数で割ったもの
 --- 理論上は,相対度数の総和は1になるはずであるが,小数で表示する場合には四捨五入による丸めの誤差があるので,単純に足せば1にならないことがある. (分数なら問題ない.)

 右の相対度数分布表を表計算ソフトで作成すると,相対度数の総和は1と表示されるが,筆算で検算すると総和は1.01になっている.そこで印刷物にする場合は,総和が1となるように調整するのが普通.
階級 度数 相対度数 参考
0 〜 10 1 0.02 0.0213
11 〜 20 4 0.09 0.0851
21 〜 30 15 0.32 0.3191
31 〜 40 15 0.32 0.3191
41 〜 50 12 0.26 0.2553
  47 1.00  
○ 相対度数の総和を1にする調整方法について決まった方法があるわけではないが・・・・私案 (小学生なら自然にやっているかも?)
[印刷物にするとき] 一般に考えられる方法
(ア) 度数の小さい階級で調整すると比率の変化が大きくなるので,元の度数の大きな階級で調整する.
    (0.02 → 0.01とすると半減となり極端すぎる.)
(イ) 度数の等しいものがあるとき,度数が等しいのに相対度数が異なる表を作ると計算ミスを疑われやすいので,その階級は調整には使わない.[この優先順位は高く考えたい]
(ウ) ヒストグラムでなくてカテゴリーデータの集計で,「その他」の項目があれば,「その他」を調整に使えば中立を保ちやすい.
(エ) 四捨五入による繰り上げで大きく変化したものを調整に使う.

--- 以上の論点で考えると,この例では,度数15の階級が2つあるので、それ以外を探す.度数1のものは繰り上がっていないから調整しない.度数4と度数12のものでは,度数の多い方を選べば度数12の方となるが,繰り上がりによる増分の多かったものを選べば度数4の方となる.
===> 0.02 0.08 0.32 0.32 0.26 が1つの案

※「ドント方式」で決めるとどうなるか : ドント方式とは、比例代表選挙で議員を決める方法のこと.上の例は,5党の得票数が各々1,4,15,15,12(百万票)のときの100議席の割り当て方に置き換えることができる.(当落線上で等しいものがあるときにくじ引きがあるところは違う.) ===>結果は 2,8,32,32,26 となって 0.02 0.08 0.32 0.32 0.26 と一致する.
(ただし,相対度数分布表の作り方をドント方式で説明している数学書は見たことがないので,私案ということで・・.)

[デジタルデータとして保存するとき]
他のデータに連動することが多いので,調整しない方がよいのではないか.
■問題■
 右の表は相対度数を小数第2位まで表示したものであるが,その計が1.00になっていない.
 相対度数の小数第2位を1つ調整してその計を1.00にするにはどの数字で調整すればよいか.
参考
  度数 相対度数 参考
(小数第4位まで)
A 5 0.03 0.0331
B 11 0.07 0.0728
C 77 0.51 0.5099
D 52 0.34 0.3444
E 6 0.04 0.0397
151 0.99  
○===メニューに戻る
 他のサイトの分かりやすい解説
*1 総務省統計局>統計学習サイト>なるほどデータforきっず>How To 統計>データを集めよう(統計調査はどのように行うか)
http://www.stat.go.jp/howto/lecture2/01-3-1.htm
*2 ヒストグラム http://case.f7.ems.okayama-u.ac.jp/animation/histogram.html