散布図,相関表,相関係数 ■散布図
この2種類の数値(数学の得点と英語の得点)の間にとのような関係があるのかを調べるときに,右図1のように数学の得点をx座標に,英語の得点をy座標にして一人ずつを点で表したものを散布図といいます.
散布図に表示すると,2つの量の関係が視覚的にわかりやすくなります.例えば,このデータについては,数学の得点の高い生徒は英語の得点も高い傾向があるといえます.ただし,全くの比例関係ではなく,赤で示した生徒のように数学はそこそこ高いが英語は中位の場合や,緑で示した生徒のように数学は中位でも英語の得点は高いといった場合があるということもわかります.
|
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
【Excelで散布図を作る方法】
上の表1のデータがExcelのワークシート上のA1〜C21に書かれているとし,それを図1のような散布図にするには
各自で練習するときは,上の表を画面上でドラッグ&コピーして,Excel上に単純に貼り付けてください.
(1) 行見出し(数学,英語の欄),列見出し(生徒番号のNo.1〜No.20の欄)を除いて,数字の欄(B2のセルからC21のセルまで)を選択して反転表示にします.(2) Excel2002,Excel2007のいずれでも:挿入→グラフ→散布図(平滑線や折れ線の付いていないものを選ぶ)→完了またはOK (3) 点(マーカー)の色,形,大きさなどはデータ系列の書式設定で変更できます.
なお,個別にマーカーをクリックするとそのデータのx座標とy座標が示されます.これらをデータラベルとして表示することはできますが,あまりスマートなものではありません.
また,普通にインストールされたExcelでは,どの点がどの生徒を表しているかを示すラベル(表1の生徒番号:No.**)をグラフに表示することはできません.どうしてもこれを付けたいときは,マイクロソフト社のWebサイトに紹介されているマクロを組み込む必要があります. |
【問題1】
Excelを使って,右の表2に示されるデータを散布図にしたとき,次のどのグラフになりますか.(転記するのは大変ですので,画面上でドラッグ&コピーし,Excelのワークシート上に単純に貼り付けて使ってください.) 1 ![]() ![]() 3 ![]() ![]() HELP
表だけではわかりにくいですが,実際に散布図にしてみるとわかります.
→3
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
【Excelを使って層別散布図(複数系列散布図)を作る方法】
Excelを使って層別散布図(複数系列散布図=右の表で組別にマーカーを区別した散布図)を作るには,あらかじめ表3のようにデータの形を整えておきます. (*) x座標に使う方の数値(右の例では数学)は,どの組にも共通に1つの列に並べます. (**) y座標に使う方の数値(右の例では英語)は,組によって列を変えます.
右の例ではA組が終わってからB組が登場しますが,散布図としてグラフ化するときに重要なのは,違う列に書かれているかどうかで,実際のデータはA組とB組が入り混じって登場しても構いません.ただし,データが途切れてはいけません.
(1) 右の表3のデータが行見出し(数学,英語A組,英語B組)も含めてワークシートのA1からC21に書かれているとします.
右の表3は,ホームページ上で表の枠が正常に表示されるように空白セルに「全角スペースの文字」が入力されています.このデータをそのままコピー・貼り付けしても,このような文字が含まれていると散布図は表示されません.
(2) A1からC21まで行見出しの数学も含めてデータの範囲全部を選択して反転表示にします.(3) Excel2002,Excel2007のいずれでも:挿入→グラフ→散布図(平滑線や折れ線の付いていないものを選ぶ)→完了またはOK (4) 点(マーカー)の色,形,大きさなどはデータ系列の書式設定で変更できます. (結果)⇒ 右図のように表示されます.
【Rコマンダーを使って層別散布図(複数系列散布図)を作る方法】
Rコマンダーを使って層別散布図(複数系列散布図)を作るには,Excel上であらかじめ表4のような形のデータを作っておきます. (*) 層(系列,組分け)の区別は1つの列に文字として書き込みます.この組分けは順不同に入り混じっていても構いません.また,組分けを表す列は左端にあっても右端にあっても構いません. (1) Excel上の書かれた表4のデータを行見出し(数学,英語A組,英語B組)も含めて選択して,コピーします.(クリップボード:メモリに入れます.) (2) RとRコマンダーを起動し,Rコマンダーの中からデータ→データのインポート→テキストファイルまたはクリップボード,URL,...から (3) ファイル内に変数名ありにチェック(数学,英語,組という行見出しを含めたから),クリップボードを選ぶ,区切り文字としてタブを選ぶ(Excelデータをテキストファイルにすると区切り文字としてタブが入るから)→OK (この段階で,データが正しくインポートされたかどうか確かめるために[データセットを表示]のボタンをクリックしてデータを一瞥するとよい) (4) グラフ→散布図→x変数(1つ選択)を数学とする,y変数(1つ選択)を英語とする→周辺箱ひげ図,最小2乗曲線,平滑線のチェックを外す,層別のプロットを選択し層別変数[組],層別して線を描くにチェックが入ったまま→OK (5) OK (結果)⇒ 右図のように表示されます. |
表3の層別散布図 ![]() ![]() |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
【問題2】
Excelを使って,右の表に示されるデータを層別散布図にしたとき,次のどのグラフになりますか. (転記するのは大変ですので,画面上でドラッグ&コピーし,Excelのワークシート上に単純に貼り付けて使ってください.ただし,Webページに表示する都合で空白セルに全角(2バイト文字)スペースが入っています.このままExcelに移すとうまく表示されませんので,Excel上で全角(2バイト文字)スペースをすべて削除してから散布図にしてください.)
1 ![]() ![]() 3 ![]() ![]() HELP
表だけではわかりにくいですが,実際に散布図にしてみるとわかります.なお,マーカーの色や形は好みに応じて変えられます.
→1
|
|
■分割表(相関表)の作成 右の表5のデータを散布図にすると図6のようになりますが,データの個数が多いと互いに重なってしまって見にくくなります. 表6のように縦・横それぞれを適当な区間に区切って度数分布表(の組合せ)にしたものを,相関表(分割表,クロス集計表)といいます. 散布図と相関表にはそれぞれのよさがありますので,利用目的に応じて使い分けるとよいでしょう.
【Excelを使って相関表を作成する方法】
≪全体の流れ≫
表5のデータがワークシートのA1〜B41に書かれているものとします.このデータから,まず[1]ピボットテーブルを作成し,次に[2]グループ化を行うと,相関表ができます.
==Excel2002の場合 ==[1] ……ピボットテーブルの作成……
(1) データの中のどこかをポイントしておき,データ→ピボットテーブルとピボットグラフレポート
[2] ……グループ化……Excelのリスト/データベース,ピボットテーブルが選択された状態で次へ 使用するデータの範囲を指定してください:A1:B41→次へ そのワークシート上にピボットテーブルを作成するときは,既存のワークシートを選び,左端の位置としてD1などと指定→完了 (2) 縦の長さを左の表題の欄(行見出し)までドラッグ,横の長さを上の表題の欄(列見出し)までドラッグ さらに,縦の長さ(横の長さでもよい)をもう一度「ここにデ-タアイテムをドラッグします」という欄にドラッグ (3) そのままでは,数字の合計が計算されているので,左上端のボタンをダブルクリックして「データの個数」を指定します. (4) 以上により,一時的に縦横とも相当大きな表ができます(このままでは,かなり見づらいものです).
(1) ピボットテーブルの行見出しを右クリックし,グループと詳細の表示→グループ化
(2) 先頭の値50,末尾の値100,単位(=これが階級幅になります)10→OK 上端の列見出しについても同様にグループ化します. (結果)⇒ 右の表6のように表示されます. ※ この表では,階級が50-60,60-70のように区切りとなる値が重複して表示されますが,以上のようにピボットテーブルからグループ化した場合,各々50以上-60未満,60以上-70未満を表しています. たとえば,表5の68.7,50.0のデータは,横の長さ40-50の階級ではなく,50-60の階級に入っています. ※ 当然のことですが,このようにして作った相関表では縦の長さは下に進むほど大きくなっているので,散布図とは上下が逆になります. |
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
【問題3】
Excelを使って,右の表に示されるデータを縦横とも先頭の値20,階級幅10の相関表(分割表)にするものとします.各々の階級は,例えば縦20以上30未満,横20以上30未満となるところを縦20-30,横20-30のように表示するとき,最も度数が多い階級は次のどの階級になりますか.相関表(分割表)を完成させて答えてください. (転記するのは大変ですので,画面上でドラッグ&コピーし,Excelのワークシート上に単純に貼り付けて使ってください.)
1縦20-30,横50-60 2縦40-50,横50-60 3縦30-40,横40-50 4縦30-40,横50-60 HELP
次のような表になります.この表から,最も度数が多い階級は縦30-40,横40-50(赤で示した6)になります.
→3
|
|
■相関係数 散布図が右図7のようになったとき,xが増えるとyも増える傾向があります. また,右図8の場合には,xが増えるとyは減る傾向があると言えそうです. このような傾向を印象・感覚だけで述べるのでなく,正確に定義された数値として表すものが相関係数です.
【相関係数の求め方】
相関係数rは−1≦r≦1となる1つの小数です. Excelを使えば簡単に求められます. 例えば,右の表7において,A1からB11までに書かれた数学と英語の得点(横の並びが1人の生徒の得点で,合計10人の得点が書かれていて列見出しが数学,英語になっている)には相関があるかどうかを調べるために,Excelで相関係数を求めるには
== Excel2002の場合==
ツール→分析ツール→相関→OK 入力範囲:A1:B11 データ方向:列 先頭行をラベルとして使用:チェック 出力先:例えばH1など右下に向かって何も書かれていない範囲を指定 →OK
== Excel2007の場合==
データ→データ分析→相関→OK (以下同様) (結果)
数学と数学の相関係数は1(=完全に一致)になります・・・当然のことです. 英語と英語の相関係数は1(=完全に一致)になります・・・当然のことです. 英語と数学の相関係数,数学と英語の相関係数は同じもので右の表のように対角線よりも下だけが書かれますが対角線よりも上は省略されます. ⇒相関係数は 0.8018 |
|
|||||||||||||||||||||||||||||||||||||||||||||||||
【問題4】
右の表8に示されるデータは10個のものの縦横の長さを示したものだとします.このデータについて,縦の長さと横の長さの相関係数を求めてください.(一番近い値を選んでください.) (転記するのは大変ですので,画面上でドラッグ&コピーし,Excelのワークシート上に単純に貼り付けて使ってください.)
11.560 2−1.560 30.2611 4−0.2611 HELP
したがって,相関係数は −0.2611になります. →4
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||
【問題5】
右の表9は10人の生徒の3教科の得点たとします.これらの得点について,相関の強い方から順に2組を選んでください.(架空データ) (転記するのは大変ですので,画面上でドラッグ&コピーし,Excelのワークシート上に単純に貼り付けて使ってください.)
11.数学と英語,2.英語と国語 21.数学と英語,2.数学と国語 31.英語と国語,2.数学と英語 41.英語と国語,2.数学と国語 HELP
これにより,英語と国語が最も相関が強く,次が数学と英語になります. →3
|
|
■相関係数の原理(計算の仕組み)
※数学と英語の得点の相関係数が 0.8018 となった場合
○これら2教科の得点の相関は高いのか高くないのか.(*1) ○数学と英語の得点には因果関係があるのかないのか.(*2) ○この数字はどのようにして求めたものか.(*3) ![]() 印象や感覚で判断するよりも,データに基づいて統計的に判断するのがよいが,相関係数を偏重し過ぎず,軽視し過ぎないように,もう少し詳しく知る必要がある.
■相関係数の計算においては,変数の基準化(標準化,規格化)が行われています.
≪データの形を整える:その1・・・原点の取り方≫
(1) 原点を平均値に移動させる.
(2) 長さが1の矢印にして比較する ![]() ■相関係数の図形的な意味は,2つの矢印のなす角のcosθです.
右図9の(A)の図では,2つの矢印は同じような方向を向いているように見えますが,(B)の図ではかなり違う方向に見えます.このような事情は「原点の取り方」によって変わります.
≪データの形を整える:その2・・・大きさをそろえる≫例えば,絶対温度(−273度Cを絶対温度の0度とする)で測ると,都市の気温は300度前後の大きな値になるので,札幌と那覇の(冬の気温,夏の気温)は(A)のように大きな値になりますが,摂氏で測ると零度から30度位の小さな値になるので図(B)のようになるかもしれません. また,例えば1970年を100とする基準で2つの国の二酸化炭素排出量を(冬,夏)で示すと,大きい数字ばかりが並んで(A)の図になるのに,2000年を100とする基準では,よく努力した国とそうでない国に分かれて(B)の図になるかもしれません. このように,事柄の本質とは関係のない原点の取り方だけで,同じ傾向があるか逆の傾向があるかの判断が変わってしまうと客観的な数値になりません. そこで,一方が増えたときに他方は減るのか増えるのかなどの判断を行う相関係数を定義するときに,すべての変数を「平均値を原点とする」ように形を整えます..…(1)
kgの単位で測ると(3.1, 2.5)の組と(3.5, 2.7)になるものをgの単位で測ると(3100, 2500)と(3500, 2700)になるような場合に,gの単位で測ればこれらの相関係数が1000倍になったというようなことでは,これら2組の数字の相関を表しているとは言えません.
そこで,2組の数字の相関を調べるときに,両方とも長さが1の矢印になるように形を整えます.…(2) ■2つの矢印 ![]() ![]() このような,2つの矢印のなす角を数字で表すときに,2つの矢印のなす角のcosθを相関係数として使います. さらに,高校2年の数学を先回りして使うと,2つの矢印の内積は次の式で求めることができます. ![]() ![]() ![]() ![]() そこで, cosθ= ![]() によって,cosθの値,すなわち相関係数が求められます. ≪実際の計算≫ 右の表10でA1からB11までに書かれている10人の数学と英語の得点の相関係数を求めるには (1)上記の(1)で述べた「平均値を原点とする」に沿って,C列,D列を作ります.
1) 初めに,A13に =AVERAGE(A2:A11) として,数学の平均値を求めます.
(2)上記の(2)で述べた「大きさをそろえる」に沿って,E列,F列を作ります.これをコピーして,B13にそのまま貼り付けると(相対参照となって)B13に =AVERAGE(B2:B11)の形で,英語の平均値の計算が入ります. 2) 求めた平均値を使って,C2に =A2-A$13 という計算式を書きこむと,(数学の点数)−(数学の平均値)の値が書き込まれます. 次に,この式をコピーして C3からC11までに貼り付けると,2番目以降の生徒についても(数学の点数)−(数学の平均値)の値が書き込まれます. ($13は絶対参照になっているので,コピー・貼り付けしたときに動きませんが,他のセル番地は相対的にずれます.) 3) 同様にして,英語についても平均値を求めて,D列に =B2-B$13 をすると(英語の点数)−(英語の平均値)の値が書き込まれます.
⇒ 以上により,平均値が原点になります.
平均値の所に原点を移すということは,新しくできた変数「数学’」「英語’」の平均値はいずれも0になるということです. 実際,右のようにして作られた変数(コンピュータ処理上は,列見出しを「変数名」とすることが多い)「数学’」「英語’」の平均値は,0.000になります.
1) 初めに,
(3)基準化(標準化,規格化)された成分により2つの矢印について,積の和(ベクトルの内積)を求めます.=SUMSQ(C2:C11) によりC列の要素の2乗の和が求められるので,その正の平方根 =SQRT(SUMSQ(C2:C11)) をC13に書きこむとC列の矢印の長さが求まります. 2) 求めた長さを使って,E2に =C2/C$13 とすると,成分を大きさで割ったものが得られます. 次に,これをコピーしてE3からE11までに貼り付けると,E列に数学の得点を基準化(標準化,規格化)した成分が並びます. 3) 同様にして,英語の得点も基準化(標準化,規格化)してF列に書きこみます.
=SUMPRODUCT(E2:E11,F2:F11)
により,結果 0.8018 が得られます.
※ここでは,
![]() =SUMPRODUCT(C2:C11,D2:D11)/(C13*D13) としても同じことになります.
⇒ 以上により相関係数が得られます.
E列,F列は各々数学,英語の得点を基準化(標準化,規格化)したものです. 基準化(標準化,規格化)された成分で計算すると,つねに「平均値は0」「長さは1」になります. |
![]()
![]() をその長さ| ![]() (0.9967, −0.0808) になり,大きさ1の矢印になります.(方向だけは残ります) ○3次元:要素の個数が3個の場合 ![]() をその長さ| ![]() (0.7059, −0.0572, 0.7059) になり,大きさ1の矢印になります.(方向だけは残ります) ○4次元:要素の個数が4個の場合 ![]() をその長さ| ![]() (0.43096, −0.03494, 0.43096, −0.79204) になり,大きさ1の矢印になります.(方向だけは残ります) …… ○10次元:要素の個数が10個の場合 ![]() をその長さ | ![]() で割ると, (0.211, −0.017, 0.211, −0.389,...,0.011) になり,大きさ1の矢印になります.(方向だけは残ります)
この世の中は3次元以下までだと考えている人へ:数学では4次元でも,5次元でも,極端に言えば(少しだけ条件を付けたら)無限次元でもありなのだ.要素の個数が増えるだけだから・・・図に描けない?のはおかまいなし・・・計算はコンピュータがやるのだから.
- - - - - -
※ ベクトル(矢印)の成分は数学では横に並べて
![]() のように書きますが,統計では多くの場合,縦に並べて右の表のように書きます. さらに,数学ではベクトルル(矢印)の名前は上に矢印が付いた形で ![]() |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ここで,はじめに投げかけた疑問を振り返ってみると
(*3)の「この数字はどのようにして求めたものか」については,ここまでに示した計算方法が答です. (*1)の「これら2教科の得点の相関は高いのか高くないのか」については,相関係数rは,何らかの理論によって幾ら以上ならば高い,幾ら以下ならば低いという風に分けられるものではなく,同じ数字でも何を扱っているのかによって,高いか低かは経験的に判断するしかないと言われています.しかし,それでは初めて学ぶ生徒を悩ませるばかりですので,教科書などでは次のような「大まかな目安」が示されています. r=0.8なら強い正の相関があるといってよいでしょう.
(*2)の「数学と英語の得点には因果関係があるのかないのか」については,慎重に考えてみる必要があります.
まず,数学の得点に対する英語の得点の相関係数といっても,英語の得点に対する数学の得点の相関係数といっても同じものです.つまり,相関係数がいくら高くてもそれは因果関係を示しているわけではありません. ![]() ところが,子供Aの身長と子供Bの身長にも強い相関関係がありますが,この関係は因果関係ではなく2つとも第3の原因(親)の結果となっています.このような子供相互の関係は擬似相関と呼ばれ,相関関係が強くても因果関係を表していません. 数学の得点が高くても,英語の勉強をしなければ英語の得点が高くなるはずはなく,逆も言えます.したがって,これら2教科の得点に因果関係を読み取るのは無理でしょう. ![]() ⇒ このように,相関が強いからと言って,直ちに因果関係が認められるのではなく,さらなる研究の糸口になると見るべきです. |
≪相関係数の強い〜弱い目安表≫
![]() ![]() ![]() |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
【問題6】
右の表11においてデータを基準化したとき,先頭のデータの数学の得点51は,幾らになりますか. (転記するのは大変ですので,画面上でドラッグ&コピーし,Excelのワークシート上に単純に貼り付けて使ってください.)
10.044 2−0.333 32 449 HELP
→1
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
右の表12について以下の問題に答えてください.
(転記するのは大変ですので,画面上でドラッグ&コピーし,Excelのワークシート上に単純に貼り付けて使ってください.)
-6.8になります. →4
-0.275 になります. →2
順に組み立てていくとr=−0.1138になります. →3
|
|