■Excel:重回帰分析(3)・・・分析ツールの使い方,説明変数の選び方
 ここでは,学的に厳密なことは望まず,仕事や研究で報告書を半日程度でまとめなければならない人を念頭に置いて,大筋の説明を目指す.重回帰分析自体に使える時間として,は30分〜1時間程度を想定する.(もっと詳しい説明が必要な人は下端に参考資料を示す.)
■Excelの分析ツールの使い方■ 

 次の例では,冷蔵庫の「実勢価格」(目的変数)を「総容量L」「ドア数(個)」「冷蔵室L」「冷凍室L」「野菜室L」「製氷室L」(説明変数)で表わす重回帰式を求めることを当面の目標とする.

 次の図のように目的変数(被説明変数,従属変数)がA列にあり,説明変数(独立変数)がB〜G列に入力されている場合を例に解説する.
操作方法は、下の[前の操作][次の操作]ボタンを順次押せば表示される.(データの出所:2007.3.18に価格.com>スペック検索>冷蔵庫で「冷蔵室」「冷凍室」「野菜室」「独立製氷室」「ノンフロン冷蔵室」を指定して表示されたもの.)
 

■前提■
  • 目的変数,説明変数とも量的データ(数値)であること・・・説明変数に質的変数(カテゴリーデータ)が含まれているときは,[前のページ]の説明のようにダミー変数に変換してあること
  • データの個数(表で1行目のラベルを除いた行数)をn,説明変数の個数(列数)をmとおくとき
    n>m+1 を満たすこと (自由度がn−m−1になるので,説明変数と比べてデータ個数が少ないと無理)
■分析ツール>回帰分析で出力される表■

図1

(1)
 ○ 重相関R・・・重相関係数.1に近いほどよく近似されたモデルとなる.
 ○ 重決定R2・・・決定係数.目的変数のばらつきの内,これらの説明変数で説明できる割合.Rの2乗に等しい.

 ○ 補正R2・・・自由度修正済決定係数.データ数が少ないと決定係数が自由度の影響を受けて実際よりも大きくなるので,自由度を考慮して補正した決定係数.この値が0.5以下では半分以下の説明しかできていないことになる.この値が1に近いほどよいモデル.←主にこれを見る.

(2)
 ○ 係数・・・重回帰式の係数.上の図の場合,重回帰式は
(実勢価格)= -115274+ 588.2779×(総容量)+ 17416.4×(ドア数) -66.8481×(冷蔵) -329.723×(冷凍) -722.658×(野菜) + 85.64699×(製氷)

となる.
(3)
 ○ t・・・t値.| t | が大きいほど影響が大きい.(切片以外)
   (元のデータが標準化されていれば:[(観測値-それぞれの平均値)/標準偏差]回帰係数が影響度を表わすが,その変形は少し時間がかかる.データが生のままのときは | t値 |で分かる.)
 ○ P-値・・・P値が小さいほどその説明変数を用いたときの危険率が小さい.(切片以外)

■分析ツール>相関で出力される表■・・・ツール→分析ツール→相関 でデータ全体を選び「先頭行をラベルとして使用」にチェックを入れて出力されるもの
図2
○ 目的変数との相関係数が高いかどうかを見る(よい材料)
○ 説明変数相互の相関係数が高いものは,多重共線性(マルチコリニアリティ)の可能性あり要注意(悪い材料)
※多重共線性(マルチコ,マルチコリニアリティ)※

 上の回帰分析で出力される表の例では,「冷蔵室」「冷凍室」「野菜室」の係数が負になっている.これは,大きくなるほど価格が安くなることになり常識に反し,相関係数と回帰係数の符号が逆になっている.何かエラーがあると考えられる.

 実は,総容量=冷蔵室+冷凍室+野菜室+製氷室なので,冷蔵室,冷凍室,・・・に,さらに総容量を入れると,冷蔵室,冷凍室,・・・の影響が2重に評価されていることになる.

 一般に,説明変数相互に相関が強いとき,それらの説明変数を両方とも入れてしまうと,その影響を2重に評価してしまうこととなり正しく予測できない.(多重共線性,マルチコリニアリティという.)

 上の例のように「相関係数と回帰係数の符号が逆になっている」「説明変数相互の相関係数が高い」ものは,多重共線性の疑いがあるので、いずれか一方を説明変数からはずして,重回帰分析をやり直す必要がある.
■説明変数の選び方■
 多重共線性が端的に示しているように,説明変数は多いほどよいのでなく,むしろ,目的変数に影響していない雑多な説明変数は少ないほどよいと考える.最適な説明変数の選び方として,次のようなものがある.

(ア) 変数増加法・・・説明変数0個からスタートして,目的変数との相関が強いものから順に1つずつ追加,再計算する.
   t値の小さいもの(t2<2を目安とすることが多い)が登場すればその前までとする.

(イ) 変数減少法・・・準備した説明変数を全部使って(Excel2002では16以下の制限有り)分析し,多重共線性の疑いのあるもの,t値の小さいもの(t2<2を目安とすることが多い)をはずして再分析する.
 ただし,ダミー変数に変換したデータをはずすときは,そのカテゴリーのデータ全部をはずす必要がある.

(ウ) これ以外にも精密に行う方法があるがここでは省略

 時間的な余裕がない場合に,そこそこの分析をまとめるには,(2)の変数減少法がお薦め.そこで上の冷蔵庫の価格予想について変数減少法で実演してみる.
(1)
 まず,準備した説明変数を全部使って分析ツール→回帰分析と相関で出力する.→上の図1,図2になる.

 多重共線性の疑い=相関係数と回帰係数が逆符号になっているもの.==>冷蔵,冷凍,野菜はあやしい
 総容量と冷蔵,冷凍の相関係数がかなり高いのもあやしい.
(2)
 総容量,ドア数,製氷で回帰分析の方だけを再度実行する→次の出力が得られる.
回帰統計  
重相関 R 0.763
重決定 R2 0.582
補正 R2 0.564
標準誤差 20699.296
観測数 73
係数 標準誤差 t P-値
切片 -134486.113 28383.936 -4.738 0.000
総容量 384.737 60.832 6.325 0.000
ドア数 17109.737 5717.852 2.992 0.004
製氷 64.708 545.140 0.119 0.906


補正R2(自由度修正済決定係数)は0.5以上でまずまず.
t値からは,影響度は総容量>ドア数>製氷の順だと分かる.製氷はt2<2だからはずす.

(3)
 総容量,ドア数だけで回帰分析を再度実行する.→次の出力が得られる.
回帰統計  
重相関 R 0.763
重決定 R2 0.582
補正 R2 0.570
標準誤差 20553.010
観測数 73
  係数 標準誤差 t P-値
切片 -134054.021 27950.604 -4.796 0.000
総容量 386.261 59.042 6.542 0.000
ドア数 17107.396 5677.409 3.013 0.004



補正R2(自由度修正済決定係数)は,まずまず.
t値からは,影響度は総容量>ドア数の順だと分かる.t2はいずれも2以上
これらのP値(危険率)0.05以下は妥当

(*)
以上により,実勢価格を総容量,ドア数で表わすと
実勢価格= -134054 + 386.261×(総容量) + 17107×(ドア数)
■例と答■
 別添ファイル( mul_correl.xls )を用いて,次の問に答えよ.
(1)
 Sheet1は上で解説した冷蔵庫のスペック表である.上の解説と同様の結果が得られるかどうか確かめてみよ.
(解説)
 省略
(2)
 Sheet2は架空データで,ある学校の推薦入学合格者の1年後の成績(5段階評価)と推薦入学試験の関係を調べたものとする.

「男女」は男を1,女を0とする.
「内申書」は5段階評価
「基礎テスト」は100点満点の基礎学力テストの結果
「夢」は志望動機の作文において夢が具体的に読み取れるものを1とし,そうでないものを0とする.
「家」は,志望動機に家から近いことを挙げたものを1とし,そうでないものを0とする.
「担任」は担任に勧められたからと回答したものを1とし,そうでないものを0とする.
「パンフ」は,学校紹介パンフレットを見て本校に興味をもったと回答した者を1とし,そうでないものを0とする.
「偏差値」は,志望動機として模擬試験の偏差値が合格圏にあったからと回答したものを1,そうでないものを0とする.

 これらの説明変数を用いて,1年後の成績を予測する回帰式を作れ.
※ 適当に作った架空データなので,実際にはどうなるか分からない.

(解説)
 「相関」の出力結果からは,説明変数相互で強い相関のあるものは見られない.
 「回帰分析」の出力からは,夢,家から,担任,パンフ,偏差値のt値の2乗が2以下なので,これらは影響が少ない.
 そこで,男女,内申書,基礎テストを説明変数として再度回帰分析を実行する.
 補正R2=0.6877・・・一応OK
 男女,内申書,基礎テストのt値の2乗は2以上・・・OK
 P値・・・男女のP値は0.05付近だが,他は<0.05
 回帰式は,
 1年後成績 = 0.606+ 0.162×(男)+ 0.218×(内申書) + 0.027×(基礎テスト)
(3)
 Sheet3は,無停電電源装置の価格をスペック検索した結果である.このデータにおいて,目的変数を価格として重回帰分析せよ.
※ 出所:2007.3.19時点で,価格.comで,UPSをスペック検索して表示されもののうち価格が表示されたもの
※ 無停電電源装置:落雷などによる停電のときにコンピュータがクラッシュするのを防ぐために用いるバッテリ.作者は容量(VA)とバックアップ時間(分)を重視.このバックアップ時間の間にデータを保存して無事シャットダウンできるかどうかが勝負.
(解説)
説明変数を全部使って分析すると
 出容量と重量に強い相関があり多重共線性の疑いがある
 重量は回帰係数と相関が逆符号なのではずす
 コンセント,幅,高さはt値の2乗が2以下なので影響が少ない
以上から,出容量,寿命,充電,奥行で再度分析を実行
 その結果
出容量(VA)のt値が小さく,価格にほとんど影響していないことが分かる.
また作者には充電時間よりはバックアップ時間の方が興味がある.


==>「価格と性能があまり対応していない」ようなので,いいものを安く買えばよいのではないか??(こういうこともある)
※ この項目について,もっと詳しい説明のある書籍
○ 「Excelで学ぶ多変量解析入門」(菅民郎著/Ohmsha)
○ 「Excel徹底活用 多変量解析」(上田太一郎他著/秀和システム)
○ 「Excelで学ぶ理論と技術 多変量解析」(竹内光悦他著/SoftBank Creative)

○=== メニューに戻る