8.8K Views
November 10, 23
スライド概要
神戸大学経営学部で2022年度より担当している「経営統計」の講義資料「04_回帰分析」を公開用に調整したものです。
【更新履歴】
・2024/11/22:(pp. 3-6)回帰分析の考え方の導入スライドを追加しました
神戸大学経営学研究科准教授 分寺杏介(ぶんじ・きょうすけ)です。 主に心理学的な測定・教育測定に関する研究を行っています。 講義資料や学会発表のスライドを公開していきます。 ※スライドに誤りを見つけた方は,炎上させずにこっそりお伝えいただけると幸いです。
経営統計 04 回帰分析 分寺 杏介 神戸大学 経営学部 [email protected] ※本スライドは,クリエイティブ・コモンズ 表示-非営利 4.0 国際 ライセンス(CC BY-NC 4.0)に従って利用が可能です。
回帰分析 ▌変化の程度を知りたい・予測がしたい A 1 ID B 性別 C D 身長 体重 E F 勉強時間 テストの得点 2 1 男 172 70 3.0 91 3 2 女 158 47 0.8 31 4 3 女 160 54 4.0 34 5 4 男 178 69 3.8 51 6 5 女 153 勉強時間とテストの得点に 7 6 男 169 8 7 男 165 多少の相関があるのはわかった。 9 8 女 155 じゃあ,1時間勉強するとテストの 10 9 男 159 42 1.9 87 80 1.9 39 70 2.1 48 42 0.8 73 63 2.4 62 得点はどれくらい上がるんだい? 11 女 147 40 1.7 34 42 1.6 84 11 12 10 女 148 相関係数が0.257ってことは… …………どういうことだ? もちろん相関係数を見ても何もわからない 回帰係数が4.3なので, 勉強時間が1時間伸びるごとに 平均で4.3点ほど上がると予測されます。 2時間勉強した生徒の予測得点は 65点です。 回帰分析の出番です 04 回帰分析 2
日常的に使っている(かもしれない)推論のフレームワーク 問 以下の表は,過去5日間の最高気温とアイスの売上個数をまとめたものです。 この表をもとに,「最高気温」と「アイスの売上個数」の間の関係性を考え, 今日(最高気温29度)のアイスの売上個数を予測してください。 今日 最高気温 売上個数 7/1 24 47 7/2 27 54 7/3 26 52 7/4 20 38 7/5 31 56 7/6 29 ? 04 回帰分析 3
日常的に使っている(かもしれない)推論のフレームワーク 問 以下の表は,過去5日間の最高気温とアイスの売上個数をまとめたものです。 この表をもとに,「最高気温」と「アイスの売上個数」の間の関係性を考え, 今日(最高気温29度)のアイスの売上個数を予測してください。 売上個数 7/1 24 47 7/2 27 54 7/3 26 52 7/4 20 38 7/5 31 56 7/6 29 ? ▌考え方 散布図を書いてみると… アイスの売上 今日 最高気温 最高気温 04 回帰分析 4
日常的に使っている(かもしれない)推論のフレームワーク 問 以下の表は,過去5日間の最高気温とアイスの売上個数をまとめたものです。 この表をもとに,「最高気温」と「アイスの売上個数」の間の関係性を考え, 今日(最高気温29度)のアイスの売上個数を予測してください。 売上個数 7/1 24 47 7/2 27 54 7/3 26 52 7/4 20 38 7/5 31 56 7/6 29 ? ▌考え方 なんとなく線を引いてみると… アイスの売上 今日 最高気温 最高気温 04 回帰分析 5
日常的に使っている(かもしれない)推論のフレームワーク 問 以下の表は,過去5日間の最高気温とアイスの売上個数をまとめたものです。 この表をもとに,「最高気温」と「アイスの売上個数」の間の関係性を考え, 今日(最高気温29度)のアイスの売上個数を予測してください。 売上個数 7/1 24 47 7/2 27 54 7/3 26 52 7/4 20 38 7/5 31 56 7/6 29 (55) ▌考え方 直線上で29℃にあたるところを探せば アイスの売上 今日 最高気温 個 最高気温 04 回帰分析 6
回帰とはなんぞや 【問】すべてのデータを通る直線を引きなさい データが1つの場合 データが2つの場合 体重 データが3つの場合 体重 体重 𝑦 𝑦 一次関数 𝑦 = 𝛽0 + 𝛽1 𝑥 身長 色々な直線がありえる 身長 𝑥 1つだけに決まる すべての点を通る線は引けないので 身長 すべてのデータに対して 𝑥 それっぽい線を引く この線を 回帰直線 と呼ぶ 04 回帰分析 7
もちろんデータがいくつでも 【問】すべてのデータを通る直線を引きなさい データが3つの場合 データがたくさん 体重 やりたいことは それっぽい線 体重 𝑦 𝑦 を引くこと 直線なので1次関数 𝑦 ≈ 𝛽0 + 𝛽1 𝑥 身長 すべてのデータに対して それっぽい線を引く 𝑥 身長 すべてのデータに対して それっぽい線を引く この線を 回帰直線 と呼ぶ 04 回帰分析 を求めたい 𝑥 𝛽0 と 𝛽1 がどんな値のとき 最も「それっぽい線」になるか を考えていきます 8
回帰直線の意味 𝑦 ≈ 𝛽0 + 𝛽1 𝑥 もし手元に身長の情報しかない状態で 「体重を予想しろ」と言われたらどうするか? 𝑥 がある値のときに 𝑦 は大体どれくらいになるか 例)右の回帰直線が 𝑦 = −50 + 0.7𝑥とすると 身長𝑥 = 170cmの人の体重はだいたい 体重 𝑦 −50 + 0.7 × 170 = 69kg くらい 身長𝑥 = 150cmの人の体重はだいたい 69 −50 + 0.7 × 150 = 55kg くらい もちろん個人差があるので「150cm・45kg」の人もいる だろうが,いちいち個人差の話をするとキリが ないので「全体的な傾向」として話をする 170 身長 𝑥 04 回帰分析 9
回帰直線の意味 𝑦 ≈ 𝛽0 + 𝛽1 𝑥 こういう言葉の使い分けをする人もいるようですが さほど重要な区別ではない気がします データの予測ができるようになる 補外(外挿) 体重 補間(内挿) 補外(外挿) 例|大学生の身長と体重を測定 手元の全データ(黒い点)から求めた 65.5 回帰直線が 𝑦 = −50 + 0.7𝑥だとすると 【補間(内挿)】 回帰直線を作る時に使ったデータにおける 𝑥 の範囲内で予測を行うこと 55 A さんの身長は150cmでした。 体重はどれくらいと予想できるでしょうか。 【補外(外挿)】 回帰直線を作る時に使ったデータにおける 𝑥 の範囲外で予測を行うこと B さんの身長は165cmでした。 143 体重はどれくらいと予想できるでしょうか。 04 回帰分析 150 A 160 165 身長 B 10
「説明変数」と「被説明変数」 𝑦 ≈ 𝛽0 + 𝛽1 𝑥 この電球はなんでこの明るさに なるのか説明してみ? 50ワットだからですね 例|𝑥が「電球のワット」𝑦が「明るさ」だと ワット数𝑥がわかれば明るさ𝑦もわかる! 明るさ 𝑦 統計の専門用語 みたいなもの 電球ごとに異なる明るさ𝑦を説明するのは ワット数𝑥である 𝑥は説明する変数=説明変数|独立変数|原因変数 𝑦は知りたい変数=被説明変数|従属変数|目的変数 ワット 𝑥 04 回帰分析 11
回帰分析でも 実際に体重の個人差を説明する要因は無数にありますが ここではあくまでも「この回帰分析に登場する変数の中で」 𝑦 ≈ 𝛽0 + 𝛽1 𝑥 の話をしています。 例|身長𝑥がわかると体重𝑦が大体予測できる 体重 個人ごとに異なる体重𝑦のばらつきを 説明するのは身長𝑥である あるいは 体重𝑦は身長𝑥で大体説明できる 説明変数は身長,被説明変数は体重 身長 この「説明する」という表現は 割とよく使われる表現なので慣れてください 04 回帰分析 12
回帰係数の意味 𝑦 ≈ 𝛽0 + 𝛽1 𝑥 𝛽1 (傾き) 𝛽1 体重 1 𝑥の値が1大きくなると 𝑦の予測値(平均的な傾向)は どれだけ大きくなるか 例 右の回帰直線が𝑦 = 0.7𝑥 − 50 だとすると 身長(𝑥)が1cm大きくなるごとに 体重の予測値が0.7kg大きくなる 160cmの人と170cmの人では平均で 7kgの差がある,と考えることができる 身長 04 回帰分析 13
回帰係数の意味 𝑦 ≈ 𝛽0 + 𝛽1 𝑥 𝛽0 (切片) 体重 𝑥の値が0のとき 𝑦 の予測値(平均的な傾向)は いくつになるか 例 右の回帰直線が𝑦 = 0.7𝑥 − 50 とすると 身長が0cmの人の体重の予測値は -50kgである もちろん身長が0の人や体重がマイナスの人は 存在しないので,この場合切片には何の意味も無い 身長 04 回帰分析 14
(おまけ)切片の使い方 切片に意味をもたせるためには,中心化する 体重 【中心化】 平均が0になるようにするため,平均値を引くこと 中心化した後の値は「平均値からの偏差」を表す 𝛽0 このとき切片𝛽0 は「平均値からの偏差が0= 平均値の人での𝑦 の予測値」になる 0 04 回帰分析 身長 (平均値からの偏差) 15
「それっぽい直線」とは? ▌赤い線が点線よりも「それっぽい」…なぜそう思うのか? 各データと近いから 体重 ※一個一個の点について見ると 赤い線より近い線があるかもしれないが 全データで「データと直線の距離」の平均を とってみると,赤い線が一番小さい 「データと直線の距離」の平均が 最小になる直線を求めたら良い!…のか? 身長 04 回帰分析 16
「回帰直線」は「平均値」である 2変数だから二次元 関係を一本の直線に代表させたもの ▌回帰直線は フワッとした だいたい 同じこと 体重 平均値はデータを一つの値に代表させたもの 1変数だから一次元 考え方としては 代表値は「全体的にその値からの偏差が 小さくなる値」のことである 回帰直線も「全体的にその値からの偏差が 小さくなる直線」のことである 身長 04 回帰分析 17
回帰式を正確に書くと イコールに戻します 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝑒𝑖 + 「大体」の予測値 予測とのズレ 体重 例)右の回帰直線が 𝑦 = −50 + 0.7𝑥 とすると 𝑦 𝑥, 𝑦 = (170,75)の人がいた場合 75 𝛽0 + 𝛽1 𝑥𝑖 = −50 + 0.7 × 170 = 69 69 6 𝑒𝑖 = 6 𝑦𝑖 = 69 + 6 = 75 予測とのズレ が一番小さくなる直線が 最も「それっぽい」と言えそうだ! 170 身長 𝑥 04 回帰分析 18
最小二乗法 Ordinary Least Squares 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝑒𝑖 𝑦𝑖 = 「大体」の予測値 + 予測とのズレ 体重 𝑦 予測とのズレ 回帰直線の目的は 変数 𝑥 によって変数 𝑦 を予測すること 予測のズレは縦方向の距離で表れる このズレを最小にしたい 𝑒𝑖 を 「残差」として考える 分散な考え方 「分散が小さいほど平均値周辺にある」 「残差」の二乗の和が最小になる直線 を計算する これを最小二乗法と呼びます したがって1変数の平均値の計算も やろうと思えば最小二乗法で 求める事ができます(面倒だけど) 𝑥 身長 04 回帰分析 19
最小二乗法を数式で ▌回帰式 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝑒𝑖 𝑛 𝑛 ▌目的 𝑒𝑖2 = 𝑦𝑖 − 𝛽0 + 𝛽1 𝑥𝑖 𝑖=1 2 を最小にする(𝛽0 , 𝛽1 )のペアを見つけ出す 𝑖=1 ▲ (𝛽0 , 𝛽1 ) のどちらについても二次関数 (𝛽0 , 𝛽1 ) のそれぞれについて偏微分した式がゼロになるところを探す 2つの未知数に対して2つの方程式が立つ 𝑛 𝑛 −2 𝑒𝑖 = 0 𝑖=1 𝑛 −2 𝑥𝑖 𝑒𝑖 = 0 𝑖=1 𝑛 連立方程式 𝑛 𝑛 𝑦𝑖 − 𝛽0 − 𝛽1 𝑥𝑖 = 0 𝑛 𝑖=1 𝑖=1 𝑛 𝑖=1 𝑛 𝑛 𝑦𝑖 − 𝑛𝛽0 − 𝛽1 𝑥𝑖 = 0 𝑛 𝑖=1 𝑛 𝑖=1 𝑛 𝑥𝑖 𝑦𝑖 − 𝑥𝑖 𝛽0 − 𝛽1 𝑥𝑖2 = 0 𝑥𝑖 𝑦𝑖 − 𝛽0 𝑥𝑖 − 𝛽1 𝑥𝑖2 = 0 𝑖=1 𝑖=1 𝑖=1 𝑖=1 04 回帰分析 𝑖=1 𝑖=1 20
最小二乗法で計算してみる 【問】以下の4つの点から,回帰直線を計算してみましょう 𝑦 (-1, 1) (3, 2) 𝑥 (2, -1) (-4, -2) 04 回帰分析 21
最小二乗法で計算してみる 【問】以下の4つの点から,回帰直線を計算してみましょう Step 1 回帰式を立てる 𝑦 今回の場合,直線(一次関数)を探すので,回帰式は 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝑒𝑖 (-1, 1) となり,この(𝛽0 , 𝛽1 )の組を探していく (3, 2) 𝑥 (2, -1) (-4, -2) 04 回帰分析 22
最小二乗法で計算してみる 【問】以下の4つの点から,回帰直線を計算してみましょう Step 2 回帰式による予測とのズレを計算する 𝑦 𝑦𝑖 ≈ 𝛽0 + 𝛽1 𝑥𝑖 に実際に値を当てはめたときのズレ 𝑒𝑖 は 回帰直線 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 (𝛽0 , 𝛽1 の値はまだ不明) (-1, 1) (2, 𝛽0 + 2𝛽1 ) (3, 2) (2, -1)の点 𝑥 −𝛽0 − 2𝛽1 − 1 (2, -1) の場合 予測値:𝑦 = 𝛽0 + 2𝛽1 (上の式に𝑥を当てはめただけ) 実際 :𝑦 = −1 予測とのズレ𝑒𝑖 は −1 − 𝛽0 + 2𝛽1 = −𝛽0 − 2𝛽1 − 1 (-4, -2) 04 回帰分析 23
最小二乗法で計算してみる 【問】以下の4つの点から,回帰直線を計算してみましょう Step 3 すべての点と回帰直線のズレを計算する 𝑦 同じようにすべての点とのズレを計算すると (-1, 1) (-4, 𝛽0 − 4𝛽1 ) (2, 𝛽0 + 2𝛽1 ) (3, 2) (3, 𝛽0 + 3𝛽1 ) 𝑥 (-1, 𝛽0 − 𝛽1 ) (2, -1) 点 予測値 ズレ (2, -1) 𝛽0 + 2𝛽1 −𝛽0 − 2𝛽1 − 1 (3, 2) 𝛽0 + 3𝛽1 −𝛽0 − 3𝛽1 + 2 (-1, 1) 𝛽0 − 𝛽1 −𝛽0 + 𝛽1 + 1 (-4, -2) 𝛽0 − 4𝛽1 −𝛽0 + 4𝛽1 − 2 となる。 (-4, -2) 04 回帰分析 24
最小二乗法で計算してみる 【問】以下の4つの点から,回帰直線を計算してみましょう Step 4 ズレの二乗和を計算する 𝑦 (-1, 1) (-4, 𝛽0 − 4𝛽1 ) (2, 𝛽0 + 2𝛽1 ) (3, 2) (3, 𝛽0 + 3𝛽1 ) 𝑥 (-1, 𝛽0 − 𝛽1 ) 点 ズレ ズレの二乗 (2, -1) −𝛽0 − 2𝛽1 − 1 𝛽0 + 2𝛽1 + 1 2 (3, 2) −𝛽0 − 3𝛽1 + 2 𝛽0 + 3𝛽1 − 2 2 (-1, 1) −𝛽0 + 𝛽1 + 1 𝛽0 − 𝛽1 − 1 2 (-4, -2) −𝛽0 + 4𝛽1 − 2 𝛽0 − 4𝛽1 + 2 2 計算すると,二乗和は (2, -1) 4𝛽02 + 30𝛽1 2 − 22𝛽1 + 10 (-4, -2) となる。 04 回帰分析 25
最小二乗法で計算してみる 【問】以下の4つの点から,回帰直線を計算してみましょう Step 5 二乗和を最小化する 𝛽0 , 𝛽1 の値を求める 𝑦 𝑓 𝛽0 , 𝛽1 = 4𝛽02 + 30𝛽1 2 − 22𝛽1 + 10 を偏微分する (-1, 1) (-4, 𝛽0 − 4𝛽1 ) (2, 𝛽0 + 2𝛽1 ) 上の式を 𝛽0 , 𝛽1 でそれぞれ微分してゼロとおくと (3, 2) (3, 𝛽0 + 3𝛽1 ) 𝑥 (-1, 𝛽0 − 𝛽1 ) 8𝛽0 = 0 ቊ 60𝛽1 − 22 = 0 これを満たす時に二乗和は最小値になるので, (2, -1) (-4, -2) 𝛽0 , 𝛽1 = 0, 04 回帰分析 11 30 となる。 26
式展開 連立方程式をていねいに解いてみる 𝑛 𝑛 𝑛 𝑦𝑖 − 𝑛𝛽0 − 𝛽1 𝑥𝑖 = 0 𝑛 𝑖=1 𝑛 𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑛 𝑖=1 σ𝑛𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑦ത σ𝑛𝑖=1 𝑥𝑖 𝛽1 = 𝑛 σ𝑖=1 𝑥𝑖2 − 𝑥ҧ σ𝑛𝑖=1 𝑥𝑖 𝑛 𝑛 𝑛 𝑥𝑖 𝑦𝑖 − 𝑦ത 𝑥𝑖 + 𝛽1 𝑥ҧ 𝑥𝑖 − 𝛽1 𝑥𝑖2 = 0 𝑖=1 𝛽1 の式に整理 を下の式に代入 𝑛 𝑥𝑖 𝑦𝑖 − 𝛽0 𝑥𝑖 − 𝛽1 𝑥𝑖2 = 0 𝑖=1 𝑛 1 1 𝛽0 = 𝑦𝑖 − 𝛽1 𝑥𝑖 = 𝑦ത − 𝛽1 𝑥ҧ 𝑛 𝑛 𝑖=1 𝑖=1 σ𝑛𝑖=1 𝑥𝑖 𝑦𝑖 分子と分母を − 𝑦ത𝑥ҧ 𝑛 𝛽1 = 𝑛 σ𝑖=1 𝑥𝑖2 𝑛で割る − 𝑥ҧ 𝑥ҧ 𝑛 04 回帰分析 𝑖=1 次ページに続く 27
式展開の続き (因数分解するための変形) −𝑦ത 𝑥ҧ =− −𝑦ത𝑥ҧ − 𝑦ത𝑥ҧ + 𝑦ത𝑥ҧ 𝑛 σ𝑛𝑖=1 𝑥𝑖 𝑦𝑖 1 − 𝑦ത 𝑥ҧ = 𝑥𝑖 𝑦𝑖 − 𝑦ത 𝑥ҧ − 𝑦ത 𝑥ҧ + 𝑦ത 𝑥ҧ 𝑛 𝑛 σ𝑛𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑦ത𝑥ҧ 𝑛 𝛽1 = 𝑛 σ𝑖=1 𝑥𝑖2 − 𝑥ҧ 2 𝑛 1 𝑛 σ𝑖=1(𝑥𝑖 − 𝑥)(𝑦 ҧ 𝑖 − 𝑦) ത 𝑛 = 1 𝑛 σ𝑖=1 𝑥𝑖 − 𝑥ҧ 2 𝑛 𝑖=1 𝑛 𝑛 (第2,3項の𝑥,ҧ 𝑦を片方ずつだけ戻す) ത 𝑛 1 1 1 = 𝑥𝑖 𝑦𝑖 − 𝑦𝑖 𝑥ҧ − 𝑥𝑖 𝑦ത + 𝑦ത𝑥ҧ 𝑛 𝑛 𝑛 = 𝑛 𝑛 𝑖=1 𝑖=1 1 1 −𝑦ത 𝑥ҧ − 𝑦ത 𝑥ҧ = − 𝑦𝑖 𝑥ҧ − 𝑥𝑖 𝑦ത 𝑛 𝑛 𝑖=1 𝑖=1 𝑖=1 𝑛 𝑛 𝑛 𝑛 𝑛 𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑖=1 1 1 1 1 1 ҧ 𝑖 − 𝑦) ത 𝑥𝑖 𝑦𝑖 − 𝑦𝑖 𝑥ҧ − 𝑥𝑖 𝑦ത + 𝑦ത 𝑥ҧ = (𝑥𝑖 − 𝑥)(𝑦 𝑛 𝑛 𝑛 𝑛 𝑛 𝑛 σ𝑛𝑖=1 𝑥𝑖2 1 − 𝑥ҧ 2 = 𝑥𝑖2 − 2𝑥ҧ 2 + 𝑥ҧ 2 𝑛 𝑛 𝑖=1 𝑛 𝑛 −𝑥ҧ 2 = −2𝑥ҧ 2 + 𝑥ҧ 2 𝑛 1 1 1 = 𝑥𝑖2 − 2 𝑥𝑖2 𝑥ҧ + 𝑥ҧ 2 𝑛 𝑛 𝑛 𝑖=1 𝑛 = 𝑖=1 𝑖=1 𝑛 1 1 𝑥𝑖2 − 2𝑥𝑖2 𝑥ҧ + 𝑥ҧ 2 = 𝑥𝑖 − 𝑥ҧ 2 𝑛 𝑛 𝑖=1 𝑖=1 (因数分解するための変形) 𝑛 1 𝑥ҧ = 𝑥𝑖2 𝑛 (第2項の𝑥を一個だけ戻す) ҧ 𝑖=1 𝑛 1 𝑥ҧ 2 = 𝑥ҧ 2 (同じシグマの中に入れるための変形) 𝑛 𝑖=1 04 回帰分析 28
最小二乗法の解 ▌連立方程式を解くと 𝛽0 = 𝑦ത − 𝛽1 𝑥ҧ 1 𝑛 σ𝑖=1(𝑥𝑖 − 𝑥)(𝑦 ҧ 𝑖 − 𝑦) ത 𝑥と𝑦の共分散 𝑛 𝛽1 = = 1 𝑛 𝑥の分散 σ𝑖=1 𝑥𝑖 − 𝑥ҧ 2 𝑛 ▌実際のところ解を覚える必要はない,と思います どうせパソコンが計算してくれるし この先もっと複雑になったときにいちいち解を覚えるわけにもいかないし とりあえずまずは p. 26までで説明した「考え方」を理解してください 04 回帰分析 29
同じ回帰直線でも… ▌ 回帰の精度が異なるかもしれない 【精度が低いとき】 【精度が高いとき】 𝑦 𝑦 𝑥 𝑥 ※2つの図では,回帰直線の傾き(回帰係数)は変わっていない 04 回帰分析 30
相関係数は から までの間の値になる ということは っておいてください 回帰の精度と相関 =0 𝑥 ▌ 回帰直線を取り除くと 𝑥 = 𝑥 = 0.5 𝑥 = 0.5 𝑥 =1 相関係数 は必 しも無相関を表しているわけではない 【精度が低いとき】 ) 【精度が高いとき】 𝑦 1 資料03 p. 22 相関係数 =共分散 というだけです ( =相関が高いとき 直線 の相関関係もありました =相関が低いとき 相関係数 は と のちょうど中間というわけではない 「相関 」みたいな解 はできません 𝑦 変数の 𝑥 計 𝑥 相関係数と回帰の精度には 何らかの関係がありそうだ! 04 回帰分析 31
回帰の精度を考える ▌データを予測値と誤差に分解する 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝑒𝑖 𝑦𝑖 = 「大体」の予測値 + わいはっと 予測とのズレ 𝑦ො𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 と表記します 𝑦𝑖 = 𝑦ො𝑖 + 𝑒𝑖 あるいは 𝑒𝑖 = 𝑦𝑖 − 𝑦ො𝑖 ▌精度が高いということは その1 𝑒𝑖 の絶対値が小さい あるいは その2 𝑦𝑖 と 𝑦ො𝑖 の値が近い データ全体で見ると データ全体で見ると 𝑒𝑖 の分散が小さいならば 回帰の精度は高いと言える 𝑦𝑖 と 𝑦ො𝑖 の相関が高いならば 回帰の精度は高いと言える 04 回帰分析 32
決定係数 その1に向けて ▌変数のばらつきの要因を分解するという考え方 𝑦𝑖 = 「大体」の予測値 = 平均値 + 予測値と 平均値の差 + 予測とのズレ + 予測とのズレ 体重 𝑦 75 69 例)右の回帰直線が 𝑦 = −50 + 0.7𝑥とする 6 9 (𝑦) ത 60 𝑥𝑖 , 𝑦𝑖 = (170,75)の人がいた場合 𝑦 の平均値 𝑦ത が60だとすると 𝑦𝑖 は平均値 𝑦ത よりも15大きい p. 14 𝑦𝑖 = 69 + 6 = 60 + 9 + 6 = 75 170 身長 𝑥 04 回帰分析 33
決定係数 その1に向けて ▌変数のばらつきの要因を分解するという考え方 𝑦𝑖 = 「大体」の予測値 = 平均値 + 予測値と 平均値の差 + 予測とのズレ 𝑦𝑖 = 𝑦ො𝑖 + 𝑒𝑖 = 𝑦ത + 𝑦ො𝑖 − 𝑦ത + 𝑒𝑖 + 予測とのズレ 回帰の精度を考える データ全体で見ると データを予測値と誤差に分解する 𝑦𝑖 = の分散 「大体」の予測値 + 予測とのズレ 「大体」の予測値 の分散 + 予測とのズレ の分散 予測値と = = 0 + 1 𝑥 と表記します 予測とのズレ + + = 平均値 平均値の差 の分散 の分散 精度が高いということは その の絶対値が小さい データ全体で見ると の分散が小さいならば 回帰の精度は高いと言える 𝑣 𝑦𝑖 = 𝑣 𝑦ො𝑖 + 𝑣 𝑒𝑖 + あるいは の分散 = =𝑣(𝑦) ത + 𝑣 𝑦ො𝑖 − 𝑦ത + 𝑣(𝑒𝑖 ) これが小さいほど その あるいは と の値が近い データ全体で見ると 回帰の精度は高い と の相関が高いならば 回帰の精度は高いと言える 04 回帰分析 34
決定係数 その1に向けて ▌式を整理する 当然これは0 𝑦𝑖 = の分散 = 平均値 + の分散 予測値と 平均値の差 + 予測とのズレ の分散 の分散 予測値と 平均値の差 + 予測とのズレ の分散 の分散 𝑣 𝑦𝑖 = 𝑣(𝑦) ത + 𝑣 𝑦ො𝑖 − 𝑦ത + 𝑣(𝑒𝑖 ) 𝑣 𝑦𝑖 = 𝑣 𝑦ො𝑖 − 𝑦ത + 𝑣(𝑒𝑖 ) 分散を分解するという考え方は 統計学全体でもかなり重要なこと 04 回帰分析 𝑛 𝑛 𝑛 𝑖=1 𝑖=1 𝑖=1 1 1 1 𝑦𝑖 − 𝑦ത 2 = 𝑦ො𝑖 − 𝑦ത 2 + 𝑦𝑖 − 𝑦ො𝑖 2 𝑛 𝑛 𝑛 35
(余談)なぜ「ばらつき(分散)」で考えるのか? ▌基本的に社会科学は「個体差」に関心をもちがち 個体差の無い世界 個体差のある世界 この世界では,全ての人間は18歳のときに この世界では,18歳のときの体重は 必ず体重が60kgになります。 人によります。 性別・食生活・親の遺伝など あらゆる要素に関係なく必 どんな要因が体重に関係しているのか? 04 回帰分析 36
(余談)なぜ「ばらつき(分散)」で考えるのか? ▌「個体差」の要因はさまざま 体重のばらつき かく分解すると 身長の違い 国籍の違い 性別の違い 「神の視点」があるならば 全ての要因が見えるのでしょう (例|シミュレーションゲーム) 親の体重の違い 食生活の違い 学校までの距離の違い 習い事の違い 04 回帰分析 好きな食べ物の違い 37
(余談)なぜ「ばらつき(分散)」で考えるのか? ▌シンプルに考えてみる 実際にはこんなにシンプルでは無いですが,イメージとして考えてみます Aさん 75kg 人間の平均 60kg 性別 男性 +10 170cm +9 身長 野菜が好き -5 好きな食べ物 日頃の運動 あまり運動しない +3 etc. 40 50 60 04 回帰分析 70 80 体重 38
(余談)なぜ「ばらつき(分散)」で考えるのか? ▌シンプルに考えてみる 実際にはこんなにシンプルでは無いですが,イメージとして考えてみます Bさん 50kg 人間の平均 60kg 性別 女性 -10 153cm -3 身長 好きな食べ物 肉が好き +10 日頃の運動 よく運動する -2 etc. 40 50 60 04 回帰分析 70 80 体重 39
(余談)なぜ「ばらつき(分散)」で考えるのか? ▌変数が多すぎるので身長だけ取り出してみる 人間の平均 60kg 身長 153cm -3 170cm +9 その他諸々 -7 etc. Bさん 40 個人の体重 = その他諸々 +6 50kg 平均値 + 60 70 Aさん 80 体重 75kg 身長で説明できる変動 04 回帰分析 + その他の要因による変動 40
(余談)なぜ「ばらつき(分散)」で考えるのか? ▌回帰直線に置き換えてみると 個人の体重 = 𝑦𝑖 = 平均値 + 身長で説明できる変動 + その他の要因による変動 𝛽0 + 𝛽1 𝑥𝑖 + 𝑒𝑖 (余談)なぜ「ばらつき(分散)」で考えるのか? 体重 𝑦 変数が多すぎるので身長だけ取り出してみる 75 人間の平均 6 69 身長 その他諸々 9 60 57 -3 さん (𝑦) ത -7 その他諸々 さん 50 平均値 153 169 身長 身長で説明できる変動 その他の要因による変動 回帰分析 𝑥 04 回帰分析 41 体重
説明変数の役割と「ばらつき」 ▌説明変数によって「よくわからないばらつき」が減っている 説明変数のない回帰分析 𝑦𝑖 − 𝑦ො𝑖 = 𝑒𝑖 𝑦𝑖 0 𝑦ො𝑖 = 𝛽0 𝑦𝑖 = 𝛽0 + 𝑒𝑖 𝑥𝑖 𝑥𝑖 04 回帰分析 42 ば ら つ き
説明変数の役割と「ばらつき」 ▌説明変数によって「よくわからないばらつき」が減っている 説明変数のある回帰分析 𝑦𝑖 𝑦ො𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 𝑦𝑖 − 𝑦ො𝑖 = 𝑒𝑖 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝑒𝑖 0 𝑥𝑖 𝑥𝑖 04 回帰分析 43 ば ら つ き
「大体」の予測値 + 予測とのズレ 決定係数 その1 0+ 1𝑥 この電球はなんでこの明るさに なるのか説明してみ? ワットだからですね 例|𝑥が「電球のワット」 が「明るさ」だと = 0 + 1 𝑥 と表記します = ワット数𝑥がわかれば明るさ + = あるいは もわかる! ▌説明変数によって被説明変数がどの程度決定するか の絶対値が小さい (ほぼ)100%決定している 統計の専門用語 みたいなもの 精度が高いということは その 電球の明るさはワット数によって 明るさ おなじこと あるいは 明るさ を その と のはワット数𝑥である の値が近い 𝑦ො の分散が大きいならば 回帰の精度は高いと言える 回帰の精度は高いと言える は知りたい変数= |従属変数|目的変数 データ全体で見ると データ全体で見ると の分散が小さいならば 回帰の精度は高いと言える 𝑖 𝑥は説明する変数= |独立変数|原因変数 と の相関が高いならば 回帰分析 予測値と 𝑦𝑖 = 平均値の差 + 予測とのズレ の分散 の分散 の分散 ワット 𝑥 回帰分析 𝑛 𝑛 𝑛 𝑖=1 𝑖=1 𝑖=1 1 1 1 𝑦𝑖 − 𝑦ത 2 = 𝑦ො𝑖 − 𝑦ത 2 + 𝑦𝑖 − 𝑦ො𝑖 2 𝑛 𝑛 𝑛 𝑣 𝑦𝑖 = 𝑣 𝑦ො𝑖 − 𝑦ത + 𝑣(𝑒𝑖 ) 𝑛 𝑁 2 2 σ σ 𝑦 ො − 𝑦 ത 𝑒 𝑖=1 𝑖 𝑖=1 𝑖 2 𝑟 = 𝑁 = 1 − 2 σ𝑖=1 𝑦𝑖 − 𝑦ത 2 σ𝑁 𝑦 − 𝑦 ത 𝑖=1 𝑖 04 回帰分析 44
決定係数 その2 あるいは その と の値が近い データ全体で見ると 𝑟 2 = 𝑟𝑦,2 𝑦ො と の相関が高いならば 回帰の精度は高いと言える 回帰分析 𝑦𝑖 二乗しているのは前ページの決定係数と 意味を揃えるためです 切片0, 傾き1の一次関数 𝑦ො𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 𝑥𝑖 𝑦𝑖 𝑦𝑖 = 𝑦ො𝑖 𝑦ො𝑖 04 回帰分析 45
決定係数と相関係数の関係性 最小二乗法の解 𝛽0 = 𝑦ത − 𝛽1 𝑥ҧ 1 𝑛 σ𝑖=1(𝑥𝑖 − 𝑥)(𝑦 ҧ 𝑖 − 𝑦) ത 𝐶𝑜𝑣𝑥,𝑦 𝑛 𝛽1 = = 1 𝑛 𝑣𝑥 σ𝑖=1 𝑥𝑖 − 𝑥ҧ 2 𝑛 ▌式変形してみると 𝑛 𝑛 2 2 σ σ 𝑦 ො − 𝑦 ത 𝛽 + 𝛽 𝑥 − 𝛽 + 𝛽 𝑥 ҧ 𝑖 0 1 𝑖 0 1 𝑖=1 𝑖=1 𝑟2 = 𝑁 = σ𝑖=1 𝑦𝑖 − 𝑦ത 2 𝑛 ⋅ 𝑣𝑦 𝑛 𝑛 𝑛 𝛽12 σ𝑛𝑖=1(𝑥𝑖 − 𝑥)ҧ 2 (𝛽1 𝑥𝑖 − 𝛽1 𝑥)ҧ 2 = 𝛽12 (𝑥𝑖 − 𝑥)ҧ 2 = 𝛽12 (𝑥𝑖 − 𝑥)ҧ 2 = 𝑖=1 𝑖=1 𝑖=1 𝑛 ⋅ 𝑣𝑦 2 σ𝑛 𝐶𝑜𝑣𝑥,𝑦 ҧ 2 𝑖=1(𝑥𝑖 − 𝑥) = 𝑛 ⋅ 𝑣𝑦 𝑣𝑥2 2 ⋅𝑛⋅𝑣 𝐶𝑜𝑣𝑥,𝑦 𝑥 = 𝑣𝑥2 ⋅ 𝑛 ⋅ 𝑣𝑦 = 2 𝐶𝑜𝑣𝑥,𝑦 𝑣𝑥 ⋅ 𝑣𝑦 = 𝐶𝑜𝑣𝑥,𝑦 𝑣𝑥 𝑣𝑦 2 2 = 𝑟𝑥,𝑦 04 回帰分析 2 𝑟 2 = 𝑟𝑦,2 𝑦ො = 𝑟𝑥,𝑦 46
「回帰」と「相関」の関係性 ▌ 相関の高さは回帰の精度=決定係数と同じこと 【相関が高いとき】 𝑦 𝑦 【相関が低いとき】 𝑥 𝑥 𝑥の値が一つ決まった時,相関が高い ほど𝑦の予測の幅は狭くなる 𝑥の値が一つ決まった時,相関が低い と𝑦の予測の幅は広くなる ※2つの図では,回帰直線の傾き(回帰係数)は変わっていない 04 回帰分析 47
「回帰」と「相関」の関係性 𝑠 𝑠𝑦 ▌ 相関係数 𝑟𝑥𝑦 と回帰直線の傾き 𝛽1 の間には 𝑟𝑥,𝑦 = 𝛽1 𝑥 の関係がある 𝑦 【 の標準偏差が小さいとき】 𝑦 【 の標準偏差が大きいとき】 𝑥 𝑥 回帰直線の傾きが変わらない場合でも 変数𝑦の標準偏差が大きいほど 相関係数は小さくなっている 04 回帰分析 48
「回帰」と「相関」の違い ▌ 𝑥と𝑦を入れ替えると,相関は変わらないが,回帰は変わる そのため,回帰を行う場合には散布図の 𝑥 と 𝑦 はどちらかに決まることが多いのです 回帰の目的は「変数 𝑥 によって変数 𝑦 の値を予測すること」 身長 体重 縦横 入れ替え 身長 体重 ※2つの図では,回帰直線の傾きは変わるが,相関係数=予測の精度は変わらない 04 回帰分析 49
𝑥と を入れ替えると,相関は変わらないが,回帰は変わる 【注意】回帰分析は「因果関係」ではない ▌本 そのため,回帰を行う場合には散布図の 𝑥 と はどちらかに決まることが多いのです 回帰の目的は 「変数 𝑥 によって変数 の値を予測すること」 的には散布図に線を引いているだけ 縦横 入れ替え 「データに一番合う線を探します」 xとyを入れ替えると直線は変わる 2つの図では,回帰直線の傾きは変わるが,相関係数=予測の精度は変わらない 回帰係数を比べても「x→yよりもy→xの方が良い」的なことは言えない 回帰分析 ▌予測は因果とは無関係にやって良い 回帰直線による予測はあくまでも「手元の変数をフル活用して予測する」 資料03 p. 31 例|食事量と体重の因果関係 平均摂取カロリーで体重を予測する たくさんたべる ふとる 「太る」という結果より前に 「食べる」という原因が必 ある 体重から「どれだけ食べられるか」を予測する 04 回帰分析 50
もう少し複雑な回帰分析 ▌説明変数は多いほうが良いかもね p. 36 人間の平均 60kg より 170cm +9 153cm -3 身長 性別 女性 -10 etc. その他諸々 +3 40 男性 +10 Bさん その他諸々 -4 60 70 50kg + 体重 75kg 身長で説明できる変動 個人の体重 = 平均値 + 80 Aさん + その他の要因による変動 性別で説明できる変動 04 回帰分析 51
重回帰分析 p. 32 ▌説明変数が2個以上ある回帰分析 説明変数が1個の回帰分析を単回帰分析と呼ぶこともあります 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥1𝑖 + 𝛽2 𝑥2𝑖 + ⋯ + 𝑒𝑖 𝑦𝑖 = 「大体」の予測値 + 予測とのズレ わいはっと 𝑦𝑖 = 𝑦ො𝑖 + 𝑒𝑖 𝑦ො𝑖 = 𝛽0 + 𝛽1 𝑥1𝑖 + 𝛽2 𝑥2𝑖 + ⋯と表記 𝑛 p. 20 𝑛 ▌目的 𝑒𝑖2 = 𝑦𝑖 − 𝛽0 + 𝛽1 𝑥1𝑖 + 𝛽2 𝑥2𝑖 + ⋯ 最小二乗法 𝑖=1 ො𝑖 あるいは 𝑒𝑖 = 𝑦𝑖 − 𝑦 2 を最小にする(𝛽0 , 𝛽1 , 𝛽2 , ⋯ )の組を見つけ出す 𝑖=1 ▲ (𝛽0 , 𝛽1 , 𝛽2 , ⋯ )のいずれについても二次関数 (𝛽0 , 𝛽1 , 𝛽2 , ⋯ )のそれぞれについて偏微分した式がゼロになるところを探す (説明変数の数)+1個の未知数に対して(説明変数の数)+1個の方程式が立つ 04 回帰分析 52
重回帰分析のイメージ わかりにくいと思いますが… 一応平面より上の点を青,平面より下の点を赤で表しています ▌2変数なら3D散布図で表せる (重)回帰平面を求めている 𝑥1 , 𝑥2 が大きいほど 𝑦 も大きい 回帰係数はどちらも正の値 ▌最小二乗法 𝑦 座標方向でのズレを評価 04 回帰分析 53
「個体差」の要因はさまざま 説明変数を増やすということ p. 33 体重のばらつき 身長の違い 国籍の違い 性別の違い ▌単回帰のとき 個人の体重 = 親の体重の違い 食生活の違い 学校までの距離の違い 習い事の違い 平均値 + 身長で説明できる変動 + 「神の視点」があるならば 全ての要因が見えるのでしょう (例|シミュレーションゲーム) かく分解すると 好きな食べ物の違い 回帰分析 その他の要因による変動 身長以外の全ての要因による変動が「その他」として扱われている 国籍による変動 親の体重による変動 性別による変動 さらにその他の要因による変動 ▌重回帰のとき(性別を追加) 身長で説明できる変動 個人の体重 = 平均値 + + + その他の要因による変動 性別で説明できる変動 国籍による変動 親の体重による変動 性別による変動 04 回帰分析 さらにその他の要因による変動 54
重回帰分析の決定係数 ▌単回帰分析のときと同じ 2 さすがに𝑟 2 = 𝑟𝑥,𝑦 にはなりません 𝑛 𝑁 2 2 σ σ 𝑦 ො − 𝑦 ത 𝑒 𝑖=1 𝑖 𝑖=1 𝑖 2 𝑟2 = 𝑁 = 1 − = 𝑟 𝑦,𝑦ො 2 σ𝑖=1 𝑦𝑖 − 𝑦ത 2 σ𝑁 𝑦 − 𝑦 ത 𝑖=1 𝑖 𝑟𝑦,𝑦ො のことを重相関係数と呼びます 𝑦𝑖 の分散 = 説明変数で説明できる変動 + 説明変数で説明できない変動 説明変数を増やすと 必 決定係数は大きくなる ってことは,説明変数は手当たり次第に 入れた方が良いんですね!? 04 回帰分析 55
手当たり次第に入れてみる ▌決定係数は 対に大きくなる 例|以下のデータで回帰分析 ふつうにやると 𝑦ො𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 𝑟 2 = 0.64 どうやら直線的な相関関係 04 回帰分析 56
手当たり次第に入れてみる ▌決定係数は 対に大きくなる 𝑥 2 が常に無意味ということではない 場合によっては入れたほうが良いこともある 例:U字の相関の場合は二乗は入れるべき 病気率 無意味な変数として 𝑥 2 を加えると 体重 例|以下のデータで回帰分析 無意味な変数として 𝑥 2 を加える 𝑦ො𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝛽2 𝑥𝑖2 𝑟 2 = 0.66 ※二次元プロットで表現できるように累乗を使用していきます 04 回帰分析 57
手当たり次第に入れてみる ▌決定係数は 対に大きくなるが 同じように無意味な変数として 𝑥 3 , 𝑥 4 を入れていくと 𝑦ො𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝛽2 𝑥𝑖2 𝑦ො𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 𝑥2 𝑟 2 = 0.64 𝑦ො𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝛽2 𝑥𝑖2 + 𝛽3 𝑥𝑖3 + 𝛽4 𝑥𝑖4 𝑦ො𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝛽2 𝑥𝑖2 + 𝛽3 𝑥𝑖3 𝑥3 𝑟 2 = 0.66 𝑥4 無意味な変数でも 決定係数はどんどん増える 𝑟 2 = 0.68 𝑟2 = 1 04 回帰分析 58
完璧なフィットだ… ▌データへの当てはまりは完璧だが 問 𝑥𝑖 = 11 の人の 𝑦 の値を予測してください 𝑦ො𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝛽2 𝑥𝑖2 + 𝛽3 𝑥𝑖3 + 𝛽4 𝑥𝑖4 𝑦ො𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 yの表示範囲を変えました 𝑟 2 = 0.64 𝑟2 = 1 これが外挿の難しいところ でもあるわけです 対こっちのほうが妥当な予測な気がする 04 回帰分析 59
無意味な説明変数の脅威 ▌無意味な説明変数を入れると 「手元のデータ」への当てはまりは良くなる一方で 「未知のデータ」への当てはまりは悪くなってしまう (over-fitting) 身長で説明できる変動 個人の体重 = 平均値 + オッカムの剃刀(オッカムのかみそり, 英: Occam‘s razor,Oc ham’s razor)とは, 「ある事柄を説明するためには,必要以上に 多くを仮定するべきでない」とする指針。14 世紀の哲学者・神学者のオッカムが多用し たことで有名になった。 (Wikipedia) + 財布の中の1円玉の数 で説明できる変動 + その他の要因による変動 個人の体重の変動を説明する力は無いが 決定係数は絶対に(わずかながら)増えてしまう 追加しても決定係数がほぼ増えないような 説明変数は入れないようにしよう 04 回帰分析 60
回帰分析と連立方程式 ▌データが2つの場合 p. 7 回帰とはなんぞや 【問】すべてのデータを通る直線を引きなさい データが1つの場合 データが2つの場合 体重 データが3つの場合 体重 データが1つの場合 解が決まらない 体重 データが多い分には 解は一つに決まる (最小二乗法で) 一次関数 = 0 + 身長 1𝑥 身長 𝑥 この線を すべての点を通る線は引けないので すべてのデータに対して 身長 𝑥 と呼ぶ 回帰分析 𝑦1 = 𝛽0 + 𝛽1 𝑥1 ቊ 𝑦2 = 𝛽0 + 𝛽1 𝑥2 求めるパラメータ2つ(𝛽0 , 𝛽1 )に対して式も2つ これ以上説明変数は増やせない 04 回帰分析 61
回帰分析と連立方程式 ▌データが3つの場合 𝑦1 = 𝛽0 + 𝛽1 𝑥11 + 𝛽2 𝑥21 ቐ𝑦2 = 𝛽0 + 𝛽1 𝑥21 + 𝛽2 𝑥22 𝑦3 = 𝛽0 + 𝛽1 𝑥31 + 𝛽2 𝑥32 求めるパラメータ3つ(𝛽0 , 𝛽1 , 𝛽2 )で式も3つ 説明変数は2個までしか使えない ▌データが 𝑛 個の場合 式は 𝑛 個おける 説明変数は 𝑛 − 1 個までしか使えない:パラメータは 𝛽0 , 𝛽1 ~𝛽𝑛−1 𝑦ො𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝛽2 𝑥𝑖2 + 𝛽3 𝑥𝑖3 + 𝛽4 𝑥𝑖4 データが5個なので説明変数が4個で完全にフィット 04 回帰分析 62
自由度調整(修正)済み決定係数 説明変数を増やすと 小さくなる項 ▌「説明変数の数の割に」決定係数が高いかを判断する 2 σ𝑁 𝑖=1 𝑒𝑖 2 𝑟 =1− 𝑁 σ𝑖=1 𝑦𝑖 − 𝑦ത 2 決定係数 𝑁 2 σ 𝑛 − 1 𝑒 𝑖=1 𝑖 2 𝑟𝑎𝑑𝑗 =1− 𝑁 2 σ 𝑛 − 𝑘 − 1 𝑦 − 𝑦 ത 𝑖 𝑖=1 調整した 決定係数 • 「自由度」の意味 • -1の意味 は今は無視してください 0 説明変数を増やすと 大きくなる項 𝑟2 𝑦𝑖 の全変動 説明変数で説明できる変動の割合 データの数 𝑛 説明変数の数 𝑘 1 説明変数で説明できない変動の割合 𝑛−1 倍 𝑛−𝑘−1 0 2 𝑟𝑎𝑑𝑗 04 回帰分析 1 63
重回帰分析の回帰係数 ▌重回帰分析の回帰係数(傾き)を考える 身長で説明できる変動 個人の体重 = 平均値 + + + その他の要因による変動 性別で説明できる変動 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥1𝑖 + 𝛽2 𝑥2𝑖 + 𝑒𝑖 説明変数 𝑥1 , 𝑥2 が1大きくなったときに 予測値 𝑦ො𝑖 がどれだけ大きくなるか 実際には,もう少し厄介な話があるのです… 04 回帰分析 64
説明変数間の相関関係 ▌説明変数間には相関があることが多い 身長で説明できる変動 個人の体重 = 平均値 + + + その他の要因による変動 性別で説明できる変動 体重の変動の一部は 身長からでも体重からでも 説明がつく 身長と性別には相関がある • • 男性のほうが身長高め 女性のほうが身長低め 身長でも性別でも説明できる変動 体重の変動 = 身長でのみ説明できる変動 + その他の要因による変動 性別でのみ説明できる変動 04 回帰分析 65
イメージ 身長でも性別でも説明できる変動 体重の変動 = その他の要因による変動 + 身長でのみ説明できる変動 性別でのみ説明できる変動 𝑦𝑖 の全変動 【説明変数】 身長と性別 身長でのみ 𝛽1 𝑥1𝑖 身長のみ 性別のみ 性別でのみ 身長でも性別でも 説明できる変動 𝛽2 𝑥2𝑖 身長があれば説明できる変動 その他の要因 その他の要因 𝑒𝑖 その他の要因 性別があれば説明できる変動 04 回帰分析 その他の要因 66
改めて重回帰式を見ると 𝑥1 でも𝑥2 でも説明できる変動 𝑦ො𝑖 の変動 = 𝑥1 でのみ説明できる変動 + その他の要因による変動 𝑥2 でのみ説明できる変動 説明変数 𝑥1 が1大きくなり, 同時に𝑥2 は変わらないときに 予測値 𝑦ො𝑖 がどれだけ大きくなるか 他の説明変数の影響を全無視した特定の説明変数の影響の 大きさを表すため,重回帰分析ではとくに 偏回帰係数 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥1𝑖 + 𝛽2 𝑥2𝑖 + 𝑒𝑖 説明変数 𝑥2 が1大きくなり, 同時に𝑥1 は変わらないときに 予測値 𝑦ො𝑖 がどれだけ大きくなるか 04 回帰分析 と呼ぶことがあります(普通に回帰係数でも伝わる)。 ※英語ではpartialという語に対応しています。「その説明変数のもつ影響 力のうち,他の説明変数とは無関係な部分だけの回帰係数」という意味 で partialな回帰係数なわけです。 なぜ「偏」という字をあてたかはわかりません。 67
偏回帰係数をプロットで見る ▌身長だけで体重を予測する単回帰式 150cmと170cmを比べると 150cmでは女性が,170cmでは男性が多い 青い点:男性 赤い点:女性 イメージ ▌回帰係数は何を表しているか 身長でも性別でも説明できる変動 身長だけでなく性別の影響を受けた値 体重の変動 その他の要因による変動 身長でのみ説明できる変動 性別でのみ説明できる変動 の全変動 p. 66 【説明変数】 身長と性別 身長でのみ 1 𝑥1 身長のみ 性別のみ 性別でのみ 身長でも性別でも 説明できる変動 身長があれば説明できる変動 その他の要因 その他の要因 2 𝑥2 ※図はイメージです。 • 男性の方が身長大きめ • 同じ身長ならば男性の方が体重大きめ という想定で仮想データを作りました。 その他の要因 性別があれば説明できる変動 その他の要因 04 回帰分析 68
偏回帰係数をプロットで見る 連続変数の場合イメージしにくいかもしれませんが, 同じ要領で「他の変数の値を固定したら」と考えています。 ▌身長と性別で体重を予測する単回帰式 イメージ的には性別ごとにそれぞれ回帰 各回帰直線は 「男性ではxが1増えるとyがどれだけ増えるか」 「女性ではxが1増えるとyがどれだけ増えるか」 イメージ 青い点:男性 赤い点:女性 身長でも性別でも説明できる変動 その他の要因による変動 体重の変動 身長でのみ説明できる変動 ▌偏回帰係数の値は ちなみにこの図は 性別でのみ説明できる変動 右の図の2つの回帰直線の(重み付け)平均 の全変動 p. 66 【説明変数】 身長と性別 身長でのみ 1 𝑥1 身長のみ 性別のみ 性別でのみ 身長でも性別でも 説明できる変動 身長があれば説明できる変動 その他の要因 その他の要因 2 𝑥2 その他の要因 性別があれば説明できる変動 その他の要因 04 回帰分析 • 男性での身長の回帰係数はおよそ0.7 • 女性での身長の回帰係数はおよそ0.5 になるように作成しており, • 単回帰(前ページ)での回帰係数は1.3 • 重回帰での回帰係数はおよそ0.6 となります。 69
偏回帰係数を3Dプロットから見る 𝑥2 = 80 p. 49 𝑥2 = 100 𝑥2 = 120 見る方向を変えると 𝑥1 の偏回帰係数 𝛽1 は赤い線の傾き (平面なのでどこでも同じ傾き) 04 回帰分析 70
標準化回帰係数 ▌回帰係数は変数のスケールの影響を受ける 回帰係数の意味 0 + 1𝑥 1 1 (傾き) 𝑥の値が 大きくなると の予測値(平均的な傾向)は どれだけ大きくなるか 身長の単位を cmからmm (10倍)にすると 「身長が1mm大きくなるごとに体 重の予測値が0.07kg大きくなる」 ▼ 回帰係数は1/10になる 体重 右の回帰直線が = 0.7𝑥 50 だとすると 身長(𝑥)が cm大きくなるごとに 体重の予測値が 大きくなる cmの人と cmの人では平均で の差がある,と考えることができる 身長 回帰分析 04 回帰分析 71
標準化回帰係数 ▌ということは,複数の説明変数の比較はできない? スケールで変化するなら「 𝑥1 より 𝑥2 のほうが𝑦ො𝑖 の値を大きく動かす」とか言えない? ▌でも実際にはそういうこと言いたいときもある 例|身長をのばすには,牛乳をたくさん飲むよりもよく寝たほうが良い 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥1𝑖 + 𝛽2 𝑥2𝑖 + 𝑒𝑖 身長 睡眠時間 𝛽1 > 𝛽2 ならば言えそう! 飲んだ牛乳の量 ▌こういうときは単位を揃えないと 説明変数を標準化してあげたら良いのでは? 例|身長をのばすには,牛乳を1標準偏差多く飲むよりも,1標準偏差多く寝たほうがが良い 04 回帰分析 72
標準化偏回帰係数 ▌説明変数を全て標準化したときに得られる回帰係数 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥1𝑖 + 𝛽2 𝑥2𝑖 + 𝑒𝑖 𝑦𝑖 = 𝛽෨0 + 𝛽෨1 𝑧1𝑖 + 𝛽෨2 𝑧2𝑖 + 𝑒𝑖 標準化 ▌解釈は標準化得点に基 く 説明変数 𝑥1 の値が1標準偏差大きくなったとき 𝑦ො𝑖 はどれだけ変動するか ▌𝑦𝑖 を標準化するかは場合による 標準化しない場合:「𝑦ො𝑖 はどれだけ変動するか」(絶対的な値) 標準化する場合:「𝑦ො𝑖 は標準偏差いくつ分変動するか」(相対的な値) ▌比較に意味があるかは場合による 「牛乳を1標準偏差多く飲む」と「 1標準偏差多く寝る」は同じコストなのか? 04 回帰分析 73