9.4K Views
January 16, 24
スライド概要
神戸大学経営学部で2022年度より開講している「経営統計」の講義資料「12_回帰分析の統計的推測」です。
神戸大学経営学研究科准教授 分寺杏介(ぶんじ・きょうすけ)です。 主に心理学的な測定・教育測定に関する研究を行っています。 講義資料や学会発表のスライドを公開していきます。 ※スライドに誤りを見つけた方は,炎上させずにこっそりお伝えいただけると幸いです。
経営統計 12 回帰分析の統計的推測 分寺 杏介 神戸大学 経営学部 [email protected] ※本スライドは,クリエイティブ・コモンズ 表示-非営利 4.0 国際 ライセンス(CC BY-NC 4.0)に従って利用が可能です。
前回までにやってきたこと statistical inference ▌統計的推測 母集団分布が○○の場合 標本分布は△△になる 母集団分布 私達が実際に 分かる範囲 標本分布 標本分布△△を生み出す母集団分布は ○○と考えるのが妥当だろう! 標本統計量 この標本統計量を生み落とした 標本分布は△△が最もしっくり来る (点・区間)推定 統計的仮説検定 12 回帰分析の統計的推測 2
重要な仮定がありました ▌現実世界の現象を可能な範囲で簡略化して考える 現実世界 母集団分布が○○の場合 標本分布は△△になる あなたの値は 私達が実際に 分かる範囲 ****** です 母集団分布 標本分布 標本分布△△を生み出す母集団分布は ○○と考えるのが妥当だろう! (神の視点があれば)わかるが 人類には解明しきれない複雑怪奇なメカニズム 標本統計量 この標本統計量を生み落とした 標本分布は△△が最もしっくり来る (点・区間)推定 統計的仮説検定 12 回帰分析の統計的推測 3
簡略化の例 「バスケのフリースロー成功率」でも「野球の打率」でも「将棋の勝率」でも「3年離職率」でも「テレビの視聴率」でもなんでもいいけど ▌あるサッカー選手のPK成功率は本来… 心理戦によって変わる 前回は右に蹴ったから 今回は左に蹴るか? 裏をかいてまた同じ方向? 思い切って真ん中? ︙ 体調によって変わる 運動量によって変わる 現実世界 風によって変わる 様々な条件によって変わる 芝の状態によって変わる なんなら毎回変わる キーパーによって変わる 12 回帰分析の統計的推測 4
簡略化の例 ▌あるサッカー選手のPK成功率を推定する場合 心理戦によって変わる 現実世界 母集団分布 前回は右に蹴ったから 複雑な現象を簡略化して 今回は左に蹴るか? •裏をかいてまた同じ方向? 各試行は独立している(前回までの結果は関係ない) • 各試行の成功確率は同じ 思い切って真ん中? 風によって変わる • 成功率を説明するすべての変数はランダムな要素とみなす ︙ …と仮定すると 体調によって変わる 運動量によって変わる 芝の状態によって変わる キーパー によって変わる 点推定値は単純に過去の成功確率でOK 12 回帰分析の統計的推測 過去 𝑛 回蹴ったことがある人が そのうち何回成功するか,の確率分布 過去の成功回数によって 成功率を推定できる 5
統計的推測では ▌変数の実現値を確率的なもの(確率変数)とみなす ▌その確率変数の挙動について特定の確率分布をおく 私達が実際に 分かる範囲 現実世界 母集団分布 あなたの値は 実現値 (𝑛 回中 𝑘 回成功) 現実世界のメカニズムは一旦おいといて (確率的な)くじと同じレベルに単純化する ****** です 12 回帰分析の統計的推測 資料06 pp. 10-12 6
統計モデリング ▌現実世界を簡略化して確率的な事象として考えるアプローチ 統計モデリングがないとき PKのチャンス。 誰が蹴ったらいい? 現実世界 そんなの時と場合によるからわからないよ… 挙手制じゃい! 複雑すぎて結局何もわからない状態 統計モデリングがあるとき 統計モデル 成功確率が最も高い人を選びたい 二項分布を仮定して過去のデータを 分析した結果… ○○選手がいいのではないでしょうか 単純に過去の成功確率が一番高い人 12 回帰分析の統計的推測 7
。 らいい? そんなの時と場合によるからわからないよ 統計的推測(モデリング)のポイント 挙手制じゃい! 複雑すぎて結局何もわからない状態 ▌仮定が現実世界になるべく近いこと 表的な 二項分布を仮定して過去のデータを 分析した結果 選手がいいのではないでしょうか 数のポイント 高い人を選びたい 単純に過去の成功確率が一番高い人 確率分布の 回帰分析の統計的推測 には「メカニズムの仮定」がある 二項分布の場合 この推測が最も正しいのは られる が で用いられる とんどの確率分布は 特定のメカニズムを仮定しています 類 母集団分布の仮定(二項分布)が正しいとき ンの 裏 じの た の成功 な 事象が出現する確率が 資料07 p. 9 ある は の で変わらない し がそれ な で成功確率が変わるが そ いった変 は いとみなす の 一番 じの場合 た 確率は に影響しない 回(わ かでも)変 は する PKであれば,本当は様々な要因が成功確率に影響しているはずだが…… や略 は人に って し なるので要 二項分布の場合 の わ に を 人 12 回帰分析の統計的推測 と 人な がいる 8
他の変数が使えたら… ▌もっと正確な予測ができる気がする PKのチャンス。 誰が蹴ったらいい? ( 資料04 p. 34 )な 「ばらつき(分 )」で考えるのか? ンプルに考えてみる 実際にはこんなに ンプルでは いですが,イメー として考えてみます ん 人 きな の べ 野 が き の運動 あまり運動しない こ までの各選 の運 量 人工芝グラウンド キーパーが△△選 …といった種々の条件を考えると… 回帰分析 ○○選 はこのキーパーとは 性が悪い な 複数の変数が絡み合ったりもするはずです (成功率) ∼ 12 回帰分析の統計的推測 説明変数に る 予測値の変動 「大体」の予測値 予測とのズレ 9
回帰分析も現実世界を簡略化している ( )な 「ばらつき(分 変数が す るので だけ 人 ▌ある変数の値は様々な要因で決定するが… その他 資料04 p. 36 )」で考えるのか? り出してみる の 々 その他 々 ん ( )な 「 「ばらつき(分 体 資料04 p. 33 )」で考えるのか? 」の要因は ま ま 値 体重の か 分 の の い までの い事の の体重の 生 離の の その他の要因に る変動 変動 「神の視点」があるならば ての要因が えるのでしょう (例 レー ン ーム) すると の い い で説明できる変動 回帰分析 体重のばらつき 国 ん その他の要因 い い い い 回帰分析 現実世界 きな べ の に って 説明できる変動 い 𝑦𝑖 𝑦𝑖 𝛽0 𝛽1 𝑥𝑖 「大体」の予測値 𝑒𝑖 予測とのズレ 単回帰モデル 12 回帰分析の統計的推測 10
回帰分析の統計的推測のために ▌確率的な振る舞いについていくつかの仮定をおく 𝑦𝑖 𝑦𝑖 1 𝛽0 𝛽1 𝑥𝑖 𝑦ො𝑖 𝛽0 𝛽1 𝑥𝑖 ▶ 𝑥𝑖 が決ま ば𝑦ො𝑖 も決まる 𝑦𝑖 ∼ 𝑁 𝜇 𝜎 2 予測とのズレ 2 予測値は確率的に変動せず 説明変数の値のみで決まる 員が同じ正規分布に従うと仮定していた 𝑒𝑖 「大体」の予測値 【比較】正規母集団の推測の場合 誤 が 0の正規分布に従う 𝑒𝑖 ∼ 𝑁 設定 𝜎𝑒2 168.2 cm 人(𝑥𝑖 )ごとに なる分布から値が発生する 𝑦𝑖 𝑦ො𝑖 𝑒𝑖 𝑦𝑖 ∼ 𝑁 𝛽0 あなたの体重は 𝛽1 𝑥𝑖 𝜎𝑒2 *** kg です 12 回帰分析の統計的推測 11
回帰分析の統計的推測のために ▌もう し仮定をおく 𝑦𝑖 ∼ 𝑁 𝛽0 𝛽1 𝑥𝑖 𝜎𝑒2 3 誤 分 は 員同じ 12 回帰分析の統計的推測 12
回帰分析の統計的推測のために ▌もう し仮定をおく 𝑦𝑖 ∼ 𝑁 𝛽0 𝛽1 𝑥𝑖 𝜎𝑒2 い例 3 誤 分 は 員同じ 悪い例 𝑥𝑖 の値によってばらつきが異なる 𝑥𝑖 の値によら ばらつきが一定 12 回帰分析の統計的推測 13
回帰分析の統計的推測のために 5 ▌ らに仮定をおく 𝑦𝑖 ∼ 𝑁 𝛽0 4 い例 𝑥𝑖 の値と誤差は 𝐸 𝑦𝑖 𝑦𝑗 𝛽1 𝑥𝑖 𝜎𝑒2 説明変数と誤 データどうしも は 相 相 𝐸 𝑒𝑖 𝑒𝑗 𝐸 𝑥𝑖 𝑒𝑖 悪い例 𝑥𝑖 と誤差に関係があ そ 関 12 回帰分析の統計的推測 14
回帰分析の母集団分布と標本分布 母集団の分布を なにか仮定する 標本で 回帰係数を計算する 母集団分布 population distribution ︙ 𝑁 𝛽0 𝛽መ1 0.2 0.75 -0.15 0.91 ︙ ︙ ︙ ︙ ︙ ︙ 0.27 0.69 0.08 𝑦𝑖 𝛽መ0 𝛽1 𝑥𝑖 𝜎𝑒2 限の母集団から 限回サンプリングすると考える 𝛽መ0 標 0.73 𝛽መ1 𝑥𝑖 𝑒𝑖 ごとに異なる回帰直線が引ける 4 回帰係数の 分布を作れる 𝛽መ1 率 1 3 出現しうる標本の パターンが分かる を 数に置き換えた バー ン 𝛽መ0 率 2 資料05 p. 27 標本分布 sampling distribution 12 回帰分析の統計的推測 15
母集団分布の図を拡大すると 斜めになったかまぼこのよ な形 率 𝑥 方向に切ると 平均値の異なる正規分布 𝑁 𝛽0 𝛽1 𝑥𝑖 𝜎𝑒2 12 回帰分析の統計的推測 16
単回帰分析における推定 ,最小二乗法に る推定量の話です ▌回帰係数の標本分布の具体的な形 率 𝛽መ0 率 𝛽መ1 𝜎𝑒2 𝛽መ1 ∼ 𝑁 𝛽1 𝑛𝜎𝑥2 ポイント • 正規分布である • 𝐸 𝛽መ1 𝛽1 なので不偏推定量 𝛽መ0 ∼ 𝑁 𝛽0 𝜎𝑒2 ポイント • 一致 も有効 もある • 標準誤差が実際のデータによって変わる 12 回帰分析の統計的推測 𝑛 𝑥ҧ 2 𝑛𝜎𝑥2 • 正規分布である • 𝐸 𝛽መ0 𝛽0 なので不偏推定量 • 一致 も有効 もある • 標準誤差が実際のデータによって変わる 17
回帰係数の標準誤 について 𝛽መ1 率 𝜎𝑒2 መ1 ∼ 𝑁 𝛽1 𝛽 መ ▌傾き𝛽1 の標本分布 𝑛𝜎𝑥2 𝜎𝑒2 が大きいほ 標準誤差は大き なる 切片𝛽መ0 の標本分布でも同じことがいえます 𝜎𝑒2 が大きい場合 確率 𝜎𝑒2 が小 い場合 pp. 16-17の図を真上から見たもの 抽出 る標 のばらつきが大きい 回帰直線も標本ごとに変動しやすい 確率 抽出 る標 のばらつきが小 い 回帰直線はどの標本でも似てくるはず 12 回帰分析の統計的推測 18
回帰係数の標準誤 について 𝛽መ1 率 𝜎𝑒2 መ1 ∼ 𝑁 𝛽1 𝛽 መ ▌傾き𝛽1 の標本分布 𝑛𝜎𝑥2 𝜎𝑥2 が小 いほ 標準誤差は大き なる 切片𝛽መ0 の標本分布でも同じことがいえます 𝜎𝑥2 が小 い場合 𝜎𝑥2 が大きい場合 𝑥𝑖 の値がみんなほぼ同じ いろいろな傾きの回帰直線が「ありえそう」 𝑥𝑖 の値はいろいろ 比較的安定した回帰直線になりそう 12 回帰分析の統計的推測 19
について መ0 ∼ 𝑁 𝛽0 𝜎𝑒2 𝛽 መ ▌切片𝛽0 の標本分布 𝑛 𝛽መ0 𝑥ҧ 2 𝑛𝜎𝑥2 率 回帰係数の標準誤 𝑥ҧ 2 が大きいほ 標準誤差は大き なる 𝑥ҧ 2 が大きい場合 𝑥𝑖 付近の情報が少ない 切片はばらつきそう 𝑥ҧ 2 が小 い場合 𝑥𝑖 12 回帰分析の統計的推測 付近の情報が多 なる 切片の推定値は安定しそう 20
回帰係数の区 推定(傾き𝛽መ1 ) 切片𝛽መ0 の推定でも標準誤 が なるだけです 【問】20人サンプリングしたら回帰係数𝛽መ1 .2,説明変数𝑥の分 𝑠𝑥2 このとき,回帰係数𝛽1 の95%信頼区 を求めてくだ い。 1 「標本 32 でした。 が正しい」と仮定して標本分布を作る 標 分布は 𝛽መ1 ∼ 𝑁 𝛽1 2 82 ,残 𝑒の分 𝑠𝑒2 𝜎𝑒2 𝑛𝜎𝑥2 なので 今回は𝑁 .2 𝜎𝑒2 20𝜎𝑥2 𝜎𝑥2 はデータから計算した𝑠𝑥2 でOK となる。 標準化したい 𝜎𝑒2 がわかっているならば 𝜎𝑒2 𝛽መ1 ∼ 𝑁 𝛽1 𝑛𝜎𝑥2 𝛽መ1 − 𝛽1 標準化 ∼𝑁 𝜎𝑒2 𝑛𝜎𝑥2 𝜎𝑒2 がわからないのでデータから推定する 𝑛 𝑠𝑒2 𝑒𝑖 の標本分 𝑛 𝑦𝑖 − 𝛽መ0 − 𝛽መ1 𝑥𝑖 𝑖=1 ※不偏性がない 2 𝜎ො𝑒2 𝑛 𝑠𝑒2 𝑛−2 不偏推定量 にする 𝑒𝑖 の不偏分 12 回帰分析の統計的推測 1変数の分 の場合は 自由 が 𝑛 − ( 値だけ制約あり)でしたが 今回は𝛽መ𝟎 𝛽መ1 の2つの制約があるため 自由 は 𝑛 − 2 になっています 21
回帰係数の区 推定(傾き𝛽መ1 ) 【問】20人サンプリングしたら回帰係数𝛽መ1 .2,説明変数𝑥の分 𝑠𝑥2 このとき,回帰係数𝛽1 の95%信頼区 を求めてくだ い。 𝛽1 ∼ 𝑁 .2 𝜎𝑒2 𝑛𝜎𝑥2 標準化後 𝛽1 −0.2 いま求めたいのは 𝑃 .2 ≤ 𝛽1 ≤ 𝛽𝑈 ▶ 式を標準化すると .2 − .2 𝑃 𝜎ො𝑒2 /𝑛𝜎𝑥2 𝑃 ≤ ≤𝑡≤ で標準化 𝑛 𝑠𝑒2 𝑛−2 𝜎ො𝑒2 𝑡 が自由 ෝ𝑒2 /𝑛𝜎𝑥2 𝜎 𝑡 𝑛−2 𝑒𝑖 の不偏分 を標準化する ▶ 標準化した値 𝑁 32 でした。 .475 になる 𝛽𝑈 の値 𝛽1 − .2 𝜎ො𝑒2 /𝑛𝜎𝑥2 𝛽𝑈 − .2 𝜎ො𝑒2 /𝑛𝜎𝑥2 𝑛 − 2 の 𝑡 分布に従う 確率 3 標準化する 82 ,残 𝑒の分 𝑠𝑒2 ≤ 𝛽𝑈 − .2 𝜎ො𝑒2 /𝑛𝜎𝑥2 .475 12 回帰分析の統計的推測 22
回帰係数の区 推定(傾き𝛽መ1 ) 【問】20人サンプリングしたら回帰係数𝛽መ1 .2,説明変数𝑥の分 𝑠𝑥2 このとき,回帰係数𝛽1 の95%信頼区 を求めてくだ い。 4 𝑡 分布表から値を探す ≤𝑡≤ 𝑡 分布 ▶ を 𝛽𝑈 −0.2 ෝ𝑒2 /𝑛𝜎𝑥2 𝜎 𝛽𝑈 −0.2 標準化後 𝑁 32 でした。 𝑡 8 .475 となるのは 𝛽𝑈 がい つのときか? ෝ𝑒2 /𝑛𝜎𝑥2 𝜎 えば 𝑃 .475 だとわかる ≤ 𝑡 ≤ 2. 2. 𝜎ො𝑒2 𝑛𝜎𝑥2 式変形すると 𝛽𝑈 2 × 82 標本の値 .2 確率 𝑃 82 ,残 𝑒の分 𝑠𝑒2 ≃ . 884 標準誤差 × 𝜎ො𝑒2 /𝑛𝜎𝑥2 2. ※𝑡 分布は左右対称なので 下限も同様に𝛽𝐿 .2 − 2. × 𝜎ො𝑒2 /𝑛𝜎𝑥2 と求めら 標本分布と標準誤差が違うだけで,やっていることの本筋は 正規分布の母平均の区間推定のときと同じです 12 回帰分析の統計的推測 る 【答】 お そ0.014から0.386 23
回帰分析における統計的仮説検定 心があるのは回帰係数の有 ▌ 𝑦𝑖 𝛽0 𝛽1 𝑥𝑖 ▶ もしも 𝛽1 𝛽1 1 【問】20人サンプリングしたら回帰係数𝛽መ1 .2, 説明変数𝑥の分 𝑠𝑥2 82 ,残 𝑒の分 𝑠𝑒2 32 でした。 切片 𝛽0 についても同様の 順で検定可能ですが 切片の検定に関心があることは少ないと思います。 𝑒𝑖 ならば説明変数 𝑥𝑖 はあってもな ても い であるかどうかを検定したい 資料11 仮説を設定する と同じ流れで 【実際に検証したいこと】 回帰係数は0ではない 𝛽1 ≠ alternative hypothesis 対立仮説 現実には どちらか 一方だけが 正しい 12 回帰分析の統計的推測 【◀の逆】 回帰係数は0である 𝛽1 null hypothesis 帰無仮説 24
回帰分析における統計的仮説検定 2 帰 【問】20人サンプリングしたら回帰係数𝛽መ1 .2, 説明変数𝑥の分 𝑠𝑥2 82 ,残 𝑒の分 𝑠𝑒2 32 でした。 仮説が正しいときの検定統計量の分布を考える ▌検定統計量は推定のときと同じ考え方で 標 での回帰係数の推定値をもとに p. 21でやった うに 𝜎𝑒2 の不偏分 を使う ▼ 𝜎𝑒2 の わりに𝜎ො𝑒2 を用いて 回帰係数は0である 𝛽1 null hypothesis 帰無仮説 𝛽መ1 ∼ 𝑁 こちらが正しい場合の 20 体(標本)での 回帰係数の標本分布を考えたい 自由 12 回帰分析の統計的推測 𝜎𝑒2 𝛽1 2 𝑛𝜎𝑥 を標準化すると 𝑛 − 2 の 𝑡 分布に従う 25
回帰分析における統計的仮説検定 3 標本から 【問】20人サンプリングしたら回帰係数𝛽መ1 .2, 説明変数𝑥の分 𝑠𝑥2 82 ,残 𝑒の分 𝑠𝑒2 られた検定統計量の値の起こりやす を考える 32 でした。 𝑡 𝑛−2 ▌両側検定 ▶ 𝑡 が標 ෝ𝑒2 /𝑛𝜎𝑥2 𝜎 での値 0.2 よ も極端になる確率は ෝ𝑒2 /𝑛𝜎𝑥2 𝜎 極端に低い 𝑃 𝑡≤− は自由度 𝑛 − 2 の 𝑡 分布に従 確率 𝛽1 −0 標準化した値 𝑡 .2 𝜎ො𝑒2 /𝑛𝜎𝑥2 極端に高い 𝑃 𝑡≥ .2 𝜎ො𝑒2 /𝑛𝜎𝑥2 12 回帰分析の統計的推測 26
回帰分析における統計的仮説検定 3 標本から 【問】20人サンプリングしたら回帰係数𝛽መ1 .2, 説明変数𝑥の分 𝑠𝑥2 82 ,残 𝑒の分 𝑠𝑒2 られた検定統計量の値の起こりやす を考える .2 ▌両側検定 𝜎ො𝑒2 /𝑛𝜎𝑥2 ≃ .2 . 884 32 でした。 𝑡 8 2.262 𝛽1 の場合 不偏分 をもとに標準化した回帰係数が 標本の値2.262 りも極端になる確率は 𝑃 𝑋ത ≤ 99 .225 5% りは低い 𝑡分布表 4 帰 仮説を棄却するかを判断する 確率 𝑡 分布 𝑡 8 において り,自由 18の場合 𝑡 > 2. のときに 両側検定は 𝑝 < . 5 となる (今回はちゃんと計算すると 𝑝 . 363) その標本の回帰係数の値は 𝛽1 だとしたらかなりレアなこと 帰 仮説が っていると言えそう 12 回帰分析の統計的推測 27
(補足)重回帰分析でも ぼ同じ 説明変数が 𝐾 の場合 𝑦𝑖 𝛽0 𝛽1 𝑥1𝑖 𝛽2 𝑥2𝑖 ▌標本分布 ⋯ 𝛽𝑘 𝑥𝑘𝑖 ポイント 𝛽መ𝑘 ∼ 𝑁 𝛽𝑘 𝑆𝐸 𝛽መ𝑘 𝑘 ⋯ 𝐾− 𝐾 単回帰のときは 𝜎𝑒2 1 切片𝛽መ0 の標準誤差が𝜎𝑒2 2 𝑛𝜎𝑥 𝑛 𝛽𝐾 𝑥𝐾𝑖 𝑒𝑖 単回帰分析のときと同じ • 正規分布である • 𝐸 𝛽መ𝑘 𝛽𝑘 なので不偏推定量 • 一致 も有効 もある • 標準誤差が実際のデータによって変わる 偏回帰係数𝛽መ𝑘 それぞれの標準誤 傾き𝛽መ1 の標準誤差が ⋯ 𝑥ҧ 2 でしたが 𝑛𝜎𝑥2 回帰ではもっと複雑なので載せません。覚えなくても良いです。 (現実的には単回帰のときの標準誤差も覚えな ても いと思います。) ▌区 こ 推定・検定 までの説明とほぼ同じ ただし 𝑡 分布の自由 が𝑛− 𝐾 回帰係数の数だけ制約 12 回帰分析の統計的推測 になる ているため 28
回帰モデルの「 ▌決定係数 」について 資料04 pp. 26-41 同じ回帰直線でも 説明変数 𝑥 による被説明変数 𝑦 の予測が の程度正確か 回帰の が なるかもしれない これが低いとモデルにデータがフィットしていない状態 【 が高いとき】 【 が低いとき】 つの図では,回帰直線の傾き(回帰係数)は変わっていない 手元のデータに対しては 手元のデータにすら まあいい感じ うまくいっていない 回帰分析 12 回帰分析の統計的推測 29
回帰モデルの「 」について ▌回帰係数の統計的仮説検定 説明変数 𝑥 が被説明変数 𝑦 の予測に影響を与えていると言えるか 帰 仮説が棄却 れない場合,その説明変数は不要だったとも言える 【有 なとき】 【有 𝛽1 > 𝑦𝑖 じゃないとき】 𝑦𝑖 𝛽1 ≃ 手元のデータでいえば 𝑥 はあった うが い 𝑥𝑖 𝑥𝑖 手元のデータでいえば 𝑥 はいらなかったかもしれない 12 回帰分析の統計的推測 30
回帰モデルの「 ▌ 」について ては「モデル」の手のひらの上 モデルが正しくなかったらなんの 味もない 【正しくない例】 クスリは適量が一番いい 逆U字の 関 投薬量と健康度で回帰分析しよ としたら 𝑦𝑖 𝛽0 𝛽1 𝑥𝑖 𝑒𝑖 クスリは打ちまくったほうが 良いんだねぇ データへの当てはまりも くない • 決定係数は 𝑟 2 .25 らい • でも傾きの検定は有意になる 常に何かしらの結果を出してくれるが その正しさは保証されていない 12 回帰分析の統計的推測 31
回帰モデルの「 ては「モデル」の手のひらの上 モデルが正しくなかったらなんの 味もない 【正しくない例】 𝑦𝑖 は成功/ PK成功率を普通に回帰分析しよ としたら 𝑦𝑖 𝛽0 の二値 𝛽1 𝑥𝑖 𝑒𝑖 確率のはずなのに 0 下とか1 上の値が出てきおった 成功確率120%じゃい! 成功 ▌ 」について データへの当てはまりはまあまあ • 決定係数は 𝑟 2 .7 らい • 傾きの検定も有意になる やはり何かしらの結果を出してくれるが その正しさは保証されていない 12 回帰分析の統計的推測 32
現実世界の仕組みを理解するために(私 ) 現実世界 データから現実世界のメカニズムを 理 するためには 統計モデルを介在するしかない その上で 想定した統計モデルが 現実世界にマッチしてはじめて 味を成す 仮定 標本抽出 この授業で扱った範囲 統計モデル 推定 データ 何よ もま 想定した統計モデルが データにフィットしていないと話にならない 12 回帰分析の統計的推測 33
(授業で話せなかった)いろいろな「 」の一部 現実世界 統計モデルの仮定は 現実世界に合っているか 標本は現実世界を 反映できているか 仮定 標本抽出 ない 統計モデル 統計モデルの意味は わかりやすいか 推定 データが統計モデルに フィ トしているか 12 回帰分析の統計的推測 収集したいデータを きちんと収集できているか データ 決定係数な 34