3.4K Views
December 22, 23
スライド概要
神戸大学経営学部で2022年度より担当している「経営統計」の講義資料「10_統計的仮説検定の考え方」を公開用に調整したものです。
神戸大学経営学研究科准教授 分寺杏介(ぶんじ・きょうすけ)です。 主に心理学的な測定・教育測定に関する研究を行っています。 講義資料や学会発表のスライドを公開していきます。 ※スライドに誤りを見つけた方は,炎上させずにこっそりお伝えいただけると幸いです。
経営統計 10 統計的仮説検定の考え方 分寺 杏介 神戸大学 経営学部 [email protected] ※本スライドは,クリエイティブ・コモンズ 表示-非営利 4.0 国際 ライセンス(CC BY-NC 4.0)に従って利用が可能です。
前々回のおさらい ▌母集団分布が正規分布じゃなくても 母集団分布が平均𝜇,分散𝜎 2 の場合 標本分布は 𝑁 𝜎2 𝜇, 𝑛 母集団が正規分布じゃなくても になる 私達が実際に 分かる範囲 標本分布 母集団分布 標本平均 𝑥ҧ 𝜎2 𝑥,ҧ 𝑛 標本分布𝑁 を生み出す母集団分布は 形はともかく母平均は 𝑥ҧ と考えるのが妥当だろう! 標本平均 𝑥ҧ を生み落とした 標本分布は𝑁 𝜇 = 𝜎2 𝑥,ҧ 𝑛 が最もしっくり来る 𝜎 2 がすでに分かっているとしたら 母集団が正規分布じゃなくても 10 統計的仮説検定の考え方 2
前々回のおさらい ▌標本分散に関する推測 母集団分布が平均𝜇,分散𝜎 2 の場合の標本分布は 𝑛−1 2 形はともかく期待値が 𝜎 になる 母集団が正規分布じゃなくても 𝑛 標本分布 母集団分布 形は母集団分布による 𝑛−1 2 とにかく期待値が 𝜎 𝑛 私達が実際に 分かる範囲 標本分散 𝑠𝑥2 標本分散 期待値が𝑠𝑥2 になる標本分布を生み出す母集団分布は 𝑛 形はともかく母分散は 𝑠𝑥2 と考えるのが妥当だろう! 標本分散 𝑠𝑥2 を生み落とした 標本分布の期待値は当然 𝑠𝑥2 が最もしっくり来る 𝑛−1 上の青い部分の逆数 10 統計的仮説検定の考え方 3
今回のお題 ▌結果の一般化を目指して A 1 ID B 性別 C D 身長 E 体重 F 勉強時間 テストの得点 2 1 男 172 全国の高校生100人にオンライン調査し 3 2 女 158 たら,平均勉強時間が2.5点時間だった。 4 3 女 160 5 4 男 178 過去10年の平均が2.3時間なんだけど, 6 5 女 153 今年の高校生の勉強時間って 7 6 男 169 8 7 男 165 例年より長いと言えるかねぇ?? 70 3.0 91 47 0.8 31 54 4.0 34 69 3.8 51 42 1.9 87 80 1.9 39 70 2.1 48 9 8 女 155 42 0.8 73 10 9 男 159 63 2.4 62 11 10 女 148 40 1.7 34 12 11 女 147 42 1.6 84 過去の平均値より0.2時間長い平均値 なんだから長いんじゃないですか…? 第1回で説明したように 今回集まった100人ではたまたま長かっただけで, 別の100人に調査したら平均値は変わるはず ▶ 全国の高校生全体でも例年より長いかはまだわからない 「今年の高校生の勉強時間の平均が2.3時間」 という仮定のもとでは,そのうち100人の 平均勉強時間が2.5時間以上になる確率は およそ20.1%です。 したがって,今年の高校生の平均勉強時間は 2.3時間より長いとはいえなさそうです。 統計的仮説検定しよう 10 統計的仮説検定の考え方 4
第1回スライドより ▌ 統計的仮説検定では背理法によって検 証していきます。 https://manabitimes.jp/math/1141 ▶ 背理法は高校数学でやっていると思います… このプロセスにそって 仮説検定を行っていきます 10 統計的仮説検定の考え方 5
シンプルな例で考えていきます 例 翌日の発熱程度の軽いもの とあるワクチンは「副反応が出るのは4人に1人」と宣伝しています。 ですが,周りの20人に聞いた結果,副反応が出たのは7人もいました。 この結果から, 「副反応が出るのは4人に1人」というのが誇大広告ではないか検証してください。 ▌状況の整理 副反応が出る確率は1/4 = 25%で試行回数20人 ▶ 期待値は20 × 0.25 = 5人 なのに7人も副反応が出た…副反応が出る確率はもっと高いのでは? ▌統計的に考えていこう 副反応の有無はベルヌーイ試行とみなせる ▶ 副反応が出る人数は二項分布に従う 𝑋 ∼ 𝐵(20, 𝑝) 𝑝 = 0.25 の二項分布 𝐵(20,0.25) の期待値が5でしたね ▶▶ 本当に「副反応が出るのは4人に1人」ならば, 𝑝 = 0.25 のはず 実際には,副反応の有無には様々な要因が関係しますが 無作為抽出であればベルヌーイ試行とみなすことができます 10 統計的仮説検定の考え方 6
統計的仮説検定の流れ① 1 大前提として,推定のときと同じように母集団分布の仮定が置かれています 今回の場合「副反応が出る人数は二項分布 𝐵(20, 𝑝) に従う」 仮説を設定する ▌背理法でいえば「命題が正しくないと仮定する」のフェーズ 【実際に検証したいこと】 【◀の逆】 現実には どちらか 一方だけが 正しい 副反応発生率は0.25以上である 𝑝 > 0.25 alternative hypothesis 対立仮説 実際に証明したいほうに「対立」という名前がつくのは変な感じですが, これは統計的仮説検定が帰無仮説に基づいて話を進めていくためです (背理法なので証明したいことの逆のほうが重要) 副反応発生率は0.25である 𝑝 = 0.25 null hypothesis 帰無仮説 いったん,こちらが正しい世界を考えます 正確には帰無仮説というのは「(差などが)nullである」という仮説のことを指しているので 「実際に証明したいこと」が「差がない」ことだとしても帰無仮説には「差がない」が置かれます。 なぜこのようなイビツな構造になっているのか,このあとの統計的仮説検定の流れをもとに考えてみてください。 10 統計的仮説検定の考え方 7
統計的仮説検定の流れ② 2 帰無仮説が正しいときの検定統計量の分布を考える 𝐵(20, 0.25) 帰無仮説の元での分布 副反応発生率は0.25である 𝑝 = 0.25 ▶ 帰無分布 null hypothesis 帰無仮説 正しい場合,副反応が出る人数は 𝑋 ∼ 𝐵(20, 0.25)に従う 検定統計量 test statistic ▌基本的には推定のときと同じ考え方でOK ▶ 仮説検定したい対象が「母集団の平均値」ならば「標本の平均値」 仮説検定したい対象が「母集団の分散」ならば「標本の分散」 …をベースに計算した統計量を使うことになります 10 統計的仮説検定の考え方 8
統計的仮説検定の流れ③ 3 標本から得られた検定統計量の値の起こりやすさを考える 𝐵(20, 0.25) ▲ 20人中7人 ワシの周りでは 13人も出たらしい… 二項分布 𝑋 ∼ 𝐵(20, 0.25) において 𝑃 𝑋 ≥ 7 = 0.2142 𝑃 𝑋=7 𝑝 = 0.25 が正しい場合 20人中7人以上で副反応が出る確率は およそ21.42% 4 帰無仮説を棄却するかを判断する 20人中7人以上で副反応が出る,というのは 𝑝 = 0.25 のときでも割と起こりうること 「帰無仮説が正しい」と主張しているのではなく 運が悪かっただけ 「帰無仮説が間違いだと言うには証拠不十分」 ▶ 帰無仮説が間違っているとは言い切れない(棄却しない) 10 統計的仮説検定の考え方 9
逆に起こらなさそうだったら? 𝑝 = 0.25 の場合, 20人中10人以上で副反応が出る確率は 𝐵(20, 0.25) およそ1.39% 20人中10人以上で副反応が出るというのは 𝑝 = 0.25 の場合,相当起こりにくいこと 𝑃 𝑋 = 10 相当な悪運によって そもそも帰無仮説 (𝑝 = 0.25) たまたま10人以上出てしまった が間違っていた 𝐵(20, 0.5) 𝑃 𝑋 = 10 対立仮説 副反応発生率は0.25以上である 𝑝 > 0.25 のほうが正しい! ◀ 真の 𝑝 はわからないけれど 例えば 𝑝 = 0.5 だと 𝑋 = 10 は割と起こりやすい ▶ 統計的に有意 statistically significant 10 統計的仮説検定の考え方 10
きちんと決めておきましょう 20人中7人以上で副反応が出る,というのは 𝑝 = 0.25 のときでも割と起こりうること 20人中10人以上で副反応が出るというのは 𝑝 = 0.25 の場合,相当起こりにくいこと ▌統計的仮説検定では 帰無仮説が正しいという仮定のもとでの今回の標本の起こりやすさで判断する ▌どれくらい「起こりにくい」ことが起きたら帰無仮説を否定できるの? 毎回データを見てから恣意的に決めてたら良くないので事前に決めておきます ▌棄却域の設定 どのくらい極端な値が出たら帰無仮説を棄却するか ▶ 通常は5%にあたる極端な値が出たら 有意水準 (𝛼) significance level つまり帰無仮説が本当に正しくても100回中5回は 「帰無仮説が正しくない」と判断してしまうことになります 10 統計的仮説検定の考え方 11
棄却域を決める ▌「起こりにくい」順に考えていく 𝐵(20, 0.25) 𝑋 𝑃(𝑋 = 𝑥) 累計 20 0.000 0.000 19 0.000 0.000 帰無仮説が正しい場合 ︙ ︙ ︙ 13 0.000 0.000 12 0.001 0.001 有意水準(𝛼 = 5%) よりも起こりにくい領域 11 0.003 0.004 10 0.010 0.014 9 0.027 0.041 8 0.061 0.102 7 0.112 0.214 帰無仮説が正しい場合 ︙ ︙ ︙ どちらかといえば まだ起こりうる 10 統計的仮説検定の考え方 ▶ 棄却域 12
統計的仮説検定の流れ 検定の種類によって 使用する検定統計量 その確率分布が異なる ▼ すべて覚えるのは無理 ▼ 基本的な流れだけ 頭に叩き込んでおく ▼ あとは必要に応じて 調べながらやるだけ 細かい書き方は教科書によって異なるので 基本的な流れだけは理解しておいてください。 1 仮説を設定する 2 帰無仮説が正しいときの検定統計量の分布を考える 3 標本から得られた検定統計量の値の起こりやすさを考える 4 帰無仮説を棄却するかを判断する 次回は具体的な仮説検定の流れを ひたすら紹介していきます …とその前に,仮説検定にまつわるエトセトラ 10 統計的仮説検定の考え方 13
片側検定と両側検定 例 とあるワクチンは「副反応が出るのは4人に1人」と宣伝しています。 ですが,周りの20人に聞いた結果,副反応が出たのは7人もいました。 この結果から, 「副反応が出るのは4人に1人」というのが誇大広告ではないか検証してください。 ▌帰無仮説は 副反応発生率は0.25である 𝑝 = 0.25 ▌この逆(対立仮説)にはいくつかのパターンが考えられる A) 𝑝 ≠ 0.25|副反応発生率は0.25ではない B) 𝑝 < 0.25|副反応発生率は0.25以下である p. 12までは コレでした C) 𝑝 > 0.25|副反応発生率は0.25以上である ワクチンの例の場合 「副反応発生率が0.25より低いことは無い」 「副反応発生率が0.25より低くても問題ない」 と考えられるならば,対立仮説はC)でも良い 両側検定 片側検定 ▌用いる検定統計量などは変わらないが… 片側検定 と 両側検定 では棄却域の置き方が変わってきます 10 統計的仮説検定の考え方 14
片側検定と両側検定の棄却域 𝑝 = 0.25において起こりにくい順に ▌ポイントは「有意水準は一定」ということ 𝑝 > 0.25 片側検定 𝑝 ≠ 0.25 副反応発生率は 0.25以上である 両側検定 5% 5% 左右合わせて5% 一方だけで5% 10 統計的仮説検定の考え方 副反応発生率は 0.25ではない 𝑋 𝑃(𝑋 = 𝑥) 累計 20 19 ︙ 12 11 0 10 1 9 8 2 7 3 6 4 5 0.000 0.000 ︙ 0.001 0.003 0.003 0.010 0.021 0.027 0.061 0.067 0.112 0.134 0.169 0.190 0.202 0.000 0.000 ︙ 0.001 0.004 0.007 0.017 0.038 0.065 0.126 0.193 0.305 0.439 0.608 0.798 1.000 15
片側/両側検定の使い分け 𝑝 = 0.25において起こりにくい順に ▌結構むずかしい問題 基本的に,片側検定にすると有意になりやすい 片側検定 𝑝 > 0.25 両側検定 𝑝 ≠ 0.25 棄却域は 𝑋 ≥ 10 (と𝑋 ≤ 1) 棄却域は 𝑋≥9 ▌その結果 両側検定が使える場合,仮説的に片側検定が良さそうでも とりあえず両側検定にしておくのが無難でしょう 重要な意思決定は保守的に 10 統計的仮説検定の考え方 𝑋 𝑃(𝑋 = 𝑥) 累計 20 19 ︙ 12 11 0 10 1 9 8 2 7 3 6 4 5 0.000 0.000 ︙ 0.001 0.003 0.003 0.010 0.021 0.027 0.061 0.067 0.112 0.134 0.169 0.190 0.202 0.000 0.000 ︙ 0.001 0.004 0.007 0.017 0.038 0.065 0.126 0.193 0.305 0.439 0.608 0.798 1.000 16
𝑝値 ▌統計的仮説検定を行うと必ず出てくる値 ▌標本で計算した検定統計量が分布のどこに位置するかを表している ▶ 標本で得られた値よりも「さらに極端な値」が出る確率 帰無仮説と整合的ではない値 ▶▶ 検定の種類に関わらず 𝑝 < 0.05 ならば仮説検定の結果は有意である 𝑋 𝑃(𝑋 = 𝑥) 累計 20 0.000 0.000 19 0.000 0.000 ︙ ︙ ︙ 12 0.001 0.001 11 0.003 0.004 0 0.003 0.007 10 0.010 0.017 1 0.021 0.038 9 0.027 0.065 8 0.061 0.126 2 0.067 0.193 7 0.112 0.305 3 0.134 0.439 6 0.169 0.608 4 0.190 0.798 5 0.202 1.000 この列が まさに 𝑝値 例 𝐵(20, 0.25) で 𝑋 = 9 だった場合 両側検定 𝑝 = 0.065 𝑃 𝑋≤1 + 𝑃(𝑋 ≥ 9) 10 統計的仮説検定の考え方 片側検定 𝑝 = 0.041 𝑃(𝑋 ≥ 9) 17
2種類の誤り ▌ 検定結果と真実の組み合わせは4通り 本当は 帰無仮説 帰無仮説が正しい 帰無仮説が正しくない 棄却された 第1種の誤り(𝛼) 正しい判断 棄却されなかった 正しい判断 第2種の誤り(𝛽) ▌ 第1種の誤りを犯す確率 帰無仮説が正しいのに帰無仮説を棄却してしまう確率=有意水準 ▌ 第2種の誤り 「帰無仮説が正しくない」が真実であれば,きちんと帰無仮説を棄却してほしい ▶ 表の右上の確率(1 − 𝛽)が高いほうが嬉しい 検定力(検出力) 10 統計的仮説検定の考え方 18
第2種の誤りと検定力 ▌帰無仮説の分布と対立仮説の分布を重ねてみると 帰無仮説に基づく棄却域は 𝑋≥9 帰無仮説 帰無仮説での 確率と𝑝値 𝐵(20,0.25) 𝑋 𝑃(𝑋 = 𝑥) 𝑝 20 0.000 0.000 ︙ ︙ ︙ 12 0.001 0.001 11 0.003 0.004 10 0.010 0.014 9 0.027 0.041 8 0.061 0.102 ︙ ︙ ︙ 帰無仮説が正しくないのに棄却できない 対立仮説 𝐵(20,0.5) 対立仮説 𝑝 > 0.25の片側検定を考えます 対立仮説は 𝑝 > 0.25 ですが そのような 𝑝 の一つとして ここでは 𝑝 = 0.5 を考えます 対立仮説が正しい場合 𝑃(𝑋 ≥ 9)は 0.05(𝛼)よりも大きい ここの確率の和が 第2種の誤り(𝛽) 10 統計的仮説検定の考え方 検定力 19
検定力が上がる条件①|効果の大きさ ▌p. 19の図と比較 𝑝 = 0.5から 帰無仮説に基づく棄却域は 𝑝 = 0.7に変更 𝑋 ≥ 9 帰無仮説 対立仮説 𝐵(20,0.25) 𝐵(20,0.7) とはいえ差の大きさは母数によってすでに決まっていることなので 我々にはどうしようもない話です 帰無仮説が正しい場合の分布と 実際の分布が大きく異なる場合 検定力 高い確率で標本統計量は棄却域に入る 第2種の誤り(𝛽) 帰無仮説を正しく棄却できる確率 =検定力が高くなる サンプルサイズ20のときの標本分布 10 統計的仮説検定の考え方 20
検定力が上がる条件②|サンプルサイズ ▌p. 19の図と比較 検定力を上げるための実行可能な方法がこちらです 帰無仮説に基づく棄却域は 帰無仮説 𝑋 ≥ 19 対立仮説 𝐵(50,0.25) 𝐵(50,0.5) サンプルサイズが増えると 分布の平均(位置)が変わらなくても 分布の幅が狭くなる 検定力 第2種の誤り(𝛽) 棄却域の範囲が広くなり 帰無仮説を正しく棄却できる確率 =検定力が高くなる サンプルサイズを50に増やしたときの標本分布 10 統計的仮説検定の考え方 21
検定力の話から分かること ▌統計的仮説検定では2つの要素で結果が決まる 帰無仮説と「真の状態」が どの程度乖離しているか 検定力が上がる条件 効果の大きさ サンプルサイズ 検定力が上がる条件 |効果の大きさ の図と比較 帰無仮説に基づく棄却域は 9 帰無仮説 対立仮説 (20,0.25) (20,0.7) と = 0.5から = 0.7に変更 とはいえ差の大きさは母数によってすでに決まっていることなので 我々にはどうしようもない話です 帰無仮説が正しい場合の分布と |サンプルサイズ の図と比較 検定力を上げるための実行可能な方法がこちらです 帰無仮説に基づく棄却域は 19 帰無仮説 対立仮説 (50,0.25) (50,0.5) サンプルサイズが増えると 実際の分布が大きく異なる場合 検定力 高い確率で標本統計量は棄却域に入る 検定力 第2種の誤り( ) 第2種の誤り( ) 行回数 棄却域の範囲が広くなり 帰無仮説を正しく棄却できる確率 帰無仮説を正しく棄却できる確率 =検定力が高くなる =検定力が高くなる 行回数を のときの標本分布 に増やしたときの標本分布 統計的仮説検定の考え方 統計的仮説検定の考え方 効果が大きいほど 有意になりやすい サンプルサイズが大きいほど 有意になりやすい 10 統計的仮説検定の考え方 22
サンプルサイズこそ正義…なのか? ▌サンプルサイズをべらぼうに増やしてみる 例 とあるワクチンは「副反応が出るのは4人に1人」と宣伝しています。 ですが10,000,000人に聞いた結果,副反応が出たのは2,503,000人もいました。 この結果から, 「副反応が出るのは4人に1人」というのが誇大広告ではないか検証してください。 ▌状況の整理 副反応が出る確率は25%で試行回数10,000,000人 ▶ 期待値は2,500,000人 なのに2,503,000人(25.03%)も副反応が出た 𝐵(10,000,000, 0.25) ▌統計的仮説検定 片側検定の場合 100の倍数のみ図示 棄却域は 𝑋 ≥ 2,502,253 0.03%も高いじゃないか! 𝑝 = 0.25 が正しい場合 10,000,000人中2,503,000人以上で副反応が出る確率は およそ1.43% 帰無仮説は棄却されました。 10 統計的仮説検定の考え方 23
でもいいの?ホントにそれで? ▌統計的仮説検定は確かに有意になりましたが…… 副反応の発生率は25%だと言っているが 実際には25.03%じゃないか! 統計的有意だぞ!! ワクチン接種を中止しろ! (0.03%なんて 誤差だろうよ…) …と思うカエルであった。 ▌統計的仮説検定の限界 副反応発生率は0.25以上である 𝑝 > 0.25 対立仮説 現実には どちらか 一方だけが 正しい 副反応発生率は0.25である 𝑝 = 0.25 𝑝 がぴったり …でない限り 対立仮説が正しいことになってしまう 10 統計的仮説検定の考え方 帰無仮説 連続変数の場合そんなことはありえない 24
「有意」 ▌「統計的有意」と「実質的有意」 (0.03%なんて 誤差だろうよ…) ただしその差には 実質的には意味がないというのも また事実 もちろん0.03%の差ですら実質的に意味がある といえるケースもあるでしょう 例)難病の発症率,重大事故の発生率 副反応の発生率は25%だと言っているが 実際には25.03%じゃないか! 統計的有意だぞ!! ワクチン接種を中止しろ! 統計的仮説検定の理論に基づいて 「統計的有意」であることは事実 帰無仮説を棄却できるだけの証拠があるという意味 サンプルサイズを増やしすぎると 「実質的有意」でないのに 「統計的有意」になる可能性が高まる 10 統計的仮説検定の考え方 25
(補足)じゃあ事前にサンプルサイズを決めておこう ▌検定力分析と呼ばれるプロセス 例 実質的に意味のある差 とあるワクチンは「副反応が出るのは25%」と宣伝しています。 ただ実質的には副反応発生率が30%を超えているとマズいことになります。 副反応発生率が25%より高いかを統計的仮説検定するために, サンプルサイズはどの程度あれば十分でしょうか? 副反応発生率が30%を超えているとマズい ▶ そのような場合はきちんと帰無仮説が棄却されるようにしたい ▶▶ 実際の副反応発生率が30%のとき,検定力が0.8になるようにしよう 0.8はよく使われる値ですが,場合や目的によっては 0.9や0.85などにしても良いです。 実質的に有意な差があるときにはきちんと検出できるだけの 必要最低限のサンプルサイズだけ用意したい,ということです コスト削減にもなるね 10 統計的仮説検定の考え方 26
(補足)じゃあ事前にサンプルサイズを決めておこう ▌検定力分析と呼ばれるプロセス 例 実質的に意味のある差 とあるワクチンは「副反応が出るのは25%」と宣伝しています。 ただ実質的には副反応発生率が30%を超えているとマズいことになります。 副反応発生率が25%より高いかを統計的仮説検定するために, サンプルサイズはどの程度あれば十分でしょうか? 棄却域 𝑋 ≥ 32 棄却域 𝑋 ≥ 130 対立仮説 𝐵(100, 0.3) 検定力 0.367 対立仮説 𝐵(460, 0.3) 棄却域 𝑋 ≥ 273 対立仮説 𝐵(1000, 0.3) 検定力 0.972 検定力 0.806 【𝑛 = 100のとき】 【𝑛 = 460のとき】 【𝑛 = 1000のとき】 サンプルサイズが小さいと 30%のときにもあまり棄却できない これくらいあれば十分 サンプルサイズが大きいと 30%以下でも棄却しすぎてしまう 10 統計的仮説検定の考え方 27