経営統計_10_統計的仮説検定の考え方

7.2K Views

December 22, 23

#統計的仮説検定 #帰無仮説 #p値 #二項分布 #統計学

スライド概要

神戸大学経営学部で2022年度より担当している「経営統計」の講義資料「10_統計的仮説検定の考え方」を公開用に調整したものです。
【更新履歴】
・2026/05/09：表現のミスの修正（p. 16）
・2025/12/15：仮説検定でP(X=x)ではなくP(X≥x)を使う考え方の説明を追加しました (p. 10)
・2025/05/12：帰無仮説との整合性に関する考え方の説明を追加しました（p. 9）
・2024/12/10：p値関数の話を追加しました (pp. 18-21)

Kyosuke Bunji

@BunjiRo

スライド一覧

神戸大学経営学研究科准教授　分寺杏介（ぶんじ・きょうすけ）です。主に心理学的な測定・教育測定に関する研究を行っています。講義資料や学会発表のスライドを公開していきます。 ※スライドに誤りを見つけた方は，炎上させずにこっそりお伝えいただけると幸いです。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

ベイズ統計_07_マルコフ連鎖モンテカルロ法(2)

Kyosuke Bunji 69.6K

ベイズ統計_02_確率の基本とベイズの定理

Kyosuke Bunji 56.3K

ベイズ統計_01_イントロダクション

Kyosuke Bunji 49.4K

ベイズ統計_03_尤度

Kyosuke Bunji 47.7K

ベイズ統計_04_事前分布・基本的なベイズ推論(1)

Kyosuke Bunji 46K

ベイズ統計_06_マルコフ連鎖モンテカルロ法(1)

Kyosuke Bunji 44.3K

各ページのテキスト

経営統計 10 統計的仮説検定の考え方分寺杏介神戸大学経営学部  [email protected] ※本スライドは，クリエイティブ・コモンズ表示-非営利 4.0 国際ライセンス（CC BY-NC 4.0）に従って利用が可能です。

https://creativecommons.org/licenses/by-nc/4.0/

前々回のおさらい ▌母集団分布が正規分布じゃなくても母集団分布が平均𝜇，分散𝜎 2 の場合標本分布は 𝑁 𝜎2 𝜇, 𝑛 母集団が正規分布じゃなくてもになる私達が実際に分かる範囲標本分布母集団分布標本平均 𝑥ҧ 𝜎2 𝑥,ҧ 𝑛 標本分布𝑁 を生み出す母集団分布は形はともかく母平均は 𝑥ҧ と考えるのが妥当だろう！標本平均 𝑥ҧ を生み落とした標本分布は𝑁 𝜎2 𝜇 = 𝑥,ҧ 𝑛 が最もしっくり来る 𝜎 2 がすでに分かっているとしたら母集団が正規分布じゃなくても 10 統計的仮説検定の考え方 2

前々回のおさらい ▌標本分散に関する推測母集団分布が平均𝜇，分散𝜎 2 の場合の標本分布は母集団が正規分布じゃなくても 𝑛−1 2 形はともかく期待値が 𝜎 になる 𝑛 標本分布母集団分布形は母集団分布による 𝑛−1 2 とにかく期待値が 𝜎 𝑛 私達が実際に分かる範囲標本分散 𝑠𝑥2 標本分散期待値が𝑠𝑥2 になる標本分布を生み出す母集団分布は 𝑛 形はともかく母分散は 𝑠𝑥2 と考えるのが妥当だろう！標本分散 𝑠𝑥2 を生み落とした標本分布の期待値は当然 𝑠𝑥2 が最もしっくり来る 𝑛−1 上の青い部分の逆数 10 統計的仮説検定の考え方 3

今回のお題 ▌結果の一般化を目指して A 1 ID B 性別 C D 身長体重 E F 勉強時間テストの得点全国の高校生100人にオンライン調査し 3 2 女 158 たら，平均勉強時間が2.5時間だった。 4 3 女 160 5 4 男 178 過去10年の平均が2.3時間なんだけど， 6 5 女 153 今年の高校生の勉強時間って 7 6 男 169 8 7 男 165 例年より長いと言えるかねぇ？？ 9 8 女 155 70 3.0 91 47 0.8 31 54 4.0 34 69 3.8 51 42 1.9 87 80 1.9 39 70 2.1 48 42 0.8 73 10 9 男 159 63 2.4 62 11 10 女 148 40 1.7 34 12 11 女 147 42 1.6 84 2 1 男 172 過去の平均値より0.2時間長い平均値なんだから長いんじゃないですか…？第１回で説明したように今回集まった100人ではたまたま長かっただけで，別の100人に調査したら平均値は変わるはず全国の高校生全体でも例年より長いかはまだわからない「今年の高校生の勉強時間の平均が2.3時間」という仮定のもとでは，そのうち100人の平均勉強時間が2.5時間以上になる確率はおよそ20.1%です。したがって，今年の高校生の平均勉強時間は 2.3時間より長いとはいえなさそうです。統計的仮説検定しよう 10 統計的仮説検定の考え方 4

第1回スライドより ▌ 統計的仮説検定では背理法によって検証していきます。 https://manabitimes.jp/math/1141 背理法は高校数学でやっていると思います… このプロセスにそって仮説検定を行っていきます 10 統計的仮説検定の考え方 5

https://manabitimes.jp/math/1141

シンプルな例で考えていきます翌日の発熱程度の軽いもの例とあるワクチンは「副反応が出るのは4人に1人」と宣伝しています。ですが，周りの20人に聞いた結果，副反応が出たのは7人もいました。この結果から，「副反応が出るのは4人に1人」というのが誇大広告ではないか検証してください。 ▌状況の整理副反応が出る確率は1/4 = 25%で試行回数20人期待値は20 × 0.25 = 5人なのに7人も副反応が出た…副反応が出る確率はもっと高いのでは？ ▌統計的に考えていこう副反応の有無はベルヌーイ試行とみなせる副反応が出る人数は二項分布に従う 𝑋 ∼ 𝐵(20, 𝑝) 𝑝 = 0.25 の二項分布 𝐵(20,0.25) の期待値が5でしたね本当に「副反応が出るのは4人に1人」ならば， 𝑝 = 0.25 のはず実際には，副反応の有無には様々な要因が関係しますが無作為抽出であればベルヌーイ試行とみなすことができます 10 統計的仮説検定の考え方 6

統計的仮説検定の流れ① 大前提として，推定のときと同じように母集団分布の仮定が置かれています今回の場合「副反応が出る人数は二項分布 𝐵(20, 𝑝) に従う」 1 仮説を設定する ▌背理法でいえば「命題が正しくないと仮定する」のフェーズ【実際に検証したいこと】【現実にはどちらか一方だけが正しい副反応発生率は0.25以上である 𝑝 > 0.25 alternative hypothesis 対立仮説実際に証明したいほうに「対立」という名前がつくのは変な感じですが，これは統計的仮説検定が帰無仮説に基づいて話を進めていくためです（背理法なので証明したいことの逆のほうが重要）の逆】副反応発生率は0.25である 𝑝 = 0.25 null hypothesis 帰無仮説いったん，こちらが正しい世界を考えます正確には帰無仮説というのは「（差などが）nullである」という仮説のことを指しているので「実際に証明したいこと」が「差がない」ことだとしても帰無仮説には「差がない」が置かれます。なぜこのようなイビツな構造になっているのか，このあとの統計的仮説検定の流れをもとに考えてみてください。 10 統計的仮説検定の考え方 7

統計的仮説検定の流れ② 2 帰無仮説が正しいときの検定統計量の分布を考える 𝐵(20, 0.25) 帰無仮説の元での分布副反応発生率は0.25である 𝑝 = 0.25 帰無分布 null hypothesis 帰無仮説正しい場合，副反応が出る人数は 𝑋 ∼ 𝐵(20, 0.25)に従う検定統計量 test statistic ▌基本的には推定のときと同じ考え方でOK 仮説検定したい対象が「母集団の平均値」ならば「標本の平均値」仮説検定したい対象が「母集団の分散」ならば「標本の分散」 …をベースに計算した統計量を使うことになります 10 統計的仮説検定の考え方 8

統計的仮説検定の流れ③ 𝐵(20, 0.25) 𝑋 𝑃(𝑋 = 𝑥) 3 標本から得られた検定統計量の値の起こりやすさを考える ▌帰無仮説との整合性を考える帰無仮説が間違っているとは言えなさそう「20人中5人（𝑋 = 5）」は 𝑝 = 0.25 と完全に整合的じゃあ𝑋 = 7は？「20人中0人（𝑋 = 0）」は 𝑝 = 0.25 とは非整合的だが 𝑝 > 0.25とはもっと非整合的「20人中20人（𝑋 = 20）」は 𝑝 = 0.25 と完全に非整合的帰無分布 𝐵(20, 0.25) 10 統計的仮説検定の考え方 20 0.000 19 0.000 ︙ ︙ 13 0.000 12 0.001 11 0.003 10 0.010 9 0.027 8 0.061 7 0.112 6 0.169 5 0.202 帰無仮説が間違っていると言えそう 9

10.

非整合性をランキングで考える本当はこの右に13-20人が並ぶが 1000試行くらいだと発生しないかも 𝑃 𝑋 = 13, ⋯ , 20 ≈ 0.000 ▌あるところを超えたら「非整合」と考える 1000回サンプリングを繰り返したら…？今回の標本 𝑝 = 0.25 1000 のほうが整合的 0 0 0 3 1 1 1 … 1 21 2 … … 6 7 同率 214位 … 7 8 … 112 「20人中5人未満（𝑋 < 5）」はどちらかといえば 𝑝 = 0.25 のほうがより整合的 10 統計的仮説検定の考え方 𝑝 > 0.25 のほうが整合的 1 … 10 11 11 11 12 3 𝐵(20, 0.25) 期待発生回数 𝑋 20 0 19 0 ︙ ︙ 13 0 12 1 11 3 10 10 9 27 8 61 7 112 6 169 5 202 4 190 3 134 2 67 1 21 0 3 10

11.

統計的仮説検定の流れ③ = 0.25 のほうが整合的 3 標本から得られた検定統計量の値の起こりやすさを考える今回の標本同率位 > 0.25 のほうが整合的 𝐵(20, 0.25) ▲ 20人中7人ワシの周りでは 13人も出たらしい… 二項分布 𝑋 ∼ 𝐵(20, 0.25) において 𝑃 𝑋 ≥ 7 = 0.2142 𝑝 = 0.25 が正しい場合 20人中7人以上で副反応が出る確率は 𝑃 𝑋=7 およそ21.42% 4 帰無仮説を棄却するかを判断する 20人中7人以上で副反応が出る，というのは 𝑝 = 0.25 のときでも割と起こりうること「帰無仮説が正しい」と主張しているのではなく運が悪かっただけ「帰無仮説が間違いだと言うには証拠不十分」帰無仮説が間違っているとは言い切れない（棄却しない） 10 統計的仮説検定の考え方 11

12.

逆に起こらなさそうだったら？別の回の標本 = 0.25 のほうが整合的同率 𝑝 = 0.25 の場合， 20人中10人以上で副反応が出る確率は位 𝐵(20, 0.25) およそ1.39% 20人中10人以上で副反応が出るというのは 𝑝 = 0.25 の場合，相当起こりにくいこと 𝑃 𝑋 = 10 相当な悪運によってそもそも帰無仮説 (𝑝 = 0.25) たまたま10人以上出てしまったが間違っていた 𝐵(20, 0.5) 𝑃 𝑋 = 10 対立仮説副反応発生率は0.25以上である 𝑝 > 0.25 のほうが正しい！真の 𝑝 はわからないけれど例えば 𝑝 = 0.5 だと 𝑋 = 10 は割と起こりやすい統計的に有意 statistically significant 10 統計的仮説検定の考え方 12

13.

きちんと決めておきましょう 20人中7人以上で副反応が出る，というのは 𝑝 = 0.25 のときでも割と起こりうること 20人中10人以上で副反応が出るというのは 𝑝 = 0.25 の場合，相当起こりにくいこと ▌統計的仮説検定では帰無仮説が正しいという仮定のもとでの今回の標本の起こりやすさで判断する ▌どれくらい「起こりにくい」ことが起きたら帰無仮説を否定できるの？毎回データを見てから恣意的に決めてたら良くないので事前に決めておきます ▌棄却域の設定どのくらい極端な値が出たら帰無仮説を棄却するか通常は5%にあたる極端な値が出たら有意水準 (𝛼) つまり帰無仮説が本当に正しくても100回中5回は「帰無仮説が正しくない」と判断してしまうことになります significance level 10 統計的仮説検定の考え方 13

14.

棄却域を決める ▌「起こりにくい」順に考えていく 𝐵(20, 0.25) 𝑋 𝑃(𝑋 = 𝑥) 累計 20 0.000 0.000 19 0.000 0.000 帰無仮説が正しい場合 ︙ ︙ ︙ 13 0.000 0.000 12 0.001 0.001 有意水準（𝛼 = 5%）よりも起こりにくい領域 11 0.003 0.004 10 0.010 0.014 9 0.027 0.041 8 0.061 0.102 7 0.112 0.214 帰無仮説が正しい場合 ︙ ︙ ︙ どちらかといえばまだ起こりうる 𝛼 𝑝 = 0.25 のほうが整合的 𝑝 > 0.25 のほうが整合的 10 統計的仮説検定の考え方棄却域 14

15.

統計的仮説検定の流れ細かい書き方は教科書によって異なるので基本的な流れだけは理解しておいてください。 1 仮説を設定する検定の種類によって使用する検定統計量その確率分布が異なる ▼ すべて覚えるのは無理 ▼ 基本的な流れだけ頭に叩き込んでおく ▼ あとは必要に応じて調べながらやるだけ 2 帰無仮説が正しいときの検定統計量の分布を考える 3 標本から得られた検定統計量の値の起こりやすさを考える 4 帰無仮説を棄却するかを判断する次回は具体的な仮説検定の流れをひたすら紹介していきます …とその前に，仮説検定にまつわるエトセトラ 10 統計的仮説検定の考え方 15

16.

片側検定と両側検定例とあるワクチンは「副反応が出るのは4人に1人」と宣伝しています。ですが，周りの20人に聞いた結果，副反応が出たのは7人もいました。この結果から，「副反応が出るのは4人に1人」というのが誇大広告ではないか検証してください。 ▌帰無仮説は副反応発生率は0.25である 𝑝 = 0.25 ▌この逆（対立仮説）にはいくつかのパターンが考えられる A) 𝑝 ≠ 0.25｜副反応発生率は0.25ではない B) 𝑝 < 0.25｜副反応発生率は0.25より低い p. 14まではコレでした C) 𝑝 > 0.25｜副反応発生率は0.25より高いワクチンの例の場合「副反応発生率が0.25より低いことは無い」「副反応発生率が0.25より低くても問題ない」と考えられるならば，対立仮説はC)でも良い両側検定片側検定 ▌用いる検定統計量などは変わらないが… 片側検定と両側検定では棄却域の置き方が変わってきます 10 統計的仮説検定の考え方 16

17.

片側検定と両側検定の棄却域 𝑝 = 0.25において起こりにくい順に ▌ポイントは「有意水準は一定」ということ 𝑝 > 0.25 片側検定 𝑝 ≠ 0.25 副反応発生率は 0.25以上である両側検定 5% 5% 左右合わせて5% 一方だけで5% 10 統計的仮説検定の考え方副反応発生率は 0.25ではない 𝑋 𝑃(𝑋 = 𝑥) 累計 20 19 ︙ 12 11 0 10 1 9 8 2 7 3 6 4 5 0.000 0.000 ︙ 0.001 0.003 0.003 0.010 0.021 0.027 0.061 0.067 0.112 0.134 0.169 0.190 0.202 0.000 0.000 ︙ 0.001 0.004 0.007 0.017 0.038 0.065 0.126 0.193 0.305 0.439 0.608 0.798 1.000 17

18.

片側／両側検定の使い分け 𝑝 = 0.25において起こりにくい順に ▌結構むずかしい問題基本的に，片側検定にすると有意になりやすい片側検定 𝑝 > 0.25 両側検定 𝑝 ≠ 0.25 棄却域は 𝑋 ≥ 10 （と𝑋 ≤ 1）棄却域は 𝑋≥9 ▌その結果両側検定が使える場合，仮説的に片側検定が良さそうでもとりあえず両側検定にしておくのが無難でしょう重要な意思決定は保守的に 10 統計的仮説検定の考え方 𝑋 𝑃(𝑋 = 𝑥) 累計 20 19 ︙ 12 11 0 10 1 9 8 2 7 3 6 4 5 0.000 0.000 ︙ 0.001 0.003 0.003 0.010 0.021 0.027 0.061 0.067 0.112 0.134 0.169 0.190 0.202 0.000 0.000 ︙ 0.001 0.004 0.007 0.017 0.038 0.065 0.126 0.193 0.305 0.439 0.608 0.798 1.000 18

19.

𝑝値 ▌統計的仮説検定を行うと必ず出てくる値 ▌標本で計算した検定統計量が分布のどこに位置するかを表している標本で得られた値よりも「さらに極端な値」が出る確率帰無仮説と整合的ではない値検定の種類に関わらず 𝑝 < 0.05 ならば仮説検定の結果は有意である 𝑋 𝑃(𝑋 = 𝑥) 累計 20 0.000 0.000 19 0.000 0.000 ︙ ︙ ︙ 12 0.001 0.001 11 0.003 0.004 0 0.003 0.007 10 0.010 0.017 1 0.021 0.038 9 0.027 0.065 8 0.061 0.126 2 0.067 0.193 7 0.112 0.305 3 0.134 0.439 6 0.169 0.608 4 0.190 0.798 5 0.202 1.000 この列がまさに 𝑝値例 𝐵(20, 0.25) で 𝑋 = 9 だった場合両側検定 𝑝 = 0.065 𝑃 𝑋≤1 + 𝑃(𝑋 ≥ 9) 10 統計的仮説検定の考え方片側検定 𝑝 = 0.041 𝑃(𝑋 ≥ 9) 19

20.

𝑝 値の意味 …というと「𝑝 値を見ておけばいいのか！」と短絡的に考えられがち 𝑝 値には近年批判の声も多く寄せられている例えば ASA声明 (2016) や Amrhein & Greenland (2022)など ▌重要な考え方 𝑝 値はデータと特定の統計モデルが矛盾する程度をしめす指標のひとつである (ASA声明, 佐藤訳) nullism ▌…どういうこと？「無い」という（帰無）仮説の元で計算した 𝑝 値一つだけをみて効果が「ある」か「ない」かを二値判断的に議論するのってどうなのよ？ Dichotomania 例「𝑝 = 0.050000000001」→「帰無仮説は保持＝効果なし」と言っていいのか？ 10 統計的仮説検定の考え方 20

21.

𝑝 値との付き合い方「そういう解釈が蔓延しちゃって良くないね」という批判が起こっているのです「𝑝 値が悪い」のではなく，「𝑝 値の使い方を考えましょう」という話 ▌𝑝 値をどう使っていくのが良いのか？【ポイント】𝑝 値は帰無仮説以外でも計算できる！これも唯一無二の正解というわけではなく「こうしてみたらどうか？」という近年の提案の一つです p. 8より 2 帰無仮説が正しいときの検定統計量の分布を考える 𝑥 副反応発生率は0.25である 𝑥 𝑝 = 0.25 帰無仮説は単に 𝑥 = 0.25 の一例 null hypothesis 帰無仮説 𝑥 正しい場合，副反応が出る人数は 𝑋 ∼ 𝐵(20, 0.25)に従う 10 統計的仮説検定の考え方いろいろな 𝑥 で 𝑝 値を計算しよう！ 21

22.

𝑝 値関数 ▌いろいろな値で 𝑝 値を計算した結果をまとめたもの 20人中7人が副反応 𝑝 値はデータと特定の統計モデルが矛盾する程度をしめす指標のひとつである p. 8の帰無仮説「発生率0.25」における 𝑝 値は0.305 𝑥 副反応発生率は0.25である 𝑥 𝑝 = 0.25 最尤推定値で𝑝 = 1 （帰無）仮説がこの間の値だったら帰無仮説は棄却されない何であっても（帰無）仮説は棄却されていなかった …ただし帰無仮説はある意味で恣意的な設定「データとモデルの矛盾度」という意味では0.25よりも整合的な値が（0.25以外に）多数存在する今回は両側検定での計算結果を出しました仮説におけるの定 10 統計的仮説検定の考え方これを用いてどう解釈・意思決定するかは自由です。ただ「帰無仮説に基づく𝑝値のみ」を用いることの危うさは理解しておいてください。 22

23.

（補足） 𝑝 値についてもう少しだけ 𝑝 値はデータと特定の統計モデルが矛盾する程度をしめす指標のひとつである (Wasserstein RL, Lazar NA. Editorial: The ASA’s statement on p-values: Context, process, and purpose. The American Statistician 2016; 70: 129-133.,佐藤訳) ▌ここでの「統計モデル」は（帰無）仮説とその背後の仮定を包括したもの例とあるワクチンは「副反応が出るのは4人に1人」と宣伝しています。ですが，周りの20人に聞いた結果，副反応が出たのは10人もいました。 p. 6よりこの結果から，「副反応が出るのは4人に1人」というのが誇大広告ではないか検証してください。（よく行われる解釈） p. 12 𝑝 = 0.25 の場合， 20人中10人以上で副反応が出る確率は帰無仮説が間違っていた？【この検定の背後の仮定】「二項分布に従う」という仮定が間違っていた？およそ1.39% (𝑝 = 0.0139) • • 副反応は伝染らない（独立）ワクチンの全ロットでの発生率は同じ（無作為抽出） …などなど 10 統計的仮説検定の考え方（実際にありえるかもしれないこと） 23

https://www.biometrics.gr.jp/news/all/ASA.pdf

24.

２種類の誤り ▌ 検定結果と真実の組み合わせは4通り本当は帰無仮説帰無仮説が正しい帰無仮説が正しくない棄却された第1種の誤り(𝛼) 正しい判断棄却されなかった正しい判断第2種の誤り(𝛽) ▌ 第1種の誤りを犯す確率帰無仮説が正しいのに帰無仮説を棄却してしまう確率＝有意水準 ▌ 第2種の誤り「帰無仮説が正しくない」が真実であれば，きちんと帰無仮説を棄却してほしい表の右上の確率（1 − 𝛽）が高いほうが嬉しい検定力検出力 10 統計的仮説検定の考え方 24

25.

第２種の誤りと検定力 ▌帰無仮説の分布と対立仮説の分布を重ねてみると帰無仮説に基づく棄却域は 𝑋≥9 帰無仮説帰無仮説での確率と𝑝値 𝐵(20,0.25) 𝑋 𝑃(𝑋 = 𝑥) 𝑝 20 0.000 0.000 ︙ ︙ ︙ 12 0.001 0.001 11 0.003 0.004 10 0.010 0.014 9 0.027 0.041 8 0.061 0.102 ︙ ︙ ︙ 帰無仮説が正しくないのに棄却できない対立仮説 𝐵(20,0.5) 対立仮説 𝑝 > 0.25の片側検定を考えます対立仮説は 𝑝 > 0.25 ですがそのような 𝑝 の一つとしてここでは 𝑝 = 0.5 を考えます対立仮説が正しい場合 𝑃(𝑋 ≥ 9)は 0.05(𝛼)よりも大きいここの確率の和が第２種の誤り（𝛽） 10 統計的仮説検定の考え方検定力 25

26.

検定力が上がる条件①｜効果の大きさ ▌p. 25の図と比較 𝑝 = 0.5から帰無仮説に基づく棄却域は 𝑝 = 0.7に変更 𝑋 ≥ 9 帰無仮説対立仮説 𝐵(20,0.25) 𝐵(20,0.7) とはいえ差の大きさは母数によってすでに決まっていることなので我々にはどうしようもない話です帰無仮説が正しい場合の分布と実際の分布が大きく異なる場合検定力高い確率で標本統計量は棄却域に入る第２種の誤り（𝛽）帰無仮説を正しく棄却できる確率＝検定力が高くなるサンプルサイズ20のときの標本分布 10 統計的仮説検定の考え方 26

27.

検定力が上がる条件②｜サンプルサイズ ▌p. 25の図と比較検定力を上げるための実行可能な方法がこちらです帰無仮説に基づく棄却域は帰無仮説 𝑋 ≥ 19 対立仮説 𝐵(50,0.25) 𝐵(50,0.5) サンプルサイズが増えると分布の平均位置が変わらなくても分布の幅が狭くなる検定力棄却域の範囲が広くなり第２種の誤り（𝛽）帰無仮説を正しく棄却できる確率＝検定力が高くなる比率 𝑝 サンプルサイズを50に増やしたときの標本分布 𝑋 のスケールで考えると 𝑛 • サンプルサイズ20 (p. 25) での棄却域は[0.45, 1.0] • サンプルサイズ50 (このページ)での棄却域は[0.38, 1.0] 10 統計的仮説検定の考え方 27

28.

検定力の話から分かること ▌統計的仮説検定では２つの要素で結果が決まる帰無仮説と「真の状態」がどの程度乖離しているか検定力が上がる条件効果の大きさとサンプルサイズ検定力が上がる条件｜効果の大きさの図と比較の図と比較とはいえ差の大きさは母数によってすでに決まっていることなので帰無仮説に基づく棄却域は 9 帰無仮説対立仮説 (20,0.25) (20,0.7) ｜サンプルサイズ = 0.5から我々にはどうしようもない話です = 0.7に変更検定力を上げるための実行可能な方法がこちらです帰無仮説に基づく棄却域は 19 帰無仮説対立仮説 (50,0.25) (50,0.5) 帰無仮説が正しい場合の分布とサンプルサイズが増えると実際の分布が大きく異なる場合検定力高い確率で標本統計量は棄却域に入る検定力第２種の誤り（）第２種の誤り（）サンプルサイズ棄却域の範囲が広くなり帰無仮説を正しく棄却できる確率帰無仮説を正しく棄却できる確率＝検定力が高くなる＝検定力が高くなるのときの標本分布サンプルサイズをに増やしたときの標本分布統計的仮説検定の考え方統計的仮説検定の考え方効果が大きいほど有意になりやすいサンプルサイズが大きいほど有意になりやすい 10 統計的仮説検定の考え方 28

29.

サンプルサイズこそ正義…なのか？ ▌サンプルサイズをべらぼうに増やしてみる例とあるワクチンは「副反応が出るのは4人に1人」と宣伝しています。ですが10,000,000人に聞いた結果，副反応が出たのは2,503,000人もいました。この結果から，「副反応が出るのは4人に1人」というのが誇大広告ではないか検証してください。 ▌状況の整理副反応が出る確率は25%で試行回数10,000,000人期待値は2,500,000人なのに2,503,000人（25.03%）も副反応が出た 𝐵(10,000,000, 0.25) ▌統計的仮説検定片側検定の場合 100の倍数のみ図示棄却域は 𝑋 ≥ 2,502,253 0.03%も高いじゃないか！ 𝑝 = 0.25 が正しい場合 10,000,000人中2,503,000人以上で副反応が出る確率はおよそ1.43% 帰無仮説は棄却されました。 10 統計的仮説検定の考え方 29

30.

でもいいの？ホントにそれで？ ▌統計的仮説検定は確かに有意になりましたが…… 副反応の発生率は25%だと言っているが実際には25.03%じゃないか！統計的有意だぞ！！ワクチン接種を中止しろ！（0.03%なんて誤差だろうよ…） …と思うカエルであった。 ▌統計的仮説検定の限界副反応発生率は0.25以上である 𝑝 > 0.25 対立仮説現実にはどちらか一方だけが正しい副反応発生率は0.25である 𝑝 = 0.25 𝑝 がぴったり …でない限り対立仮説が正しいことになってしまう 10 統計的仮説検定の考え方帰無仮説連続変数の場合そんなことはありえない 30

31.

「有意」 ▌「統計的有意」と「実質的有意」（0.03%なんて誤差だろうよ…）ただしその差には実質的には意味がないというのもまた事実もちろん0.03%の差ですら実質的に意味があるといえるケースもあるでしょう例）難病の発症率，重大事故の発生率副反応の発生率は25%だと言っているが実際には25.03%じゃないか！統計的有意だぞ！！ワクチン接種を中止しろ！統計的仮説検定の理論に基づいて「統計的有意」であることは事実帰無仮説を棄却できるだけの証拠があるという意味サンプルサイズを増やしすぎると「実質的有意」でないのに「統計的有意」になる可能性が高まるこれも「𝑝値（仮説検定の結果）だけで短絡的に判断してしまうこと」の問題の一つです 10 統計的仮説検定の考え方 31

32.

（補足）じゃあ事前にサンプルサイズを決めておこう ▌検定力分析と呼ばれるプロセス実質的に意味のある差例とあるワクチンは「副反応が出るのは25%」と宣伝しています。ただ実質的には副反応発生率が30%を超えているとマズいことになります。副反応発生率が25%より高いかを統計的仮説検定するために，サンプルサイズはどの程度あれば十分でしょうか？副反応発生率が30%を超えているとマズいそのような場合はきちんと帰無仮説が棄却されるようにしたい実際の副反応発生率が30%のとき，検定力が0.8になるようにしよう 0.8はよく使われる値ですが，場合や目的によっては 0.9や0.85などにしても良いです。実質的に有意な差があるときにはきちんと検出できるだけの必要最低限のサンプルサイズだけ用意したい，ということですコスト削減にもなるね 10 統計的仮説検定の考え方 32

33.

（補足）じゃあ事前にサンプルサイズを決めておこう ▌検定力分析と呼ばれるプロセス実質的に意味のある差例とあるワクチンは「副反応が出るのは25%」と宣伝しています。ただ実質的には副反応発生率が30%を超えているとマズいことになります。副反応発生率が25%より高いかを統計的仮説検定するために，サンプルサイズはどの程度あれば十分でしょうか？棄却域 𝑋 ≥ 32 棄却域 𝑋 ≥ 130 対立仮説 𝐵(100, 0.3) 検定力 0.367 対立仮説 𝐵(460, 0.3) 棄却域 𝑋 ≥ 273 対立仮説 𝐵(1000, 0.3) 検定力 0.972 検定力 0.806 【𝑛 = 100のとき】【𝑛 = 460のとき】【𝑛 = 1000のとき】サンプルサイズが小さいと 30%のときにもあまり棄却できないこれくらいあれば十分サンプルサイズが大きいと 30%以下でも棄却しすぎてしまう 10 統計的仮説検定の考え方 33