2.2K Views
December 08, 23
スライド概要
神戸大学経営学部で2022年度より担当している「経営統計」の講義資料「08_標本分布」を公開用に調整したものです。
【更新履歴】
・2024/11/29:(p. 23) 自由度1のカイ二乗分布の図の誤りを修正しました,(pp. 34-44) 中心極限定理の証明はこちらにあるべきでした。
神戸大学経営学研究科准教授 分寺杏介(ぶんじ・きょうすけ)です。 主に心理学的な測定・教育測定に関する研究を行っています。 講義資料や学会発表のスライドを公開していきます。 ※スライドに誤りを見つけた方は,炎上させずにこっそりお伝えいただけると幸いです。
経営統計 08 標本分布 分寺 杏介 神戸大学 経営学部 [email protected] ※本スライドは,クリエイティブ・コモンズ 表示-非営利 4.0 国際 ライセンス(CC BY-NC 4.0)に従って利用が可能です。
前回のおさらい ▌確率分布を関数で表せたらだいぶ楽になってきた 今回はこの部分 例 母集団分布が 𝑁(𝜇, 𝜎 2 ) の場合 標本分布は 𝑁(? , ? ) になる ? 母集団分布 例 標本分布𝑁(? , ? )を生み出す母集団分布は 𝑁(𝜇, 𝜎 2 )と考えるのが最も妥当 母平均は 𝜇 と考えるのが妥当だろう! 08 標本分布 例 母集団分布に確率分布を仮定した場合 標本分布も確率分布になります 各標本の値と同じように標本統計量も 確率変数だということです 標本分布 私達が実際に 分かる範囲 標本平均 𝑥ҧ 標本平均 𝑥ҧ を生み落とした 標本分布は𝑁(? , ? )が最もしっくり来る 2
標本分布とは ▌標本統計量の確率分布です 「標本平均の標本分布」「標本分散の標本分布」 「標本相関係数の標本分布」といった使い方をします ▌標本分布をもとに母数の統計的推測を行います 母集団の平均値 を推測するときには「標本平均の標本分布」を使います 母集団の 分散 を推測するときには「標本分散の標本分布」を使います ▌具体的に標本分布はどんな分布になるのか? もちろん標本統計量によって異なります 08 標本分布 3
標本分布は無限さ ▌少なくとも 関数の種類 × 標本統計量の種類 だけ存在するような気がする 母集団分布が 関数の種類 標本統計量の種類 正規分布 二項分布 ポアソン分布 ︙ ガンマ分布 負の二項分布 ︙ 標本平均 標本分散 標本中央値 ︙ 標本最大値 標本相関係数 ︙ 実際には のときの の標本分布 • よく使う(関心がある)標本統計量は平均値と分散くらい • 標本平均と標本分散の標本分布には関数の種類によらない特徴がある まずは標本平均の標本分布を見てみましょう 08 標本分布 4
まずは直感的に ここから先では,しばらくの間母集団分布には正規分布を仮定します ▌サンプルサイズと標本平均の関係性を考えてみる 𝑁 170,82 ざっくり分割 全国の高校生の身長 平均値±10cmのところで 3つに分けてみる 08 標本分布 5
まずは直感的に ▌サンプルサイズと標本平均の関係性を考えてみる 1 𝑛 = 2のとき 選ばれる組み合わせの確率 1人目\2人目 Low Mid High Low 1.12% 8.33% 1.12% Mid 8.33% 62.20% 8.33% High 1.12% 8.33% 1.12% 𝑁 170,82 選ばれた2人で計算した標本平均 1人目\2人目 Low Mid High Low かなり低い やや低い 170くらい Mid やや低い 170くらい やや高い High 170くらい やや高い かなり高い 全国の高校生の身長 Lowの人とHighの人がいたら 打ち消し合って平均的なところ(170)付近に落ち着く 08 標本分布 6
まずは直感的に 選ばれた 人で計算した標本平均 人目\ 人目 ▌サンプルサイズと標本平均の関係性を考えてみる 1 全国の高校生の身長 𝑛 = 2のとき • 𝑁 170,82 かなり低い やや低い くらい やや低い くらい やや高い くらい やや高い かなり高い の人と の人がいたら 打ち消し合って平均的なところ( )付近に落ち着く 平均的には170付近の人が選ばれやすい 標本分布 • たまにすごく高い人・すごく低い人も選ばれる ただし,1人が高い値でももう1人が低い値ならば 標本平均は170くらいに落ち着いてくれる • 2人だけ選ぶと2人ともすごく低い可能性もありそう その場合標本平均も170よりすごく低くなる 全国の高校生の身長 標本平均の • 平均値は170くらいになりそうだ • でも170から大きく離れた値になる可能性もありそうだ 08 標本分布 7
まずは直感的に ▌サンプルサイズと標本平均の関係性を考えてみる 2 𝑛 = 100のとき 100人の表は作れないので Highの人数 𝑁 170,82 Lowの人数 ー の発生確率を出してみました (右に行くほど標本平均も大きい) 全国の高校生の身長 の そもそもMidの出現確率が高い上に LowとHighが相殺されることが増えるため 08 標本分布 100人の場合,High-Lowの 人数差は高確率で10人以内 8
まずは直感的に ▌サンプルサイズと標本平均の関係性を考えてみる 2 𝑛 = 100のとき の • 平均的には170付近の人が選ばれやすい 𝑁 170,82 • たまにすごく高い人やすごく低い人も選ばれる ただし,1人が高い値でももう1人が低い値ならば 標本平均は170くらいに落ち着いてくれる • 100人もいると高い/低い人ばかりの可能性はほぼゼロ 打ち消し合った結果,標本平均は170周辺に 落ち着く可能性が高くなっている 全国の高校生の身長 標本平均の • 平均値は170くらいになりそうだ • 170から大きく離れた値になる可能性は先程より低そう 08 標本分布 9
実際にデータを出して見てみる 1 2人選ぶ 平均値の計算 を10万回繰り返してみる 𝑛 = 2のとき 𝑁 170,82 1人目 2人目 平均値 162.8 165.6 164.2 171.7 171.3 171.5 164.2 173.4 168.8 ︙ ︙ 186.8 全国の高校生の身長 10万個の標本平均 ヒストグラムを描くと ︙ ︙ 167.7 177.2 標本平均が最小になった回では 2人の値が(154.2, 140.2)となりました 標本平均 標本平均の • 平均値は170くらいになりそうだ • でも170から大きく離れた値になる可能性もありそうだ 08 標本分布 10
実際にデータを出して見てみる 2 100人選ぶ 平均値の計算 を10万回繰り返してみる 𝑛 = 100のとき 𝑁 170,82 1人目 … 100人目 平均値 162.8 … 183.4 168.9 171.7 … 162.7 169.4 164.2 … 177.5 170.3 ︙ ︙ 186.8 全国の高校生の身長 … 10万個の標本平均 ヒストグラムを描くと ︙ ︙ 161.4 169.0 標本平均は最小でも166.7でした 標本平均 標本平均の • 平均値は170くらいになりそうだ • 170から大きく離れた値になる可能性は先程より低そう 08 標本分布 11
最後に理論的な結論を 母集団分布が ▌ここまでで感じられたこと 標本平均の標本分布の平均値は,母平均と同じ値っぽい 関数の種類 標本統計量の種類 正規分布 二項分布 ポアソン分布 ︙ ガンマ分布 負の二項分布 ︙ 標本平均 標本分散 標本中央値 ︙ 標本最大値 標本相関係数 ︙ 実際には のときの の標本分布 よく使う(関心がある)標本統計量は平均値と分散くらい 標本平均と標本分散の標本分布には関数の種類によらない特徴がある まずは標本平均の標本分布を見てみましょう 標本平均の標本分布の分散は,サンプルサイズが大きくなるほど小さいっぽい 標本分布 ▌実際にそうなのです …ということがすでに判明しています 母集団分布が正規分布 𝑁 𝜇, 𝜎 2 であるとき 標本平均の標本分布は正規分布 𝑁 前ページまでの例では 母集団分布が 𝑁(170, 82 ) だったので… 1 𝑛 = 2のとき 2 𝑛 = 100のとき 08 標本分布 𝜎2 𝜇, 𝑛 になる 標本分布は 𝑁 82 170, 2 ≃ 𝑁 170, 5.662 標本分布は 𝑁 82 170, 100 ≃ 𝑁 170, 0.82 12
標準誤差 母集団分布が正規分布 𝑁 𝜇, 𝜎 2 であるとき 標本平均の標本分布は正規分布 𝑁 𝜎2 𝜇, 𝑛 になる 𝜎 standard error (SE) 𝑛 標本分布の標準偏差のことを 標準誤 と呼ぶ 1 𝑛 が小さいと 標本平均 2 𝑛 が大きいと サンプリングを繰り返す度に 標本平均が変動しまくる サンプリングを繰り返しても 標本平均はあまり変動しない 標本平均を使って母平均を推測しても その結果は変動しまくる(=誤差) 標本平均を使って母平均を推測しても 安定した結果が得られる 標本平均 誤差は小さい方がいい サンプルサイズが大きいほど推測の確信度が上がる 08 標本分布 13
正規分布以外では? 母集団分布が 17ページまでは母集団分布が正規分布の場合の話でした。 ▌では,母集団分布が正規分布ではなかったら? 関数の種類 標本統計量の種類 正規分布 二項分布 ポアソン分布 ︙ ガンマ分布 負の二項分布 ︙ 標本平均 標本分散 標本中央値 ︙ 標本最大値 標本相関係数 ︙ 実際には のときの よく使う(関心がある)標本統計量は平均値と分散くらい 標本平均と標本分散の標本分布には関数の種類によらない特徴がある まずは標本平均の標本分布を見てみましょう 例 当たり確率 5% の10連ガチャを引いたときの当たり回数の平均値の標本分布 標本分布 母集団分布 ① 10連ガチャを3回引いたときの平均あたり回 𝐵(0.05, 10) 平均値:10 × 0.05 = 0.5 ここから17ページまでのヒストグラムは 「10連ガチャを○回引く」をそれぞれ10万回繰り返して 当たり回数の平均値を10万回計算した結果です 分散:10 × 0.05 × 0.95 = 0.475 標本平均 なかなか当たらんよね… 母平均(0.5)付近が多いけどばらついている 08 標本分布 の標本分布 14
正規分布以外では? 母集団分布が 17ページまでは母集団分布が正規分布の場合の話でした。 ▌では,母集団分布が正規分布ではなかったら? 関数の種類 標本統計量の種類 正規分布 二項分布 ポアソン分布 ︙ ガンマ分布 負の二項分布 ︙ 標本平均 標本分散 標本中央値 ︙ 標本最大値 標本相関係数 ︙ 実際には のときの よく使う(関心がある)標本統計量は平均値と分散くらい 標本平均と標本分散の標本分布には関数の種類によらない特徴がある まずは標本平均の標本分布を見てみましょう 例 当たり確率 5% の10連ガチャを引いたときの当たり回数の平均値の標本分布 標本分布 母集団分布 ② 10連ガチャを10回引いたときの平均あたり回 𝐵(0.05, 10) 平均値:10 × 0.05 = 0.5 分散:10 × 0.05 × 0.95 = 0.475 標本平均 なかなか当たらんよね… さっきよりばらつきは小さくなった気がする 08 標本分布 の標本分布 15
正規分布以外では? 母集団分布が 17ページまでは母集団分布が正規分布の場合の話でした。 ▌では,母集団分布が正規分布ではなかったら? 関数の種類 標本統計量の種類 正規分布 二項分布 ポアソン分布 ︙ ガンマ分布 負の二項分布 ︙ 標本平均 標本分散 標本中央値 ︙ 標本最大値 標本相関係数 ︙ 実際には のときの よく使う(関心がある)標本統計量は平均値と分散くらい 標本平均と標本分散の標本分布には関数の種類によらない特徴がある まずは標本平均の標本分布を見てみましょう 例 当たり確率 5% の10連ガチャを引いたときの当たり回数の平均値の標本分布 標本分布 母集団分布 ③ 10連ガチャを100回引いたときの平均あたり回 𝐵(0.05, 10) 平均値:10 × 0.05 = 0.5 分散:10 × 0.05 × 0.95 = 0.475 標本平均 なかなか当たらんよね… 相当母平均(0.5)周辺に集まっている 08 標本分布 の標本分布 16
正規分布以外では? 母集団分布が 17ページまでは母集団分布が正規分布の場合の話でした。 ▌では,母集団分布が正規分布ではなかったら? 関数の種類 標本統計量の種類 正規分布 二項分布 ポアソン分布 ︙ ガンマ分布 負の二項分布 ︙ 標本平均 標本分散 標本中央値 ︙ 標本最大値 標本相関係数 ︙ 実際には のときの よく使う(関心がある)標本統計量は平均値と分散くらい 標本平均と標本分散の標本分布には関数の種類によらない特徴がある まずは標本平均の標本分布を見てみましょう 例 当たり確率 5% の10連ガチャを引いたときの当たり回数の平均値の標本分布 標本分布 母集団分布 ④ 10連ガチャを10000回引いたときの平均あたり回 𝐵(0.05, 10) 平均値:10 × 0.05 = 0.5 分散:10 × 0.05 × 0.95 = 0.475 標本平均 なかなか当たらんよね… もう母平均(0.5)といっても過言ではない 08 標本分布 の標本分布 17
拡大して見てみると ④ 10連ガチャを10000回引いたときの平均あたり回 見事に正規分布 0.47から0.53 の部分だけ 拡大すると 標本平均 【わかったこと】 標本平均 • 二項分布でも,サンプルサイズが大きくなると 標本平均はほぼ母平均に一致する • 二項分布でも,サンプルサイズが大きくなると 標本平均の標本分布は正規分布になる そういえば,p. 8に出てきた棒グラフも正規分布っぽかったなぁ… 08 標本分布 身長 Low Mid High 𝑥 -1 0 1 𝑃(𝑋 = 𝑥) 0.106 0.789 0.106 𝑛 = 100 の 18
理論的には… law of large numbers 大 central limit theorem の法則 中心極限定理 母集団分布が正規分布でなくても何であっても 母集団分布が正規分布でなくても何であっても 母集団分布の平均を𝜇で表すと 母集団分布の平均を𝜇,分散を𝜎 2 で表すと サンプルサイズが大きくなるほど サンプルサイズが十分に大きいと 標本平均はどんどん母平均 𝜇 に収束していく 標本平均の標本分布は ※厳密には「期待値が定義できるとき常に成り立つ」法則 正規分布 𝑁 𝜎2 𝜇, に近づいていく 𝑛 ※厳密には「期待値と分散が定義できるとき常に成り立つ」定理 例 当たり確率 5% の10連ガチャを 𝑛 回引いたときの当たり回数の標本平均の標本分布 母集団分布が 𝐵(0.05, 10) ということは 平均0.5,分散0.475となるため 10連ガチャを 𝑛 回引いたときの当たり回数の標本平均の標本分布は 𝑁 0.5, 08 標本分布 0.475 𝑛 となる 19
標本平均に関する推測|母集団分布が正規分布の場合 ▌理論的な結果を当てはめたら 母集団分布が 𝑁(𝜇, 𝜎 2 ) の場合 標本分布は 𝑁 𝜎2 𝜇, 𝑛 になる 私達が実際に 分かる範囲 標本分布 母集団分布 標本平均 𝑥ҧ 𝜎2 標本分布𝑁 𝑥,ҧ を生み出す母集団分布は 𝑛 𝑁(𝑥,ҧ 𝜎 2 )と考えるのが最も妥当 母平均は 𝑥ҧ と考えるのが妥当だろう! 08 標本分布 標本平均 𝑥ҧ を生み落とした 標本分布は𝑁 𝜎2 𝜇 = 𝑥,ҧ 𝑛 が最もしっくり来る 𝜎 2 がすでに分かっているとしたら 20
標本平均に関する推測|正規分布以外でも ▌更にいうと 母集団分布が平均𝜇,分散𝜎 2 の場合 標本分布は 𝑁 𝜎2 𝜇, 𝑛 母集団が正規分布じゃなくても になる 私達が実際に 分かる範囲 標本分布 母集団分布 標本平均 𝑥ҧ 𝜎2 𝑥,ҧ 𝑛 標本分布𝑁 を生み出す母集団分布は 形はともかく母平均は 𝑥ҧ と考えるのが妥当だろう! 標本平均 𝑥ҧ を生み落とした 標本分布は𝑁 𝜎2 𝜇 = 𝑥,ҧ 𝑛 が最もしっくり来る 𝜎 2 がすでに分かっているとしたら 母集団が正規分布じゃなくても 08 標本分布 21
続いて標本分散の標本分布 母集団分布が ▌まずは母集団に正規分布を仮定した場合 関数の種類 標本統計量の種類 正規分布 二項分布 ポアソン分布 ︙ ガンマ分布 負の二項分布 ︙ 標本平均 標本分散 標本中央値 ︙ 標本最大値 標本相関係数 ︙ 実際には 𝑋 ∼ 𝑁(𝜇, 𝜎 2 ) 確率変数 𝑋 は平均 𝜇 分散 𝜎 2 の正規分布に従う,という意味です のときの よく使う(関心がある)標本統計量は平均値と分散くらい 標本平均と標本分散の標本分布には関数の種類によらない特徴がある まずは標本平均の標本分布を見てみましょう 標本分布 標準化 𝑋−𝜇 𝑍= ∼ 𝑁(0,1) 𝜎 ここからは,標準化後(𝑍)の分散の標本分布を考えます ※ もとに戻す場合は得られた確率分布を 𝜎 2 倍したら良いので ▌標準化された変数の分散はシンプル 𝑛 1 標本分散は 𝑠𝑥 = 𝑥 − 𝑥ҧ 2 𝑛 𝑖=1 𝑛 1 𝑍 の標本分散は 𝑠𝑧 = 𝑧 2 で求められる 𝑛 𝑖=1 単純に二乗和を取れば良い ここで, 𝑧 2 の和の確率分布を紹介します ※ 得られた確率分布を 𝑛 で割れば 𝑠𝑧 の確率分布になるので 08 標本分布 の標本分布 22
カイ二乗分布|chi-square distribution ▌標準正規分布に従う独立な確率変数の二乗の和の確率分布 𝑘 𝑥 1 −1 −2 2 𝑓 𝑋 = 𝑥 = 𝑘/2 𝑥 𝑒 2 Γ 𝑘/2 関数 パラメータ 𝑘 何個の和か あるいは自由度 (degree of freedom) 略記 𝜒 2 (𝑘) または 𝜒𝑘2 平均値 𝑘 分散 2𝑘 𝜒 2 (1) 𝑛 1 𝑍 の標本分散は 𝑧ҧ = 𝑧 2 𝑛 𝑖=1 𝑘 カイ二乗分布は 𝑧 2 の確率分布 𝑖=1 和なので 𝑘 が大きいほど分布は右に 𝜒 2 (3) 08 標本分布 𝜒 2 (10) 23
自由度? 自由度(じゆうど,英語: degree of freedom)とは,一般に,変数のうち独立に選べるものの数,すなわち, 全変数の数から,それら相互間に成り立つ関係式(束縛条件,拘束条件)の数を引いたものである。 数学的に言えば,多様体の次元である。 Wikipediaより ▌基本的には自由度=サンプルサイズ 例|2人の身長のデータの自由度 2人目 𝑥2 1人目と2人目は全く関係ないので,自由度は2 どこでも良い 2次元 1人目の身長 𝑥1 ▌統計量を考えるときには自由度がいくつか減ることも 例|身長の平均値が170cmのときの2人の身長のデータの自由度 1人目の値によって2人目が決まってしまうので自由度は1 2人目 𝑥2 𝑥1 + 𝑥2 = 170 2 の直線上 1次元 1人目の身長 𝑥1 08 標本分布 24
標本分散の標本分布 ▌ポイントは「標準化」しているという点 標本を標準化する場合,標本平均 𝑥ҧ を使って標準化する 𝑧 = 𝑥−𝑥ҧ 𝜎 𝑧 2 の和を考える場合,標準化している時点で標本平均は固定される 𝑧 は 𝑥ҧ に関して標準化されたもの 𝑥ҧ が変われば 𝑧 も変わるため ▌標本における 𝑧 2 の和 標本平均が 𝑥ҧ ならば 𝑥𝑛 = 𝑛𝑥ҧ − (𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛−1 ) でないといけない 自由度は 𝑛 − 1 になる 𝑧 2 の和 ∼ 𝜒 2 (𝑛 − 1) ▼ まとめると 母集団分布が正規分布 𝑁 𝜇, 𝜎 であるとき 標準化した標本の二乗の和の標本分布は 自由度 𝑛 − 1 のカイ二乗分布 𝜒 2 (𝑛 − 1) になる 2 08 標本分布 1 𝑧 の分散 ∼ 𝑛 𝜒 2 (𝑛 − 1) ▼ 𝜎2 2 𝑥 の分散 ∼ 𝑛 𝜒 (𝑛 − 1) 25
(補足)標本分散の標本分布とサンプルサイズ ▌標本分散に関してもサンプルサイズが大きいほど標準誤差は小さい 𝜎2 2 標本分散の標本分布は 𝜒 (𝑛 − 1) 𝑛 𝑛 が大きくなるほど 標準誤差は小さくなる 𝜒 (𝑛 − 1) の分散は 2(𝑛 − 1) なので 2 𝜎2 2 𝜎4 𝜒 (𝑛 − 1) の分散は 𝑛2 2 𝑛 − 1 𝑛 = 𝑛−1 × 2𝜎 4 2 𝑛 標準誤差は 𝑛−1 4 × 2𝜎 𝑛2 【𝜎 2 = 8 のとき】 𝑛 = 10 𝑛 = 100 𝑛 = 1000 標準誤差3.39 標準誤差1.13 標準誤差0.36 標本分散 標本分散 標本分散 08 標本分布 26
もう少し一般化してみる 母集団分布が ▌母集団分布が正規分布ではない場合は? ※スライドpp. 14-17と同じようにシミュレーションしてみる 関数の種類 標本統計量の種類 正規分布 二項分布 ポアソン分布 ︙ ガンマ分布 負の二項分布 ︙ 標本平均 標本分散 標本中央値 ︙ 標本最大値 標本相関係数 ︙ 実際には のときの よく使う(関心がある)標本統計量は平均値と分散くらい 標本平均と標本分散の標本分布には関数の種類によらない特徴がある まずは標本平均の標本分布を見てみましょう 例 当たり確率 5% の10連ガチャを引いたときの当たり回数の分散の標本分布 母集団分布 ① 10連ガチャを3回引いたときのあたり回 標本分布 の分散 標本分散の平均=0.317 𝐵(0.05, 10) 平均値:10 × 0.05 = 0.5 ここから30ページまでのヒストグラムは 「10連ガチャを○回引く」をそれぞれ10万回繰り返して 当たり回数の分散を10万回計算した結果です 分散:10 × 0.05 × 0.95 = 0.475 標本分散 母分散(0.475)よりちょっと小さいのが多い? 08 標本分布 の標本分布 27
もう少し一般化してみる 母集団分布が ▌母集団分布が正規分布ではない場合は? ※スライドpp. 14-17と同じようにシミュレーションしてみる 関数の種類 標本統計量の種類 正規分布 二項分布 ポアソン分布 ︙ ガンマ分布 負の二項分布 ︙ 標本平均 標本分散 標本中央値 ︙ 標本最大値 標本相関係数 ︙ 実際には のときの よく使う(関心がある)標本統計量は平均値と分散くらい 標本平均と標本分散の標本分布には関数の種類によらない特徴がある まずは標本平均の標本分布を見てみましょう 例 当たり確率 5% の10連ガチャを引いたときの当たり回数の分散の標本分布 母集団分布 標本分布 ② 10連ガチャを10回引いたときのあたり回 の分散 標本分散の平均=0.426 𝐵(0.05, 10) 平均値:10 × 0.05 = 0.5 分散:10 × 0.05 × 0.95 = 0.475 標本分散 やっぱり母分散(0.475)よりちょっと小さい? 08 標本分布 の標本分布 28
もう少し一般化してみる 母集団分布が ▌母集団分布が正規分布ではない場合は? ※スライドpp. 14-17と同じようにシミュレーションしてみる 関数の種類 標本統計量の種類 正規分布 二項分布 ポアソン分布 ︙ ガンマ分布 負の二項分布 ︙ 標本平均 標本分散 標本中央値 ︙ 標本最大値 標本相関係数 ︙ 実際には のときの よく使う(関心がある)標本統計量は平均値と分散くらい 標本平均と標本分散の標本分布には関数の種類によらない特徴がある まずは標本平均の標本分布を見てみましょう 例 当たり確率 5% の10連ガチャを引いたときの当たり回数の分散の標本分布 母集団分布 標本分布 ③ 10連ガチャを100回引いたときのあたり回 の分散 標本分散の平均=0.470 𝐵(0.05, 10) 平均値:10 × 0.05 = 0.5 分散:10 × 0.05 × 0.95 = 0.475 標本分散 母分散(0.475)に近づいてきたけどまだ小さい? 08 標本分布 の標本分布 29
もう少し一般化してみる 母集団分布が ▌母集団分布が正規分布ではない場合は? ※スライドpp. 14-17と同じようにシミュレーションしてみる 関数の種類 標本統計量の種類 正規分布 二項分布 ポアソン分布 ︙ ガンマ分布 負の二項分布 ︙ 標本平均 標本分散 標本中央値 ︙ 標本最大値 標本相関係数 ︙ 実際には のときの の標本分布 よく使う(関心がある)標本統計量は平均値と分散くらい 標本平均と標本分散の標本分布には関数の種類によらない特徴がある まずは標本平均の標本分布を見てみましょう 例 当たり確率 5% の10連ガチャを引いたときの当たり回数の分散の標本分布 母集団分布 標本分布 ④ 10連ガチャを10000回引いたときのあたり回 の分散 標本分散の平均=0.475 𝐵(0.05, 10) 平均値:10 × 0.05 = 0.5 分散:10 × 0.05 × 0.95 = 0.475 標本分散 ここまで来たらさすがに母分散(0.475)付近 08 標本分布 30
2 の和を考える場合, 標準化している時点で標本平均は固定される 理論的には 標本における 2 の和 ▌中心極限定理みたいなものはないですが… 標本平均が ならば = ( + + + 1 母集団分布が 標本平均 は に関して標準化されたもの 標本分散 標本中央値 が変われば も変わるため のときの の標本分布 正規分布 二項分布 ポアソン分布 ︙ ガンマ分布 負の二項分布 ︙ まずは標本平均の標本分布を見てみましょう 具体的に何分布になるかは 母集団によって変わるが 2 カイ二乗分布| ▌もちろん母集団分布が正規分布のときも 2 1 ( 1) 標本分散の標本分布は 𝑛 よく使う(関心がある)標本統計量は平均値と分散くらい 標本平均と標本分散の標本分布には関数の種類によらない特徴がある 実際には まとめると 𝑛−1 2 標本分散の標本分布の期待値は 2 𝜎 となる , 𝑛 ちょっとだけ小さい 𝜎2 ︙ 標本最大値 標本相関係数 ︙ 1 ) でないといけない 2 母集団分布が正規分布でなくても何であっても 自由度は 1 になる 母集団分布の分散を𝜎 2 で表すと 標本統計量の種類 関数の種類 の和 標本分布 の分散 1 の分散 2 2 ( 2 1) ( 1) 2 ( 1) 2 1 2 標準正規分布に従う独立な確率変数の二乗の和の 𝜒 2 (𝑛 − 1) 標本分布 𝜒 2 (𝑛 − 1) の期待値は 𝑛 − 1 なので 関数 = 略記 2( 2 /2 /2 ) または 2 2 2 (1) の カイ 平均値 分散 08 標本分布 1 何個の和か あるいは自由度 パラメータ 𝑛−1 2 𝜎2 2 𝜒 (𝑛 − 1) の期待値はやはり 𝜎 𝑛 𝑛 = 2 (3) 31
標本分散に関する推測 ▌理論的な結果を当てはめたら 母集団分布が平均𝜇,分散𝜎 2 の場合の標本分布は 母集団が正規分布じゃなくても 𝑛−1 2 形はともかく期待値が 𝜎 になる 𝑛 標本分布 母集団分布 形は母集団分布による 𝑛−1 2 とにかく期待値が 𝜎 𝑛 私達が実際に 分かる範囲 標本分散 𝑠𝑥2 標本分散 期待値が𝑠𝑥2 になる標本分布を生み出す母集団分布は 𝑛 形はともかく母分散は 𝑠𝑥2 と考えるのが妥当だろう! 標本分散 𝑠𝑥2 を生み落とした 標本分布の期待値は当然 𝑠𝑥2 が最もしっくり来る 𝑛−1 上の青い部分の逆数 08 標本分布 32
標本分散に関する推測 ▌母集団分布が正規分布だったら 母集団分布が 𝑁(𝜇, 𝜎 2 ) の場合 𝜎2 2 標本分布は 𝜒 (𝑛 − 1) になる 𝑛 正確には 標準化した値の和の標本分布が𝜒 2 (𝑛 − 1) 標本分布 母集団分布 私達が実際に 分かる範囲 標本分散 𝑠𝑥2 標本分散 𝑠𝑥2 標本分布 𝜒 2 (𝑛 − 1)を生み出す母集団分布は 𝑛−1 𝑛 𝑁 𝑥,ҧ 𝑠𝑥2 と考えるのが最も妥当 𝑛−1 𝑛 母分散は 𝑠𝑥2 と考えるのが妥当だろう! 𝑛−1 08 標本分布 標本分散 𝑠𝑥2 を生み落とした 𝑠𝑥2 標本分布は 𝜒 2 (𝑛 − 1)が最もしっくり来る 𝑛−1 𝜎 2 のところに 𝑛 𝑠𝑥2 を代入したもの 𝑛−1 詳細は次回! 33
中心極限定理の証明 補足資料 08 標本分布 34
(前提知識)母関数 以後,関数𝑓(𝑥)を𝑛回微分したものを 𝑓 𝑛 𝑥 と表します。 generating function ▌母関数(生成関数) 数列のすべての項を生み出せることから 「母」関数と呼ばれているようです 数列の情報をすべて含む関数 数列 𝒂 = 𝑎1 , 𝑎2 , ⋯ , 𝑎𝑘 , ⋯ の(通常型)母関数は 【使い方の一例】 母関数が分かれば一般項 𝑎𝑛 を簡単に求められる ∞ 𝑓 𝑥 = 𝑎𝑘 𝑥 𝑘 やりかた 𝑘=0 母関数を𝑛回微分して𝑥 = 0を置いたものを𝑛! で割るだけ 例 数列 𝒂 = 𝑎1, 𝑎2, ⋯ , 𝑎𝑘 , ⋯ = {1,2,∞⋯ , 𝑘, ⋯ } の(通常型)母関数は 𝑓𝑛 0 𝑎𝑛 = 𝑛! 𝑓 𝑥 = 𝑘𝑥 𝑘 = 𝑥 + 2𝑥 2 + 3𝑥 3 + ⋯ + 𝑘𝑥 𝑘 + ⋯ 𝑘=0 例えば3回微分すると𝑓 (3) 𝑥 𝑓3 0 = 3 ⋅ 3! + (𝑥の含まれる項)となるため,確かに 𝑎3 = 3! =3 とりあえず「なにかの列をすべて生み出せるもの」が母関数だと思ってください ポイント 母関数と数列は一対一対応 08 標本分布 ∞ ∞ 𝑎𝑘 𝑥 𝑘 = 𝑏𝑘 𝑥 𝑘 ⟺ 𝒂 = 𝒃 𝑘=0 𝑘=0 35
(前提知識)モーメント母関数 資料02 pp. 37-39 moment-generating function モーメント=「ある点からの偏差」に関する量 ▌モーメント(積率)母関数 モーメントの情報をすべて含む関数 確率分布𝑓(𝑋 = 𝑥)のモーメント母関数は 【使い方の一例】 𝑛 次のモーメントを簡単に求められる ∞ 𝑀𝑋 𝑡 = 𝐸 𝑒 𝑡𝑋 = つまり𝑒 の期待値 𝑡𝑋 න 𝑒 𝑡𝑥 𝑓 𝑥 𝑑𝑥 やりかた 𝑥=−∞ 𝑡について𝑛回微分して𝑡 = 0を代入するだけ 離散型の場合は和に変わるだけ (𝑛) 𝐸(𝑋 𝑡 ) = 𝑀𝑋 例 正規分布のモーメント母関数は𝑀𝑋 𝑡 = exp 𝜇𝑡 + 1 𝜎 2𝑡 2 0 計算は次ページ 2 1 ちなみに分散は (1) 𝑡 = 𝜇 + 𝜎 2 𝑡 exp 𝜇𝑡 + 2 𝜎 2 𝑡 2 となるため𝑀𝑋 (2) 𝑡 = 𝜎 2 + 𝜇 + 𝜎 2 𝑡 2 exp 𝜇𝑡 + 2 𝜎 2 𝑡 2 となり, 𝑀𝑋 𝑡について1回微分すると𝑀𝑋 𝑡について2回微分すると𝑀𝑋 (1) 1 0 =𝜇 (2) (2) 𝑀𝑋 𝑡 − 𝑀𝑋1 𝑡 0 = 𝜎 2 + 𝜇2 とりあえず「すべてのモーメントを生み出せるもの」だと思ってください ポイント モーメント母関数と確率分布は一対一対応 08 標本分布 平均・分散を始め全てのモーメントが一致するので 36 𝟐
(補足)正規分布のモーメント母関数の導出 モーメント母関数 正規分布の確率密度関数 ∞ 𝑀𝑋 𝑡 = 𝐸 𝑒 𝑡𝑋 = න 𝑒 𝑡𝑥 𝑓 𝑥 𝑑𝑥 𝑥−𝜇 2 𝑓 𝑥 = exp − 2𝜎 2 2𝜋𝜎 2 1 に 𝑥=−∞ ∞ 𝑀𝑋 𝑡 = න exp 𝑡𝑥 𝑥=−∞ ∞ = න 𝑥=−∞ 𝑥−𝜇 2 exp − 𝑑𝑥 2 2 2𝜎 2𝜋𝜎 1 𝑥−𝜇 2 exp 𝑡𝑥 − 𝑑𝑥 2 2 2𝜎 2𝜋𝜎 1 を代入 𝑒 𝑡𝑥 と exp(𝑡𝑥) は同じです exp(𝑎) exp 𝑏 = 𝑒 𝑎 𝑒 𝑏 = exp(𝑎 + 𝑏) 𝑥について平方完成させると − 1 1 2 𝑡𝑥 + 𝑥 2 − 2𝜇𝑥 + 𝜇 2 = − −2𝜎 𝑥 2 − 2 𝜇 + 𝜎 2 𝑡 𝑥 + 𝜇2 2 2 2𝜎 2𝜎 1 = − 2 𝑥 2 − 2 𝜇 + 𝜎 2 𝑡 + 𝜇 + 𝜎 2 𝑡 2 − 2𝜇𝜎 2 𝑡 − 𝜎 2 𝑡 2 2𝜎 1 1 = − 2 𝑥 − 𝜇 + 𝜎 2 𝑡 2 + 𝜇𝑡 + 𝜎 2 𝑡 2 2𝜎 2 08 標本分布 37
(補足)正規分布のモーメント母関数の導出(続き) ∞ 𝑀𝑋 𝑡 = න 𝑥=−∞ ∞ = න 𝑥=−∞ 𝑥−𝜇 2 exp 𝑡𝑥 − 𝑑𝑥 2 2 2𝜎 2𝜋𝜎 1 1 2𝜋𝜎 2 exp − 1 = exp 𝜇𝑡 + 𝜎 2 𝑡 2 2 1 𝑥 − 𝜇 + 𝜎 2𝑡 2 2𝜎 ∞ න 𝑥=−∞ 2 1 + 𝜇𝑡 + 𝜎 2 𝑡 2 2 𝑥 − 𝜇 + 𝜎 2𝑡 exp − 2 2𝜎 2 2𝜋𝜎 1 𝑑𝑥 前ページの平方完成を反映させる 2 積分と無関係な項を前に出す 𝑑𝑥 正規分布𝑁(𝜇 + 𝜎 2 𝑡, 𝜎 2 )の 確率密度関数 正規分布𝑁(𝜇, 𝜎 2 )の確率密度関数 𝑥−𝜇 2 𝑓 𝑥 = exp − 2 2𝜎 2 2𝜋𝜎 1 正規分布の全領域の面積なので1になる 正規分布 𝑁(𝜇, 𝜎 2 )のモーメント母関数は 1 𝑀𝑋 𝑡 = exp 𝜇𝑡 + 𝜎 2 𝑡 2 2 08 標本分布 38
(補足)正規分布のモーメント母関数の微分 1 正規分布のモーメント母関数は𝑀𝑋 𝑡 = exp 𝜇𝑡 + 2 𝜎 2 𝑡 2 ▌ 1回微分する 𝑒の微分のルール • 𝑒 𝑥 を微分すると 𝑒 𝑥 合成関数の微分 1 2 2 𝑀𝑋 𝑡 = exp 𝜇𝑡 + 𝜎 𝑡 2 1 𝜇𝑡 + 𝜎 2 𝑡 2 = 𝑢とおくと, 𝑀𝑋 𝑡 = exp 𝑢 2 これを微分すると 𝑑𝑢 1 (1) 𝑀𝑋 𝑡 = exp 𝑢 = (𝜇 + 𝜎 2 𝑡) exp 𝜇𝑡 + 𝜎 2 𝑡 2 𝑑𝑡 2 ▌ 2回微分する (1) 𝑀𝑋 𝑡 = (𝜇 + 𝜎 2 𝑡) exp 𝑢 𝑓 𝑥 = 𝜇 + 𝜎 2 𝑡, 𝑔 𝑥 = exp 𝑢 としてこれを微分すると (2) 𝑀𝑋 𝑡 = 𝑓 (1) 𝑥 𝑔 𝑥 + 𝑓 𝑥 𝑔(1) (𝑥) = 𝜇 + 𝜎 2 𝑡 (1) exp 𝑢 + 𝜇 + 𝜎 2 𝑡 exp 𝑢 (1) = 𝜎 2 exp 𝑢 + 𝜇 + 𝜎 2 𝑡 2 exp 𝑢 1 2 2 2 2 2 = 𝜎 + 𝜇 + 𝜎 𝑡 exp 𝜇𝑡 + 𝜎 𝑡 2 08 標本分布 関数 𝑓(𝑥) を 𝑥 について微分したいとき 𝑓(𝑥)の一部を 𝑢 とおくことで 𝑑𝑓(𝑥) 𝑑𝑓(𝑥) 𝑑𝑢 𝑓1 𝑥 = = 𝑥 𝑑𝑢 𝑑𝑥 と分解して微分をラクにできる(かも) 積の微分 2つの関数の積𝑓 𝑥 𝑔(𝑥)の微分は 𝑓 (1) 𝑥 𝑔 𝑥 + 𝑓 𝑥 𝑔(1) (𝑥) で求められる 39
(前提知識)特性関数 characteristic function ∞ 実数の範囲内で=𝑥−∞ 𝑒 𝑡𝑥 𝑓 𝑥 𝑑𝑥の積分が収束しないことがあり その場合モーメント母関数は存在しないことになってしまいます ▌特性関数 モーメント母関数の一般化 確率分布𝑓(𝑋 = 𝑥)の特性関数は 【使い方の一例】 𝑛 次のモーメントを簡単に求められる ∞ 𝜑𝑋 𝑡 = 𝐸 𝑒 𝑖𝑡𝑋 = つまり𝑒 𝑖𝑡𝑋 の期待値 න 𝑒 𝑖𝑡𝑥 𝑓 𝑥 𝑑𝑥 やりかた 𝑥=−∞ 𝑡について𝑛回微分して𝑡 = 0を代入して𝑖 𝑛 で割るだけ 離散型の場合は和に変わるだけ 例 正規分布の特性関数は𝜑𝑋 𝑡 = exp 𝜇𝑖𝑡 − 1 𝜎 2𝑡 2 2 𝑛 𝜑 0 𝐸(𝑋 𝑡 ) = 𝑋 𝑛 𝑖 モーメント母関数がある場合は 𝑡 を 𝑖𝑡 に置き換えるだけ 1 (1) 𝑡 = 𝜇𝑖 − 𝜎 2 𝑡 exp 𝜇𝑖𝑡 − 2 𝜎 2 𝑡 2 となるため𝜑𝑋 (2) 𝑡 = 𝜎 2 − 𝜇𝑖 − 𝜎 2 𝑡 2 exp 𝜇𝑖𝑡 − 2 𝜎 2 𝑡 2 となり, 𝜑𝑋 𝑡について1回微分すると𝜑𝑋 𝑡について2回微分すると𝜑𝑋 (1) 1 0 =𝜇 (2) ちなみに分散は (2) 𝜑𝑋 𝑡 − 𝜑𝑋1 𝑡 0 = 𝜎 2 + 𝜇2 シンプルにモーメント母関数の一般化だと思ってください ポイント 特性関数と確率分布は一対一対応 08 標本分布 平均・分散を始め全てのモーメントが一致するので 40 𝟐
(前提知識)テイラー展開 関数をある点において多項式で近似する方法 関数 𝑓(𝑋 = 𝑥)の𝑥 = 𝑎 周りでのテイラー展開は 𝑓 (1) 𝑎 𝑓 𝑥 =𝑓 𝑎 + 1! 𝑓 (2) 𝑎 𝑥−𝑎 + 2! 特に𝑎 = 0 周りでの展開は マクローリン展開 と呼ばれます ∞ (𝑘) 𝑎 𝑓 𝑥−𝑎 2+⋯= 𝑘! 𝑥−𝑎 𝑘 𝑘=0 【実際の使用時】 適当な項までしか使わない 𝑛 𝑓 (𝑘) 𝑎 𝑓 𝑥 = 𝑘! 𝑘=0 誤差として無視 ∞ 𝑓 (𝑘) 𝑎 𝑘 𝑥−𝑎 + 𝑘! 𝑥−𝑎 𝑘 𝑘>𝑛 例 𝑓 𝑥 = exp(𝑥) を𝑥 = 0 で近似(マクローリン展開)した場合 • 1次の近似: 𝑓 0 𝑓(1) 0 + 1! 𝑥 = 1 + 𝑥 • 𝑓(2) 0 2次の近似:1 + 𝑥 + 2! • 1 2 𝑓(3) 0 3次の近似:1 + 𝑥 + 2 𝑥 + 3! 𝑛 𝑓 (𝑘) 𝑎 𝑓 𝑥 ≃ 𝑘! 𝑥−𝑎 𝑘 𝑘=0 exp(𝑥) 𝑥 が0に近いところでは うまく近似できている 1 = 1 + 𝑥 + 2 𝑥2 1 1 = 1 + 𝑥 + 2 𝑥2 + 6 𝑥3 08 標本分布 次数が多いほど 近似の性能が良くなる 41
ようやく中心極限定理の証明 正規分布𝑁 𝜇, 𝜎 2 に限らず 方針1 (連続性定理) もし期待値 𝜇 ,分散 𝜎 2 の確率分布に従う確率変数 𝑋 の標本平均 𝑋ത の特性関数が 正規分布 𝑁 𝜎2 𝜇, 𝑛 2 𝜎 の特性関数と一致していたら,標本平均 𝑋ത は正規分布𝑁 𝜇, 𝑛 に分布収束するといえる 𝑛 標本平均 1 𝜎2 ത 𝑋 = 𝑥𝑖 は,期待値 𝜇,分散 になるので 𝑛 𝑛 𝑖=1 標準化した値 𝑍ҧ = 方針2 まだ正規分布になるかはわからないが とりあえず期待値と分散は分かる段階 確率分布が何であっても 期待値 𝑎𝜇𝐴 , 𝑎𝜇𝐵 の2変数の和の期待値は 𝑎𝜇𝐴 + 𝑎𝜇𝐵 分散 𝑏𝜎𝐴2 , 𝑏𝜎𝐵2 の2変数の和の分散は𝑏 2 𝜎𝐴2 + 𝑏 2 𝜎𝐵2 𝑋ത − 𝜇 は,期待値 0,分散 1 になる 𝜎 2/ 𝑛 もし標準化した標本平均 𝑍ҧ の特性関数が標準正規分布 𝑁 0, 1 の特性関数と一致していたら 𝑍ҧ は𝑁 0,1 に分布収束する 𝜎 𝑋ത は𝑁 𝜇, 2 𝑛 に分布収束するといえる 標本平均 𝑍ҧ の特性関数 𝜑𝑍ത 𝑡 の中身を見ていきます 08 標本分布 42
中心極限定理の証明続き 方針2 もし標準化した標本平均 𝑍ҧ の特性関数が標準正規分布 𝑁 0, 1 の特性関数と一致していたら 𝑍ҧ は𝑁 0,1 に分布収束する 𝜎 𝑋ത は𝑁 𝜇, 2 𝑛 に分布収束するといえる 𝜑𝑍ത 𝑡 = 𝐸 exp 𝑖𝑡𝑍ҧ ここで 𝜑𝑧 𝑋ത − 𝜇 = 𝐸 exp 𝑖𝑡 2 𝑍ҧ をもとに戻す 𝜎 𝑛 1 𝑛 σ𝑖=1 𝑥𝑛 − 𝜇 𝑛 𝑋ത をもとに戻す = 𝐸 exp 𝑖𝑡 𝜎2 𝑛 𝑛 1 𝑥𝑖 − 𝜇 exp() の中身を全て = 𝐸 exp 𝑖𝑡 2 シグマ関数の中に押し込む 𝑛 𝜎 𝑖𝑡 𝑛 𝑛 乗の中身を をマクローリン展開すると 1 𝑖𝑡 𝜑𝑧 0 = 𝜑𝑧 0 + 1! 𝑛 𝜑𝑧 𝜑𝑧 𝑖=1 𝑛 𝑖𝑡 𝑧 = 𝐸 exp 𝑖𝑡 𝑛 𝑛 𝑧𝑖 は期待値𝜑𝑧 1 𝑧𝑖 𝑥 −𝜇 = 𝐸 exp 𝑖𝑡 𝑧𝑖 = 𝜎𝑖 2 とおく(標準化) 𝑛 𝑖=1 𝑧1 𝑧2 𝑧𝑛 exp(𝑎 + 𝑏) = exp 𝑎 exp(𝑏) = 𝐸 exp 𝑖𝑡 exp 𝑖𝑡 ⋯ exp 𝑖𝑡 𝑛 𝑛 𝑛 𝑛 𝑖𝑡 𝜑𝑍ത 𝑡 = 𝜑𝑧 ҧ (𝑍ではなく)𝑧 𝑖 の特性関数を使って書き換える 𝑛 08 標本分布 𝜑𝑧 2 𝑖𝑡 𝜑𝑧 0 + 2! 𝑛 ∞ = න 𝑒 𝑖𝑡 𝑧 𝑛 𝑓 𝑧 𝑑𝑧 𝑖𝑡 𝑛 2 + (誤差) ∞ より 𝜑𝑧 0 = 𝑧=−∞ 𝑧=−∞ 2 0 = 0,分散𝜑𝑧 𝑖𝑡 1 =1− 2 𝑛 න 𝑓 𝑧 𝑑𝑧 = 1 1 0 − 𝜑𝑧 𝑡 𝑛 0 2 = 1 なので 2 + (誤差) 𝑡2 したがって 𝜑𝑍ത 𝑡 = 1 − 2𝑛 + 誤差 𝑛 43
中心極限定理の証明続き 方針2 もし標準化した標本平均 𝑍ҧ の特性関数が標準正規分布 𝑁 0, 1 の特性関数と一致していたら 𝑍ҧ は𝑁 0,1 に分布収束する 𝜎 𝑋ത は𝑁 𝜇, 2 𝑛 に分布収束するといえる 𝑡2 + 誤差 標準化した標本平均 𝑍ҧ の特性関数 𝜑𝑍ത 𝑡 = 1 − 2𝑛 𝑛 誤差は小さいので無視します 𝑡2 𝑥 𝑛 を用いると 𝜑𝑍ത 𝑡 = 1 − ここで,指数関数の定義 exp 𝑥 = lim 1 + 2𝑛 𝑛→∞ 𝑛 ここで極限をとっているため,中心極限定理は サンプルサイズが大きいときに近似的に成り立つ 正規分布 𝑁 𝜇, 𝜎 2 の特性関数は𝜑𝑋 𝑡 = exp 1 𝜇𝑖𝑡 − 2 𝜎 2 𝑡 2 標準正規分布 𝑁 0,1 の特性関数は𝜑𝑋 𝑡 = exp 𝑡2 −2 2 𝑛 = 1+ 𝑡 2 𝑛 − 𝑛 𝑡2 = exp − 2 ポイントは, p.42の段階では分布形を指定せずに 確率分布の「期待値 𝜇 ,分散 𝜎 2 」だけ決めたこと 母集団分布が正規分布でなくても 何であっても分布収束が成り立つことが示せた というわけで, 𝑍ҧ の特性関数𝜑𝑍ത 𝑡 が𝑁 0,1 の特性関数に一致することが示されました。 特性関数と確率分布は一対一対応なので, 𝑍ҧ の確率分布は近似的に 𝑁 0,1 となる 2 𝜎 したがって,標本平均 𝑋ത の確率分布も近似的に 𝑁 𝜇, 𝑛 となる 08 標本分布 44