2.6K Views
December 08, 23
スライド概要
神戸大学経営学部で2022年度より担当している「経営統計」の講義資料「07_代表的な確率分布」を公開用に調整したものです。
神戸大学経営学研究科准教授 分寺杏介(ぶんじ・きょうすけ)です。 主に心理学的な測定・教育測定に関する研究を行っています。 講義資料や学会発表のスライドを公開していきます。 ※スライドに誤りを見つけた方は,炎上させずにこっそりお伝えいただけると幸いです。
経営統計 07 代表的な確率分布 分寺 杏介 神戸大学 経営学部 [email protected] ※本スライドは,クリエイティブ・コモンズ 表示-非営利 4.0 国際 ライセンス(CC BY-NC 4.0)に従って利用が可能です。
前回のおさらい 統計的推測に必要な情報は母集団分布と標本分布の関係性 資料05 p. 23 母集団分布が○○の場合 標本分布は△△になる ? 母集団分布 資料05 pp. 26-27 標本分布 標本的には標本分布が△△だと最もしっくり来るので 母集団分布は○○と考えるのが妥当だろう 07 代表的な確率分布 2
前回のおさらい 母集団分布の可能性は無限大 資料05 p. 23 母集団分布 母集団分布が○○の場合 標本分布は△△になる この○○をどうやって説明する? x=150では0.004で,x=151では0.006で,… ▶ 離散確率変数ですらほぼ無理 関数による表現を考えます 07 代表的な確率分布 3
確率分布を関数で表そう …といってもなんでもいいわけじゃない 二次関数 確率のルール(公理)を満たしている必要がある ▶ 負の値をとらない関数でないといけない 「和が1」は高さを適当に調整した ら良いので気にしなくてOKです それなりにシンプルである必要がある 複雑な関数 ▶ パラメータの数はせいぜい2, 3個にしておきたい ▶ 数学的に扱いやすい関数でないといけない そもそも確率分布は何かしらの現象を表したもの ▶ 実質的な意味を持った関数でないといけない そんな関数はそこまで多くない(と言われている) 07 代表的な確率分布 「そんな関数」の例を見ていきます 4
離散確率分布 07 代表的な確率分布 5
二項分布 問 高校数学の内容からスタート (あたり確率が0.1の)くじを3回引いたとき, ちょうど1回だけ当たる確率は? 公式がありましたな 1回目 2回目 3回目 その事象が起こる パターンの数 1 2 C × 0.1 × 0.9 3 1 発生確率のうち 「当たり」の部分 発生確率のうち 「はずれ」の部分 計 発生確率 ○ ○ ○ 3 0.1 × 0.1 × 0.1 ○ ○ × 2 0.1 × 0.1 × 0.9 ○ × ○ 2 0.1 × 0.9 × 0.1 ○ × × 1 0.1 × 0.9 × 0.9 × ○ ○ 2 0.9 × 0.1 × 0.1 × ○ × 1 0.9 × 0.1 × 0.9 × × ○ 1 0.9 × 0.9 × 0.1 × × × 0 0.9 × 0.9 × 0.9 07 代表的な確率分布 6
二項分布 問 一般化しましょう (あたり確率が 𝑝 の)くじを 𝑛 回引いたとき, ちょうど 𝑥 回だけ当たる確率は? 公式を書き直せば 例 その事象が起こる パターンの数 ちょうど0回 ▶ 3C0 × 0.10 × 0.93 𝑥 𝑛−𝑥 C × 𝑝 × (1 − 𝑝) 𝑛 𝑥 発生確率のうち 「当たり」の部分 当たり確率 𝑝 = 0.1,回数 𝑛 = 3の場合 発生確率のうち 「はずれ」の部分 ちょうど1回 ▶ 3C1 × 0.11 × 0.92 ちょうど2回 ▶ 3C2 × 0.12 × 0.91 ちょうど3回 ▶ 3C3 × 0.13 × 0.90 この図には𝑝 = 0.1, 𝑛 = 3の場合に取りうる値の 全パターンとその確率が表示されていることになります ▶ 各点の高さをすべて足すと1になっている 07 代表的な確率分布 7
二項分布|Binomial distribution さっきの 二項分布 関数 パラメータ 𝑃 𝑋 = 𝑥 = 𝑛C𝑥 𝑝 𝑥 1 − 𝑝 𝑝 当たり確率 𝑛 試行回数 も 𝑛−𝑥 の 略記 𝐵(𝑛, 𝑝) 平均値 𝑛𝑝 分散 𝑛𝑝(1 − 𝑝) を 的な の = は を ( , , ) の 率なので では り パラメータを変えると様々な形の関数が書ける 𝐵(𝑛 = 5, 𝑝 = 0.7) 𝐵(𝑛 = 10, 𝑝 = 0.5) 𝐵(𝑛 = 50, 𝑝説明 = 0.3) 意味 分布の 分 的な 数の を の は 分布の ら り は り てく さい ないですが 確率 数 確率分布 07 代表的な確率分布 8
代表的な関数のポイント 確率分布の背後には「メカニズムの仮定」がある 【二項分布の場 】 社会科学で用いられるほとんどの確率分布は 特定のメカニズムを仮定しています 得られる結果が2種類 コインの表裏,くじの当たり外 ,PKの成功失敗など 各事象が出現する確率が途中で変わらない 例|本来PKは繰り返しや対戦相手などで成功確率が わ が,そういった 動は無い みなす ある試行の結果がそれ以後の試行に影響しない ▶ 各試行は独立 例|一番くじの場 当たり確率は毎回(わ かで ) 動す 記号や略記は人によって少し異なるので要注意 二項分布の場 𝑝 の代わりに 𝜋 を使う人や𝐵𝑖𝑛𝑜𝑚(𝑛, 𝑝) 書く人などがい 回帰分析が 𝑦 = 𝑎𝑥 𝑏で 𝑦 = 𝛽0 𝛽1 𝑥 で 良いように,分かれば良いのです 07 代表的な確率分布 9
特殊な二項分布 ベルヌーイ分布 結果が二通りしかない確率的な試行の確率分布 ベルヌーイ試行 𝑛 回繰り返したら二項分布 結果は二通りなので𝑋は0か1しか らない 関数 パラメータ 𝑥 𝑃 𝑋 =𝑥 =𝑝 1−𝑝 𝑝 1−𝑥 𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖(0.3) 当たり確率 略記 𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖(𝑝) たは𝐵(1, 𝑝) 平均値 𝑝 分散 𝑝(1 − 𝑝) 07 代表的な確率分布 10
ポアソン分布 カウントデータの場合 シ オン・ドニ・ポアソン(1781-1840) Wikipediaより ポアソン過程に基づく事象の回数 確率的に発生す 事象が一定時間のうちに何回起こったか た しその事象は基本的に起こりにくい 各事象はほかの事象 は無 係 「一定時間」のフレ ムを小さくした場 事象が起こりやすくな 確 ほぼ0 いうこ 的な のは無し ポアソン分布に合う事象の例 1日にコンビニに来 客の数 1ヶ月に起こ 地震の数 1年に倒産す 企業の数 歴史的には「馬に蹴ら て死亡す 兵士の数」 いった のに ポアソン分布がよく当ては り した 07 代表的な確率分布 11
ポアソン分布 ポアソン分布|Poisson distribution 𝜆𝑥 𝑒 −𝜆 𝑃 𝑋=𝑥 = 𝑥! 関数 パラメータ 𝜆 𝑒 = .718 … (ネイピア数) さっきの 𝜋 みたいな特殊な定数 も 一定時間に起こ 回数の期待 略記 𝑃𝑜𝑖𝑠(𝜆) 平均値 𝜆 分散 𝜆 の 分 が同じ いう特徴を つ を の 的な = は を ( , , ) の 率なので では り パラメータを変えると様々な形の関数が書ける 𝑃𝑜𝑖𝑠(0.5) 𝑃𝑜𝑖𝑠( ) 𝑃𝑜𝑖𝑠(10) 意味 説明 分布の 分 的な 数の を の は 分布の ら り は り てく さい ないですが 確率 数 確率分布 07 代表的な確率分布 12
ポアソン分布 問 計算例1 Aさんはスマホを半年に2回くらい落としてしまいます。 では,Aさんがスマホを1年に1回も落とさない確率はいくつでしょうか。 𝜆𝑥 𝑒 −𝜆 𝑃 𝑋=𝑥 = 𝑥! ポアソン分布の性質 時間のフレームを変えると 𝜆 が変わる 「Aさ が半年のうちにスマホを落 す回数」の確率分布は𝑃𝑜𝑖𝑠( ) ▶ 「Aさ が1年のうちにスマホを落 す回数」の確率分布は𝑃𝑜𝑖𝑠(4) な ▶ 𝑃𝑜𝑖𝑠(4) に𝑥 = 0 を入 40 𝑒 −4 𝑃 𝑋 = 0|𝜆 = 4 = = 𝑒 −4 ≃ 0.0183 0! 07 代表的な確率分布 13
ポアソン分布 問 計算例2 Bさんは500日の通学でイノシシに10回出くわしました。 では,Bさんが100日でイノシシに1回でも出くわす確率はいくつでしょうか。 𝜆𝑥 𝑒 −𝜆 𝑃 𝑋=𝑥 = 𝑥! ポアソン分布の性質 試行回数が多ければ「一定時間」は離散時間でも構わない 「Bさ が500回のうちにイノシシに出くわす回数」の確率分布は𝑃𝑜𝑖𝑠(10) ▶ 「Bさ が100回のうちにイノシシに出くわす回数」の確率分布は𝑃𝑜𝑖𝑠( ) な ▶ 𝑃𝑜𝑖𝑠( ) に𝑥 = 0 を入 𝑃 𝑋 = 0|𝜆 = = 0 𝑒 −2 0! = 𝑒 −2 ≃ 0.135 ▶ 1 − 0.135 = 0.865 二項分布的に見ても良い 500日のうち10回出くわす ▶ 遭遇確率は0.02 見 「Bさ が100回のうちにイノシシに出くわす回数」の確率分布は二項分布𝐵(100,0.0 ) な ? 07 代表的な確率分布 14
二項分布とポアソン分布の関係 二項分布とポアソン分布は たような形になることがある 𝐵(𝑛, 𝑝)において 𝑛 が大きく 𝑝 が小さい場 ,平均値が同じ 𝜆 = 𝑛𝑝 で 𝑃𝑜𝑖𝑠(𝜆) 似 【前ページの例】(𝑋 ≥ 11はほぼ0なので省略) 𝐵(𝑛 = 100, 𝑝 = 0.0 ) 𝑃𝑜𝑖𝑠( ) 細かく見ると当然値は異なる 例 𝑃(𝑋 = ) は 二項分布では0.273 ポアソン分布では0.271 結局どっちがいいの? 統計的には,デ 選択す 方法 がたくさ 「デ の当ては りが良い確率分布」を り すが,この授業の範囲外です どちらも事象の発生メカニズムとして「正解」ではないので,お好きな方を選べ ※どちらの カニズム 今回の例に対して「正解ではないが, 07 代表的な確率分布 悪くない」 いう り OK です 15
幾何分布 ベルヌーイ試行を別の見方で 𝑛 回中何回成功したか ▶ 二項分布 初めて成功するまでに何回かかったか ▶ 幾何分布 幾何分布に合う事象の例 当た でくじを何回引いたか 格す で何回受験したか 07 代表的な確率分布 ちなみに「𝑛 回成功す でに何回かかったか」の確率分布は 負の二項分布 てい す 何日後に交通事故に ったか 16
幾何分布|geometric distribution 幾何分布 関数 パラメータ 𝑃 𝑋 =𝑥 = 1−𝑝 𝑝 成功確率 略記 𝐺𝑒(𝑝) 平均値 𝑝 1−𝑝 𝑝2 分散 𝑥−1 𝑝 無記憶性を持つ 「そ 以前に何回失敗した」 いう情報が って なくて 次に当たりが来 での回数の確率は わらない 10回連続で表が出たら今度こそ裏が出る …なんてことはない ▶ 10回連続で表が出た 裏が出 での回数は 𝐺𝑒(0.5) ギャンブラーの誤謬 パラメータを変えると様々な形の関数が書ける 𝐺𝑒(0.5) 𝐺𝑒(0. ) 07 代表的な確率分布 𝐺𝑒(0.01) 17
連続確率分布 07 代表的な確率分布 18
正規分布 左右対称の山 アブ たぶん最も重要な確率分布 ム・ド・モアブル(1667-1754) 正規分布を見つけた さ 人 Wikipediaより なぜかいろいろな場面で登場する 人間の身長や 重などの身 的・心理的特徴 果物の重さ 工場で作った部品の重さ・長さ 左右対称の山 確率 数の発生 カニズムは かく だいたい左右対称と思われる場合に当てはめることが多い 辺が多くて から離 ほど確率密度が小さくな 07 代表的な確率分布 19
, , = (1, , 3) 正規分布|Normal distribution 正規分布 関数 パラメータ 𝑓 𝑋=𝑥 = 略記 , , 𝜋𝜎 2 𝑥−𝜇 − = ( 0.5, 1, 1)2 𝜎 2 (𝑥) = 𝑒 𝑥 𝜇 𝜎2 1 = 0 の きの ( ) の 分 の 数 は同じで が な 𝑁(𝜇, 𝜎 2 ) 平均値 𝜇 分散 𝜎2 を = 本の 確率 の 的な を ( , , ) の 数 確率分布 パラメータを変えると様々な形の関数が書ける 𝑁 150,82 𝑁 170,82 𝜇 が変わると 平行移動 𝑁 170,1 2 𝜎 2 が変わると 広がりが変わる 07 代表的な確率分布 20
正規分布 とはいえ計算は結構めんどくさい 連続確率変数では「ある値を取る確率」は計算しない(できない) × ある農園で収穫されたみかんの重さは正規分布 𝑁(100, 102 ) になることがわかっています。 収穫したみかんのうちちょうど100gであるものは何%でしょうか。 代わりに区間で確率を考える ○ ある農園で収穫されたみかんの重さは正規分布 𝑁(100, 102 ) になることがわかっています。 収穫したみかんのうち90gから110gの間のものは何%でしょうか。 𝑓 𝑋=𝑥 = 1 𝜋𝜎 2 𝑥−𝜇 − 𝜎2 2 𝑓 𝑋=𝑥 = 110 絶対積分するじゃん 今はコンピュ が発達してい のでさほど難しくは無いですが 昔は結構致命的な問題 ったのです න 90 07 代表的な確率分布 1 𝜋 × 102 1 𝜋 × 102 𝑥 − 100 2 − × 102 𝑥 − 100 2 − 𝑑𝑥 × 102 21
正規分布 正規分布の性質 平均値 𝜇 と標準偏差 𝜎 に関しての性質 𝜇 から 𝜇 𝑁(170, 82 )におけ 170から178の区間の確率 𝜎 の区間の確率は𝜇 と 𝜎 の値に関わらず同じである 𝑁(0, 12 )におけ 0から1の区間の確率 グレーの部分の面積がすべて同じなのです 07 代表的な確率分布 𝑁(50, 102 )におけ 50から60の区間の確率 見た目に騙されないように 縦軸・横軸の目盛りに注意! 22
正規分布 もっというと 𝑑, 𝑒 の値が何であっても 𝜇 𝑑𝜎 から 𝜇 𝑒𝜎 の区間の確率は 𝜇 と 𝜎 の値に関わらず同じである 𝑁(170, 82 ) 𝑁(0, 12 ) 𝑁(50, 102 ) 濃いグレーの面積 𝜇 − 𝜎 から 𝜇 𝜎 162から178の区間 -1から1の区間 40から60の区間 薄いグレーの面積 𝜇 − 𝜎 から 𝜇 𝜎 154から186の区間 -2から2の区間 30から70の区間 07 代表的な確率分布 およそ 0.683 およそ 0.954 23
つまり正規分布における確率は 正規分布 𝜇 や 𝜎 が何で って 「平均値から標準偏差いくつ分の区間の確率は?」だけ考えたら良い 例 正規分布 𝑁(38, 6.42 )における31.6から41.4の区間の面積は? ▶ この正規分布において31.6は 𝜇 − 𝜎 で41.4は 𝜇 任意の正規分布における𝜇 − 𝜎 から𝜇 0.5𝜎 なので 0.5𝜎 の区間の面積 同じ 𝑁(170, 82 )におけ 162から174の区間の面積で 同じ 𝑁(50, 102 )におけ 40から55の区間の面積で 同じ 何で いいからなにか計算しやすい正規分布で計算したって良い 𝑁(38, 6.42 ) 「計算したって良い」 書いてい すが,実際にはど な正規分布を 代わりに持ってきて 計算は割と面倒です(結局積分が ) そこで 特定の正規分布に関して あらゆる幅の区間の面積を全部計算しておきました (昔の らい人が) 07 代表的な確率分布 24
正規分布 特定の正規分布とは Standard normal distribution 標準正規分布 𝑁(0, 12 ) のことです。 𝑥 の確率分布 ,使う 数によってスケ ルが な ので面倒ですが, 標準化得点 𝑧 の確率分布であれば変数のスケールによらないので 常に同じ分布を使 す ある変数 𝑥 が正規分布 𝑁(𝜇, 𝜎 2 )に従うとき, 𝑥−𝜇 平均 𝜇,標準偏差 𝜎 で標準化した値𝑧 = は標準正規分布 𝑁(0,12 ) に従う 𝜎 確率分布を標準化すると 標 準 化 𝑁(170, 82 ) 標 準 化 𝑁(0, 12 ) 07 代表的な確率分布 𝑁(50, 102 ) 25
標準正規分布の値 正規分布 標準化得点なので,そのまま 平均値から標準偏差いくつ分高い/低いか を表すことになる 標準正規分布における区間の面積は あらゆる正規分布の「平均値±標準偏差いくつ分」の区間の面積と同じ 例 標準正規分布における0から1.3の区間の面積は 任意の正規分布𝑁(𝜇, 𝜎 2 ) における𝜇 から𝜇 1.3𝜎の区間の面積と同じ いうこ で 標準正規分布に関して あらゆる幅の区間の面積を全部計算しておきました (昔の らい人が) 07 代表的な確率分布 現代ではコンピュ で簡単に 計算出来 のですが, 標準正規分布を用いた確率の計算は 仮説検定のところとも多少関係するので 計算方法を理解してもらいたいのです。 26
正規分布 標準正規分布表 標準正規分布 𝑁(0, 12 )におけるあらゆる区間の面積(確率)を計算した表 大抵の統計学のテキストの 後ろについてい す いは検索したら すぐ見つかり す 確率や相 係数のように 絶対に1を超 ない(小数のみの) に しては 頭の0を省略して表記するこ がよく り す 例 標準正規分布における1.01以上の全区間の面積 (=任意の正規分布𝑁(𝜇, 𝜎 2 ) における𝜇 1.01𝜎以上の全区間の面積)が知りたい場合 ▶ 赤い丸に対応する.1562=およそ15.62%となる 07 代表的な確率分布 27
正規分布 例 標準正規分布表による計算 確率変数 𝑋 が正規分布 𝑁 170,82 に従うとき 𝑥 が180以上になる確率は? 身長の平均値が170,分散が82 と仮定した場合の 身長が180cm以上の人の割合を計算するイメージで 1. まずは知りたい確率を明確にする ▶ 今回は正規分布 𝑁 170,82 におけ 𝑃(𝑋 ≥ 180) を求 この段階で図にしておくとたぶんわかりやすい 【ポイント】 • この段階ではさほど厳 でなくても良い ◀ こんな感じでOK • ただし「範囲の端が平均値より上か下か」だけは明確に 07 代表的な確率分布 28
正規分布 例 標準正規分布表による計算 確率変数 𝑋 が正規分布 𝑁 170,82 に従うとき 𝑥 が180以上になる確率は? 身長の平均値が170,分散が82 と仮定した場合の 身長が180cm以上の人の割合を計算するイメージで 2. 標準化する ▶ 𝑋 の分布が 𝑁 170,82 前ページの図と 対応しているので 見比べてください いうこ は 𝑋−170 8 = 𝑍 の分布が 𝑁 0, 1 にな これに合わせて先程の図も標準化する 求 たい面積が 𝑃 𝑋 ≥ 180 ▶ 180を標準化したらよい 上の に𝑋 = 180を代入す 180 − 170 = 1. 5 8 ▶ 求めたい確率は𝑁 0, 1 の 𝑃 𝑍 ≥ 1. 5 と同じ 07 代表的な確率分布 29
正規分布 例 標準正規分布表による計算 確率変数 𝑋 が正規分布 𝑁 170,82 に従うとき 𝑥 が180以上になる確率は? 身長の平均値が170,分散が82 と仮定した場合の 身長が180cm以上の人の割合を計算するイメージで 3. 標準正規分布表から対応する値を探す ▶ 𝑃 𝑍 ≥ 1. 5 なので 表によって見方が多少 わり すが 書いてある値は同じはずなので どの表を使って 問題 り 【答】 ※定期試験ではこの表 渡し す .1056 (10.56%) 07 代表的な確率分布 30
正規分布 標準正規分布表のポイント 正規分布は左右対称です 「範囲の端が平均値より上か下か」だけ明確にしておくと 計算の仕方が見えやすくなるのです ▶ マイナスのときにはひっくり返しましょう 例 標準正規分布における-1から0の区間の面積 (=あらゆる正規分布𝑁(𝜇, 𝜎 2 ) における𝜇 − 𝜎 から𝜇の区間の面積)は 標準正規分布における0から1の区間の面積に等しい ▶ プラスとマイナスにまたがるときには分割しましょう 例 標準正規分布における-0.5から1.5の区間の面積 (=あらゆる正規分布𝑁(𝜇, 𝜎 2 ) における𝜇 − 0.5𝜎 から𝜇 1.5𝜎の区間の面積)は 標準正規分布における-0.5から0の区間の面積+0から1.5の区間の面積に等しい ▶「0以上」や「0以下」の確率は0.5です 例 標準正規分布における-1以上の面積 (=あらゆる正規分布𝑁(𝜇, 𝜎 2 ) における𝜇 − 𝜎 以上の面積)は 標準正規分布における-1から0の区間の面積+0以上の面積(=0.5)に等しい は実際に標準正規分布表で を探しながら慣 07 代表的な確率分布 ていってく さい 31
正規分布の性質 正規分布 形変換 標準正規分布への 換ではこの性質を利用してい した 2 ) に従う き, 確率 数 𝑋 が正規分布 𝑁(𝜇, 𝜎 資料02 p. 16 換した 数 𝑎𝑋 𝑏 は𝑁 𝑎𝜇 𝑏, 𝑎2 𝜎 2 に従う 再生性 確率 数 𝑋 が正規分布 𝑁(𝜇𝑋 , 𝜎𝑋2 ),確率 数 𝑌 が正規分布 𝑁(𝜇𝑌 , 𝜎𝑌2 )に従う き, その和 𝑋 𝜇𝑌 , 𝜎𝑋2 𝜎𝑌2 ) に従う 正規分布 𝑁(𝜇𝑋 − 𝜇𝑌 , 𝜎𝑋2 𝜎𝑌2 ) に従う 𝑌 は正規分布 𝑁(𝜇𝑋 その差 𝑋 − 𝑌 例 分 はどちらで 和で に 注 ( らつきの 因が2つに増 てい け) 国語のテストの得 が 𝑁(60,102 ),数学のテストの得 が 𝑁(40,52 ) った場 , 2教科の 計 の分布は 𝑁 60 40,102 52 = 𝑁 100, 11.182 な 07 代表的な確率分布 32
指数分布 幾何分布の連続変数バージョン ちなみに「𝑛 回発生す でにかかった時間」の確率分布は ガンマ分布 てい す (幾何分布 → 負の二項分布の 係 同じ) ある事象が発生するまでにかかった時間 事象自体はポアソン過程にそって発生すると仮定する ▶ ある事象が発生する確率が時間によって変わらない 指数分布に合う事象の例 電化製品が壊 での時間 病気になってから死亡す での時間 企業が上場す での時間 実際の ころ,こ らの時間は1日単 で測定さ こ が多いので 離 数 して扱って よい=幾何分布を当ては て 良い は思い すが 一般的には指数分布で扱うこ が多いです。 07 代表的な確率分布 33
指数分布|exponential distribution 指数分布 関数 パラメータ 𝑓 𝑋 = 𝑥 = 𝜆𝑒 −𝜆𝑥 𝜆 略記 一定時間に起こ 回数 の期待 𝐸𝑥𝑝(𝜆) 1 𝜆 1 𝜆2 平均値 分散 無記憶性を持つ 「そ 以前にど 事象が発生す ただし け経過した」 いう情報が って なくて での時間の確率は わらない く で 発生確率が「時間によって パソコンもスマホもいつか壊れます レポートはこまめに保存しましょう わらない」仮定での話 つ り厳密には「劣化しないスマホ」や 「くじ引きで上場が 」的な 想定をしてい い す パラメータを変えると様々な形の関数が書ける 𝐸𝑥𝑝(3) 𝐸𝑥𝑝(1) 07 代表的な確率分布 𝐸𝑥𝑝(0. ) 34
確率分布間の関係性 07 代表的な確率分布 35
二項分布 二項分布と正規分布の関係 二項分布| 二項分布 関数 パラメータ = さっきの = C も 確率 1 の 関数 なので 当たり確率 試行回数 略記 の ( , ) 平均値 は 分散 (1 を 的な の = を ( , , ) す の の は 率なので では り ) パラメータを変えると様々な形の関数が書ける ( = 5, = 0.7) ( = 10, = 0.5) ( = 50, 意味 = 0.3) 説明 分布の 分 的な 数の の , 分布の ら り を は は り てく さい ないですが = 170, 10 正規分布っぽく みえませんか? = 1 × 10 170 × 10 確率 数 確率分布 代表的な確率分布 【二項分布の正規 】 𝑛 が十分に大きい き 二項分布は試行回数 𝑛 が十分に大きいとき 同じ平均値・分散をもつ正規分布によって することが出来ます。 𝐵(𝑝, 𝑛) 𝜇 = 𝑛𝑝, 𝜎 2 = 𝑛𝑝(1 − 𝑝)の正規分布 𝑁 𝑛𝑝, 𝑛𝑝 1 − 𝑝 ほぼおなじ形になる! 07 代表的な確率分布 …で? 36
二項分布 で,なにがうれしいの? 計算が簡単になります。 例 ある居酒屋では,来店した客のうち50%が名物メニューを注文します。 このとき,ランダムに選んだ10名の客のうち4名以上が名物メニューを注文する確率は? 二項分布 𝐵(𝑝, 𝑛) でちょうど𝑥回当た 確率は(二項定理を思い出して) 𝑃 𝑋 = 𝑥 = 𝑛𝐶𝑥 𝑝 𝑥 1 − 𝑝 𝑛−𝑥 考え方①|「4人注文」+「5人注文」+ … +「10人注文」 考え方②|1-(「0人注文」+「1人注文」+「2人注文」+「3人注文」) どっちにしろ何回か計算が必要になる この計算は高校で やったは ……もっと 𝑛 が増えたらどうしますか? サンプルサイズは多いほうが良いですからね 07 代表的な確率分布 努力は報われるので ひたすら計算しますよ 37
二項分布 で,なにがうれしいの? 計算が簡単になります。 例 ある居酒屋では,来店した客のうち50%が名物メニューを注文します。 このとき,ランダムに選んだ1000名の客のうち490名以上が名物メニューを注文する確率は? 考え方①|「490人注文」+「491人注文」+ … +「1000人注文」 統計的仮説検定や推定のところで この考え方が重要になってきます 511回も計算する? 考え方②|1-(「0人注文」+「1人注文」+ … +「489人注文」) 生意気言ってすみません 490回も計算する? 正規 を使ってもっと楽に計算しましょう 07 代表的な確率分布 38
二項分布 二項分布の正規 50%の客が注文するメニューを 1000人中490人以上が注文する確率は? 左の二項分布の赤いところを全部足す or 1からグレーのところを全部引く 𝐵𝑖𝑛𝑜𝑚(0.5, 1000) ≈ 𝑁(500, 50) 左の分布は正規分布に 𝑛 が十分に大きい き 𝐵(𝑝, 𝑛) あるいは 𝑁 𝑛𝑝, 𝑛𝑝 1 − 𝑝 ほぼおなじ形になる! 07 代表的な確率分布 てるので 正規分布とみなして赤い部分の面積を求める 39
二項分布 二項分布の正規 50%の客が注文するメニューを 1000人中490人以上が注文する確率は? 正規分布 𝑁(500, 50) において 𝑃(490 ≤ 𝑋) を 求 て げ 標準正規分布𝑁(0,1)において 𝑃(490 ≤ 𝑋) のカッコ内の両辺を標準化す 𝑋 ∼ 𝑁(500, 50) 𝑍= 𝑋−500 250 𝑃 490 − 500 50 ≤ 𝑋 − 500 50 =𝑃 −10 50 ほぼ同じ が出 は ≤𝑍 おく 𝑍 ∼ 𝑁(0,1) 07 代表的な確率分布 𝑃 −10 250 ≤ 𝑍 を求めてあげればよい 40
二項分布 二項分布の正規 −10 250 ≒ −0.63なので • 青い面積 𝑃(0 ≤ 𝑍) …正規分布の対称性より0.5 • 赤い面積 𝑃 −0.63 ≤ 𝑍 ≤ 0 …標準正規分布表を使う 0.5 - 0.2643 0.2357 A. およそ73.57% 【ちなみに】 全部足すと74.67% 𝑋 ∼ 𝑁(500, 50) 𝑍= 𝑋−500 250 近似なので全く同じ値にはなりません ※ここでは扱い が 「連続性の補正」をす う少し近い になり す おく 𝑍 ∼ 𝑁(0,1) 07 代表的な確率分布 41
(ちなみに)ポアソン分布も正規 できます ポアソン分布| ポアソン分布 関数 = = ! = .718 (ネイピア数) さっきの みたいな特殊な定数 パラメータ 一定時間に起こ 回数の期待 略記 ( ) 平均値 確率 の 分 が同じ いう特徴を つ 分散 も を の = は 的な を ( , , ) の 関数 なので す の の は 率なので では り パラメータを変えると様々な形の関数が書ける (0.5) ( ) (10) 意味 説明 分布の 分 的な 数の を の は 分布の ら り は り ないですが 正規分布っぽく , = 170, 10 みえませんか? = てく さい 確率 1 × 10 170 × 10 数 確率分布 代表的な確率分布 【ポアソン分布の正規 】 𝜆 が十分に大きい き ポアソン分布は 𝜆 が十分に大きいとき 同じ平均値・分散をもつ正規分布によって することが出来ます。 𝑃𝑜𝑖𝑠(𝜆) 𝜇 = 𝜆, 𝜎 2 = 𝜆2 の正規分布 𝑁 𝜆, 𝜆2 ほぼおなじ形になる! 07 代表的な確率分布 後の流 は同じなので省略 42
確率分布間の関係まとめ 参考: http://www.math.wm.edu/~leemis/chart/UDR/UDR.html ポアソン分布 𝜆大 𝑃𝑜𝑖𝑠(𝜆) 近似 𝑛大𝑝小 近似 成功回数 ベルヌーイ分布 𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖(𝑝) 複数回 試行 失敗回数 𝐵(𝑛, 𝑝) 二項分布 (対数正規分布) 対数 換 標準正規分布 𝑁(𝜇, 𝜎 2 ) 𝑛大 近似 正規分布 (t分布) 指数分布 𝐺𝑒(𝑝) 𝐸𝑥𝑝(𝜆) 複数 (負の二項分布) 07 代表的な確率分布 𝑁(0,1) 複数個の和 幾何分布 連続化 標準化 (カイ二乗分布) 複数 (ガンマ分布) 43
当初の目的に立ち返ると 確率分布を関数で表せたらだいぶ楽になってきた 例 次回はこの部分 ▶ 母集団分布が 𝑁(𝜇, 𝜎 2 ) の場合 標本分布は 𝑁(? , ? ) になる ? 母集団分布 例 標本分布𝑁(? , ? )を生み出す母集団分布は 𝑁(𝜇, 𝜎 2 )と考えるのが最も妥当 ▶ 母平均は 𝜇 と考えるのが妥当だろう! 07 代表的な確率分布 例 母集団分布に確率分布を仮定した場 標本分布 確率分布になり す ▶ 各標本の値と同じように標本統計量も 確率変数だということです 標本分布 私達が実際に 分かる範囲 標本平均 𝑥ҧ 標本平均 𝑥ҧ を生み落とした 標本分布は𝑁(? , ? )が最もしっくり来る 44