経営統計_05_母集団と標本

5.4K Views

November 17, 23

#統計学 #母集団 #標本 #推測統計 #仮説検定

スライド概要

神戸大学経営学部で2022年度より担当している「経営統計」の講義資料「05_母集団と標本」を公開用に調整したものです。

Kyosuke Bunji

@BunjiRo

スライド一覧

神戸大学経営学研究科准教授　分寺杏介（ぶんじ・きょうすけ）です。主に心理学的な測定・教育測定に関する研究を行っています。講義資料や学会発表のスライドを公開していきます。 ※スライドに誤りを見つけた方は，炎上させずにこっそりお伝えいただけると幸いです。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

ベイズ統計_07_マルコフ連鎖モンテカルロ法(2)

Kyosuke Bunji 62.4K

ベイズ統計_02_確率の基本とベイズの定理

Kyosuke Bunji 51.3K

ベイズ統計_01_イントロダクション

Kyosuke Bunji 45.6K

ベイズ統計_03_尤度

Kyosuke Bunji 43.3K

ベイズ統計_04_事前分布・基本的なベイズ推論(1)

Kyosuke Bunji 42.3K

ベイズ統計_06_マルコフ連鎖モンテカルロ法(1)

Kyosuke Bunji 40.1K

各ページのテキスト

経営統計 05 母集団と標本分寺杏介神戸大学経営学部  [email protected] ※本スライドは，クリエイティブ・コモンズ表示-非営利 4.0 国際ライセンス（CC BY-NC 4.0）に従って利用が可能です。

https://creativecommons.org/licenses/by-nc/4.0/

授業計画マップ例（統計的）予測 15：実世界での統計学まずは手元のデータをまとめる要約する２：１変数の記述統計代表値・散布度３：２変数の記述統計共分散・相関・連関４，５：回帰分析手元のデータをもとに「○○全体ではどうだろうか」を統計的に推測する６：母集団と標本７：確率変数と確率分布８，９：代表的な確率分布 10：標本分布 11：点推定と区間推定有給取得率が◯◯％で，従業員数が ■■人で，…という会社の純利益はだいたいこれくらいになりそうだ！統計的仮説検定結論を出す例有給取得率が高いほど純利益も高いようだ！ 12：仮説検定の考え方 13,14：仮説検定の一例 ▲ 統計的仮説検定のメカニズムを理解するためにも必要な知識 ※検定の方法は変数の形式などによって相当いろいろな種類があるので，この授業では「基本的な考え方」まで導入します。 15：回帰分析の統計的推測記述統計推測統計 05 母集団と標本 2

話がガラッと変わりますいよいよ統計的推測の世界に足を踏み入れます特に今回の内容は統計的推測の根本的な概念の話なので，今回の内容を理解できないと以降はずっと分からないと思います。計算自体は実はそんなに難しくないのですが… 高度な計算はない（せいぜい標準化に毛が生えた程度だと思う）のですが，むしろ「なぜその計算をするのか」を理解するのが大変かもしれません。なので「公式に当てはめて解けた」レベルだと今まで以上に苦しむでしょう分からないことはガンガン質問しましょう 05 母集団と標本 3

これ以降のお題① 結果の一般化を目指して A 1 ID B 性別 C D 身長 E 体重 F 勉強時間テストの得点 2 1 男 172 70 3.0 91 3 2 女 158 全国の高校生100人にオンライン調査し 4 3 女 160 5 4 男 178 たら，平均勉強時間が2.5時間だった。 6 5 女 153 ふきだし今年の全国の高校生の勉強時間の 7 6 男 169 8 7 男 165 平均ってどんなもんだと思う？？ 47 0.8 31 54 4.0 34 69 3.8 51 42 1.9 87 80 1.9 39 70 2.1 48 9 8 女 155 42 0.8 73 10 9 男 159 63 2.4 62 11 10 女 148 40 1.7 34 12 11 女 147 42 1.6 84 そりゃ2.5時間なんじゃないですか…？今回集まった100人ではたまたま2.5時間だったが別の100人に調査したら平均値は変わるはず ▶ 多少のズレを考慮した推測が求められるこの区間推定の解釈は厳密には少し正しくないです。後の回で正しい解釈はお伝えしますが，現時点ではわかりやすさ重視でわざと曲解します。「一つの値を出せ」と言われたら 2.5時間で良いのですがランダムなばらつきを考えると大体2.3～2.7時間くらいと予測するのが妥当ではないでしょうか。点推定・区間推定しよう 05 母集団と標本 4

これ以降のお題② 結果の一般化を目指して A 1 ID B 性別 C D 身長 E 体重全国の高校生100人にオンライン調査 2 1 男 172 3 2 女 158 したら，平均勉強時間が2.5時間だった。 4 3 女 160 過去10年の平均が2.3時間なんだけど， 5 4 男 178 ふきだし 6 5 女今年の高校生の勉強時間って 153 7 6 男 169 例年より長いと言えるかねぇ？？ 8 7 男 165 F 勉強時間テストの得点 70 3.0 91 47 0.8 31 54 4.0 34 69 3.8 51 42 1.9 87 80 1.9 39 70 2.1 48 9 8 女 155 42 0.8 73 10 9 男 159 63 2.4 62 11 10 女 148 40 1.7 34 12 11 女 147 42 1.6 84 過去の平均値より0.2時間長い平均値なんだから長いんじゃないですか…？第１回で説明したように今回集まった100人ではたまたま長かっただけで，別の100人に調査したら平均値は変わるはず ▶ 全国の高校生全体でも例年より長いかはまだわからない「今年の高校生の勉強時間の平均が2.3時間」という仮定のもとでは，そのうち100人の平均勉強時間が2.5時間以上になる確率はおよそ20.1%です。したがって，今年の高校生の平均勉強時間は 2.3時間より長いとはいえなさそうです。統計的仮説検定しよう 05 母集団と標本 5

集団全体の性質を知るためには手っ取り早いのは全部調べる方法しっかい ▶ 全数調査または悉皆調査と呼ばれる例｜国勢調査，神大生が一ヶ月に借りる本の数の平均カネならいくらでも出すぞい日本全国の全高校生およそ300万人にアンケート平均勉強時間：？時間全国の高校生平均値を計算答えがそのまま？に入る 05 母集団と標本 6

集団全体の性質を知るのはもちろんそう簡単ではない統計勉強したくないから金持ちを目指すぜコスト・時間が掛かりすぎる前ページの例のように国家レベルの権力・財力が無いと厳しいそもそもできない例｜海水の塩分濃度は何％？ ▶ 海の水ぜんぶ抜く必要が出てきてしまうできるけどやってしまうと問題が発生する例｜椅子の耐久時間は？ ▶ 全部壊れるまで試験すると売り物がなくなってしまう 05 母集団と標本集めた海水どこに貯めましょうか？１万時間テストして壊れなかったものだけ出荷します 7

集団全体の性質を知るためには代わりに一部だけ取り出してチェックする ▶ 標本調査たくさんの椅子壊れるまでテスト基準をクリアしたら出荷・・・ 05 母集団と標本・・・ 8

やりたいことの本質は同じ手元のデータからもっと大きな集団の性質を推測したい 100人の高校生全国の高校生データ A 1 ID B 性別 C D 身長 E 体重 F 勉強時間テストの得点 2 1 男 172 70 3.0 91 3 2 女 158 47 0.8 31 4 3 女 160 54 4.0 34 5 4 男 178 69 3.8 51 6 5 女 153 42 1.9 87 7 6 男 169 80 1.9 39 8 7 男 165 70 2.1 48 9 8 女 155 42 0.8 73 10 9 男 159 63 2.4 62 11 10 女 148 40 1.7 34 12 11 女 147 42 1.6 84 05 母集団と標本 9

10.

そのためには言われなくとも「当たり前のこと」と感じるかもしれませんが，やりたいことが「手元のデータの推測」ではなく「その背後にあるもっと大きな集団についての推測」であるということを今後忘れないように・間違えないようにしてくださいまずは手元のデータがもっと大きな集団の一部だと考える 100人の高校生全国の高校生データ A 1 ID B 性別 C D 身長 E 体重 F 勉強時間テストの得点 2 1 男 172 70 3.0 91 3 2 女 158 47 0.8 31 4 3 女 160 54 4.0 34 5 4 男 178 69 3.8 51 6 5 女 153 42 1.9 87 7 6 男 169 80 1.9 39 8 7 男 165 70 2.1 48 9 8 女 155 42 0.8 73 10 9 男 159 63 2.4 62 11 10 女 148 40 1.7 34 12 11 女 147 42 1.6 84 05 母集団と標本 10

11.

用語を使って population sample 標本まずはが母集団標本の一部だと考える母集団データ A 1 ID B 性別 C D 身長 E 体重 F 勉強時間テストの得点 2 1 男 172 70 3.0 91 3 2 女 158 47 0.8 31 4 3 女 160 54 4.0 34 5 4 男 178 69 3.8 51 6 5 女 153 42 1.9 87 7 6 男 169 80 1.9 39 8 7 男 165 70 2.1 48 9 8 女 155 42 0.8 73 10 9 男 159 63 2.4 62 11 10 女 148 40 1.7 34 12 11 女 147 42 1.6 84 05 母集団と標本 11

12.

目的を整理すると 1 サンプルサイズ母集団からランダムな 𝑛 個のデータが得られた sample size 標本データ A 1 ID B 性別 C D 身長 E 体重平均勉強時間：？テストの得点 2 1 男 172 70 3.0 91 3 2 女 158 47 0.8 31 4 3 女 160 54 4.0 34 5 4 男 178 69 3.8 51 6 5 女 153 42 1.9 87 7 6 男 169 80 1.9 39 8 7 男 165 70 2.1 48 9 8 女 155 42 0.8 73 10 9 男 159 63 2.4 62 11 10 女 148 40 1.7 34 12 11 女 147 42 1.6 84 2 母集団 F 勉強時間母集団の平均勉強時間の真の値はわからないものなので手元のデータから推測するのです時間平均勉強時間：2.5時間得られたデータで標本統計量を計算する母数 parameter 3 標本統計量をもとに母集団の値を推測する 05 母集団と標本母集団の平均勉強時間（に当てはまる値）はだいたい 2.3～2.7時間くらいでしょう 12

13.

目的を整理すると 1 サンプルサイズ母集団からランダムな 𝑛 個のデータが得られた母集団の平均勉強時間の真の値はわからないものなので手元のデータから推測するのです sample size 標本データ A 1 ID B 性別 2 1 男 3 2 女 4 3 女 5 4 男 6 5 女 7 6 男 8 7 男 9 C D 身長 E 体重 172 テストの得点 3.0 時間 91 前回までにやってきた内容はここ 158 47 0.8 31 160 54 4.0 34 178 69 3.8 51 153 42 1.9 87 169 80 1.9 39 165 70 2.1 48 8 女 155 42 0.8 73 10 9 男 159 63 2.4 62 11 10 女 148 40 1.7 34 12 11 女 147 42 1.6 84 2 平均勉強時間：？ F 勉強時間 70 母集団平均勉強時間：2.5時間得られたデータで標本統計量を計算する 3 今回からやる内容はここ標本統計量をもとに母集団の値を推測するの理論を学んでいきます 05 母集団と標本 13

14.

標本調査にあたっての注意点標本に偏りがあってはならない集団全体の性質を知るためには壊れにくい椅子を作ると評判の職人が作ったものだけ集める代わりに一部だけ取り出してチェックする ▶ 標本調査売り物たくさんの椅子より壊れにくい壊れるまで ▶ テストを通過テストここでの「偏り」とは？出荷したらクレーム連発基準をクリアしたら出荷・・・・・・母集団と標本 05 母集団と標本椅子の上で暴れたらすぐ壊れたぞ！！ 14

15.

前回登場した図を使って説明大抵の変数の値は様々な要因によってばらつく椅子の平均 10000時間 ○○産の木材 +500 △△産の木材 -500 産地仕上げ担当ベテランの仕上げ +450 新人の仕上げ -150 パーツの寸法ネジの寸法のズレ -200 全パーツ完璧な寸法 +500 製作時期冬に作った -100 夏に作った +150 etc. 9000 10000 10500 11000 椅子B 椅子A 9475時間 10726時間 05 母集団と標本時間 15

16.

大抵の変数の値は様々な要因によってばらつく椅子の平均 10000時間壊れにくい椅子を作ると評判の ○○産の木材職人が作ったものだけ集める +500 △△産の木材 -500 産地仕上げ担当ベテランの仕上げ +450 新人の仕上げ -150 パーツの寸法ネジの寸法のズレ -200 全パーツ完璧な寸法 +500 製作時期冬に作った -100 夏に作った全ての椅子が +450+150 スタート etc. 9000 10000 椅子B 「偏り」とは？ 9475時間テストの結果も 10500 +450 11000 時間椅子A ばらつきを発生させるあらゆる要素のこと 10726時間 05 母集団と標本 16

17.

でも全部の要因はわからないよ random sampling そこで無作為抽出の出番です ▶ 完全にランダムに対象を決める（くじ引き的に）母集団での割合要因割合木材の産地仕上げ担当者ネジの寸法標本での割合各標本の属性情報 ○○ 30% △△ 70% ベテラン 50% 新人 50% +0-0.3mm 30% ±0mm 2% -0.3-0mm 30% 要因 … 要因 No. 254 No. 831 No. 1599 木材の産地 ○○ △△ ○○ … 新人 … ±0mm … 仕上げ担当者ベテランベテランネジの寸法 +0.3mm -0.2mm ︙ ︙ 割合木材の産地仕上げ担当者ネジの寸法 ○○ 30% △△ 70% ベテラン 50% 新人 50% +0-0.3mm 30% ±0mm 2% -0.3-0mm 30% ︙ たくさん集めたら理論的にはどの要素についても「偏り」はなくなる 05 母集団と標本 17

18.

無作為抽出の注意点実際には完全な無作為はかなり難しい特に人間を対象とした場合例｜高校生の勉強時間 ▶ 全国の高校生300万人からくじ引き→当たった人に調査実際には「できる範囲で頑張る」例｜二段階抽出 ▶ 学校を無作為抽出 → 各学校から10人ずつ無作為抽出調査依頼する学校の数が減るのでまだマシ例｜層化抽出 ▶ 偏差値帯ごとに学校を５つずつ抽出 →各学校から10人ずつ無作為抽出 ▲ 絶対に偏りが生じてはいけない要素がある場合におすすめ例｜母集団のほうを限定する ▶ 神戸市内の高校生から無作為抽出 → 結果は神戸市内の高校生の勉強時間サンプルサイズは大きいほど良い理論的には「偏り」が小さくなるため実は統計的仮説検定の観点からは「多ければ多いほどよい訳では無い」という一見矛盾した話が登場します。（予告）ただし予算などと要相談，できる範囲で頑張ろう 05 母集団と標本 18

19.

母集団と標本のヒストグラム前回登場した図を使って説明大抵の変数の値は様々な要因によってばらつく椅子の平均産の木材産地産の木材仕上げ担当個体ごとの値は様々な要因でばらつくが… 時間ベテランの仕上げ新人の仕上げパーツの寸法全パーツ完璧な寸法製作時期ネジの寸法のズレ冬に作った夏に作ったでも全部の要因はわからないよそこで椅子時間時間椅子の出番です時間母集団と標本 ▶ 完全にランダムに対象を決める（くじ引き的に）母集団での割合要因無作為抽出なら理論的には全ての要因について偏りがなくなるので… 標本での割合各標本の属性情報割合要因木材の産地仕上げ担当者割合木材の産地ベテラン新人要因仕上げ担当者ネジの寸法仕上げ担当者木材の産地新人ベテランベテランネジの寸法 ± ベテラン新人ネジの寸法 ± ± ︙ ︙ ︙ 母集団と標本母集団標本？理論的には母集団と標本のヒストグラムは同じような形になるはず統計的推測ではこの分布の要約統計量に関心があります 05 母集団と標本 19

20.

分布を考えるここから先では「高校生の身長」という変数を例に考えていきます母集団の分布を出発点に考えるもちろん私たちは実際の母集団の分布を知ることはできません。ここでは「もし母集団の分布をある形だと仮定したら何がわかるか」を考えていきます。 ▶ もし母集団の身長の分布が○○だったら… 平均170cm 標準偏差8cm のこんな山型だったら… 標本の身長の分布ここからこんなやつとかランダムに100人取り出したら… こんなやつとか平均170cm 標準偏差8cm でもこんな形だったら… ここからこんなやつとかランダムに100人取り出したら… こんなやつとかもちろん現実にはこんな一様な分布なはずはないですが… 05 母集団と標本母集団の分布によって変わる 20 標本の身長の分布の形は

21.

逆に考えると標本での値の分布について，あり得るパターンを頑張ればすべてリストアップできる，ということです母集団の分布を○○だと仮定すると，得られる標本の分布の可能性がわかる全国の高校生の総数が300万人だとして平均170cm 標準偏差8cm のこんな山型だったら… 標本の身長の分布ここから完全にランダムにこんなやつとか 100人取り出したら… 𝟑𝟎𝟎𝟎𝟎𝟎𝟎𝐂𝟏𝟎𝟎 こんなやつとか実際には標本の分布全体の情報は別に必要ないだいたい10490通りくらい ▶ もし母集団の平均値が知りたければ，標本の平均値がわかっていれば十分かも一例として標本の平均値が取る値の可能性を考えてみます 05 母集団と標本 21

22.

標本の平均値が取りうる値全国の高校生の総数が300万人だとして標本の身長の分布ここから完全にランダムに平均170cm 標準偏差8cm のこんな山型だったら… 100人取り出したら… こんなやつとか標本の分布標本の平均値もし，およそ10490通りの全パターンの標本を実際に集めることができればこんなやつとか … 170.4 … 172.3 ▶ 「標本の平均値の分布」を作ることができる！ 05 母集団と標本 22

23.

ここまでのまとめ 2 1 母集団の分布をなにか仮定する出現しうる標本のパターンが分かる 3 各標本で平均値などを計算する標本の平均値 170.4 母集団分布 169.3 population distribution 4 標本の平均値の分布を作れる ︙ ︙ ︙ ︙ 171.4 172.3 300万人だったら標本分布 sampling distribution つまり「母集団分布が決まると，標本の統計量がとる値の分布：標本分布も一つに決まる」ということですだいたい10490通りくらい 05 母集団と標本 23

24.

【注意！】「標本分布」という名前について「標本の分布」ではなく「標本統計量の分布」です。例：「標本平均の標本分布」「標本相関係数の標本分布」【twitter（現X）上の声】今更な話だけど、sampling distributionの訳語に標本分布が定着してしまったこと、統計教育における負債になってると思う。サンプリング分布か抽出分布と率直に訳すべきだった。そこそこの人が「ややこしいなあ」と思いながらも仕方なく受け入れているのが現状なので，みなさんも勘違いしないように気をつけてください。標本分布、標本分布とはいうが標本の分布じゃなくて標本統計量の分布なので名前を変えたほうがよいのではないかと言ったら同意が得られた標本分布に関しては訳が良くない気がするんよな。元はサンプリンクだからサンプルと区別つくのに日本語だと、どっちも標本じゃん。やべーよ。じゃあ、どうすりゃあいいのかは分かんないけど。 05 母集団と標本 24

25.

手元のデータがどこから発生したのか考える 1 2 各標本が取る値の分布はもともと何か一つに決まっている対応する標本分布が決まる神の視点データ収集 A 1 ID 平民の視点 B 性別 C D 身長 E 体重 F 勉強時間テストの得点 2 1 男 172 70 3.0 91 3 2 女 158 47 0.8 31 4 3 女 160 54 4.0 34 5 4 男 178 69 3.8 51 6 5 女 153 42 1.9 87 7 6 男 169 80 1.9 39 8 7 男 165 70 2.1 48 9 8 女 155 42 0.8 73 10 9 男 159 63 2.4 62 11 10 女 148 40 1.7 34 12 11 女 147 42 1.6 84 標本平均が 167.3cmでした計算 05 母集団と標本 3 集めた標本で平均値を計算する 25

26.

すると統計的推測ができるようになる① 3 標本分布の前提である母集団分布の仮定を評価する 2 標本分布に照らし合わせる 167.3 1 集めた標本で平均値を計算する A 1 ID 標本平均が 167.3cmでした B 性別 C D 身長平均167.3cm のこんな山型だと考えるのが最も妥当である ▶詳しくは資料09で 05 母集団と標本テストの得点 172 70 3.0 91 3 2 女 158 47 0.8 31 4 3 女 160 54 4.0 34 5 4 男 178 69 3.8 51 6 5 女 153 42 1.9 87 7 6 男 169 80 1.9 39 8 7 男 165 70 2.1 48 9 8 女 155 42 0.8 73 10 9 男 159 63 2.4 62 11 10 女 148 40 1.7 34 12 11 女 147 42 1.6 84 167.3cmが最も出現しやすい標本分布はこんなやつ「167.3cm」という標本平均は →のような標本分布よりは↑の標本分布から発生した値である，と考えるほうが自然だよねということ。 ※もちろん，実際にどの分布から発生したのかは絶対にわからない F 勉強時間 1 男平民の視点そんな標本分布ができる母集団分布は E 体重 2 167.3 26

27.

すると統計的推測ができるようになる② 3 標本分布の前提である母集団分布の仮定を評価する平均値165.7の母集団分布そんな標本分布ができる母集団分布の平均は 165.7cmから168.9cmの間だと考えられる ▶詳しくは資料09で 2 標本分布に照らし合わせる 167.3 1 集めた標本で平均値を計算する A 1 ID 標本平均が 167.3cmでした B 性別 C D 身長 05 母集団と標本テストの得点 172 70 3.0 91 3 2 女 158 47 0.8 31 4 3 女 160 54 4.0 34 5 4 男 178 69 3.8 51 6 5 女 153 42 1.9 87 7 6 男 169 80 1.9 39 8 7 男 165 70 2.1 48 9 8 女 155 42 0.8 73 10 9 男 159 63 2.4 62 11 10 女 148 40 1.7 34 12 11 女 147 42 1.6 84 逆に言えば「↓くらいに極端な標本分布からは標本平均167.3はさすがに出現しないだろう」といえる 167.3 F 勉強時間 1 男 167.3cmが出現してもギリギリおかしくない標本分布はこの範囲内にあるものです平均値168.9の母集団分布 E 体重 2 167.3 27

28.

ここまでの説明における重要な仮定母集団分布が山の形をしていること実は，標本分布と母集団分布は一対一の対応ではない母集団分布標本分布平均167.3の山どの母集団分布でも標本平均の標本分布はこのような形になる共通点は平均値が167.3 ＆標準偏差が8 ということだけ ※ 標本平均だけが持つ性質です ※ サンプルサイズが十分に大きいときの話です中心極限定理と呼ばれます ▶ 詳細は資料08 05 母集団と標本 28

29.

ここまでの説明における重要な仮定母集団分布が山の形をしていることつまり標本分布だけでは母集団分布の形まではわからない母集団分布 pp. 26-27では「母集団分布が山の形をしていると仮定して，平均がいくつの山なのか」のみを推定しようとしていたここまでは妥当な推測？標本分布平均167.3の山？ A B 1 ID 標本平均が 167.3cmでした性別 C D 身長 F 勉強時間テストの得点 1 男 172 70 3.0 91 3 2 女 158 47 0.8 31 4 3 女 160 54 4.0 34 5 4 男 178 69 3.8 51 6 5 女 153 42 1.9 87 7 6 男 169 80 1.9 39 8 7 男 165 70 2.1 48 9 8 女 155 42 0.8 73 10 9 男 159 63 2.4 62 11 10 女 148 40 1.7 34 12 11 女 147 42 1.6 84 ？平民の視点 05 母集団と標本 E 体重 2 29

30.

実際のところヒストグラムはデータの分布なのでそれができるなら苦労してないって ▶ 母集団のすべての値がわからないとヒストグラムは描けないそしてヒストグラムは細かすぎる母集団分布分布の形を説明するのが難しい ▶「こういうときはこうなる」と一言でいえない標本分布 140-141の高さが0.02で， 141-142の高さが0.024で， 164-164.1の高さが0.02で， 164.1-164.2の高さが0.023で， …（以下略） …（以下略）ヒストグラムとよく似た何かを使って母集団分布を仮定しようヒストグラムよく似た形の線 a.k.a. 確率分布かわりにということで次回は「確率」のお話に入ります 05 母集団と標本 30