2.2K Views
November 17, 23
スライド概要
神戸大学経営学部で2022年度より担当している「経営統計」の講義資料「05_母集団と標本」を公開用に調整したものです。
神戸大学経営学研究科准教授 分寺杏介(ぶんじ・きょうすけ)です。 主に心理学的な測定・教育測定に関する研究を行っています。 講義資料や学会発表のスライドを公開していきます。 ※スライドに誤りを見つけた方は,炎上させずにこっそりお伝えいただけると幸いです。
経営統計 05 母集団と標本 分寺 杏介 神戸大学 経営学部 [email protected] ※本スライドは,クリエイティブ・コモンズ 表示-非営利 4.0 国際 ライセンス(CC BY-NC 4.0)に従って利用が可能です。
授業計画マップ 例 (統計的)予測 15:実世界での統計学 まずは手元 のデータを まとめる 要 約 す る 2:1変数の記述統計 代表値・散布度 3:2変数の記述統計 共分散・相関・連関 4,5:回帰分析 手元のデータをもとに 「○○全体ではどうだろうか」 を統計的に推測する 6:母集団と標本 7:確率変数と確率分布 8,9:代表的な確率分布 10:標本分布 11:点推定と区間推定 有給取得率が◯◯%で,従業員数が ■■人で,…という会社の純利益は だいたいこれくらいになりそうだ! 統 計 的 仮 説 検 定 結 論 を 出 す 例 有給取得率が高いほど 純利益も高いようだ! 12:仮説検定の考え方 13,14:仮説検定の一例 ▲ 統計的仮説検定のメカニズムを 理解するためにも必要な知識 ※検定の方法は変数の形式などによって 相当いろいろな種類があるので,この授業 では「基本的な考え方」まで導入します。 15:回帰分析の統計的推測 記述統計 推測統計 05 母集団と標本 2
話がガラッと変わります いよいよ統計的推測の世界に足を踏み入れます 特に今回の内容は統計的推測の根本的な概念の話なので, 今回の内容を理解できないと以降はずっと分からないと思います。 計算自体は実はそんなに難しくないのですが… 高度な計算はない(せいぜい標準化に毛が生えた程度だと思う)のですが,むしろ 「なぜその計算をするのか」を理解するのが大変かもしれません。 なので「公式に当てはめて解けた」レベルだと今まで以上に苦しむでしょう 分からないことはガンガン質問しましょう 05 母集団と標本 3
これ以降のお題① 結果の一般化を目指して A 1 ID B 性別 C D 身長 E 体重 F 勉強時間 テストの得点 2 1 男 172 70 3.0 91 3 2 女 158 全国の高校生100人にオンライン調査し 4 3 女 160 5 4 男 178 たら,平均勉強時間が2.5時間だった。 6 5 女 153 ふきだし 今年の全国の高校生の勉強時間の 7 6 男 169 8 7 男 165 平均ってどんなもんだと思う?? 47 0.8 31 54 4.0 34 69 3.8 51 42 1.9 87 80 1.9 39 70 2.1 48 9 8 女 155 42 0.8 73 10 9 男 159 63 2.4 62 11 10 女 148 40 1.7 34 12 11 女 147 42 1.6 84 そりゃ2.5時間なんじゃないですか…? 今回集まった100人ではたまたま2.5時間だったが 別の100人に調査したら平均値は変わるはず ▶ 多少のズレを考慮した推測が求められる この区間推定の解釈は厳密には少し正しくないです。 後の回で正しい解釈はお伝えしますが, 現時点ではわかりやすさ重視でわざと曲解します。 「一つの値を出せ」と言われたら 2.5時間で良いのですが ランダムなばらつきを考えると 大体2.3~2.7時間くらいと予測する のが妥当ではないでしょうか。 点推定・区間推定しよう 05 母集団と標本 4
これ以降のお題② 結果の一般化を目指して A 1 ID B 性別 C D 身長 E 体重 全国の高校生100人にオンライン調査 2 1 男 172 3 2 女 158 したら,平均勉強時間が2.5時間だった。 4 3 女 160 過去10年の平均が2.3時間なんだけど, 5 4 男 178 ふきだし 6 5 女 今年の高校生の勉強時間って 153 7 6 男 169 例年より長いと言えるかねぇ?? 8 7 男 165 F 勉強時間 テストの得点 70 3.0 91 47 0.8 31 54 4.0 34 69 3.8 51 42 1.9 87 80 1.9 39 70 2.1 48 9 8 女 155 42 0.8 73 10 9 男 159 63 2.4 62 11 10 女 148 40 1.7 34 12 11 女 147 42 1.6 84 過去の平均値より0.2時間長い平均値 なんだから長いんじゃないですか…? 第1回で説明したように 今回集まった100人ではたまたま長かっただけで, 別の100人に調査したら平均値は変わるはず ▶ 全国の高校生全体でも例年より長いかはまだわからない 「今年の高校生の勉強時間の平均が2.3時間」 という仮定のもとでは,そのうち100人の 平均勉強時間が2.5時間以上になる確率は およそ20.1%です。 したがって,今年の高校生の平均勉強時間は 2.3時間より長いとはいえなさそうです。 統計的仮説検定しよう 05 母集団と標本 5
集団全体の性質を知るためには 手っ取り早いのは全部調べる方法 しっかい ▶ 全数調査 または 悉皆調査 と呼ばれる 例|国勢調査,神大生が一ヶ月に借りる本の数の平均 カネならいくらでも出すぞい 日本全国の全高校生 およそ300万人に アンケート 平均勉強時間: ? 時間 全国の高校生 平均値を計算 答えがそのまま ? に入る 05 母集団と標本 6
集団全体の性質を知るのは もちろんそう簡単ではない 統計勉強したくないから 金持ちを目指すぜ コスト・時間が掛かりすぎる 前ページの例のように国家レベルの権力・財力が無いと厳しい そもそもできない 例|海水の塩分濃度は何%? ▶ 海の水ぜんぶ抜く必要が出てきてしまう できるけどやってしまうと問題が発生する 例|椅子の耐久時間は? ▶ 全部壊れるまで試験すると売り物がなくなってしまう 05 母集団と標本 集めた海水 どこに貯めましょうか? 1万時間テストして 壊れなかったものだけ 出荷します 7
集団全体の性質を知るためには 代わりに一部だけ取り出してチェックする ▶ 標本調査 たくさんの椅子 壊れるまで テスト 基準をクリア したら出荷 ・ ・ ・ 05 母集団と標本 ・ ・ ・ 8
やりたいことの本質は同じ 手元のデータからもっと大きな集団の性質を推測したい 100人の高校生 全国の高校生 データ A 1 ID B 性別 C D 身長 E 体重 F 勉強時間 テストの得点 2 1 男 172 70 3.0 91 3 2 女 158 47 0.8 31 4 3 女 160 54 4.0 34 5 4 男 178 69 3.8 51 6 5 女 153 42 1.9 87 7 6 男 169 80 1.9 39 8 7 男 165 70 2.1 48 9 8 女 155 42 0.8 73 10 9 男 159 63 2.4 62 11 10 女 148 40 1.7 34 12 11 女 147 42 1.6 84 05 母集団と標本 9
そのためには 言われなくとも「当たり前のこと」と感じるかもしれませんが,やりたいことが 「手元のデータの推測」ではなく「その背後にあるもっと大きな集団についての推測」である ということを今後忘れないように・間違えないようにしてください まずは手元のデータがもっと大きな集団の一部だと考える 100人の高校生 全国の高校生 データ A 1 ID B 性別 C D 身長 E 体重 F 勉強時間 テストの得点 2 1 男 172 70 3.0 91 3 2 女 158 47 0.8 31 4 3 女 160 54 4.0 34 5 4 男 178 69 3.8 51 6 5 女 153 42 1.9 87 7 6 男 169 80 1.9 39 8 7 男 165 70 2.1 48 9 8 女 155 42 0.8 73 10 9 男 159 63 2.4 62 11 10 女 148 40 1.7 34 12 11 女 147 42 1.6 84 05 母集団と標本 10
用語を使って population sample 標本 まずは が 母集団 標本 の一部だと考える 母集団 データ A 1 ID B 性別 C D 身長 E 体重 F 勉強時間 テストの得点 2 1 男 172 70 3.0 91 3 2 女 158 47 0.8 31 4 3 女 160 54 4.0 34 5 4 男 178 69 3.8 51 6 5 女 153 42 1.9 87 7 6 男 169 80 1.9 39 8 7 男 165 70 2.1 48 9 8 女 155 42 0.8 73 10 9 男 159 63 2.4 62 11 10 女 148 40 1.7 34 12 11 女 147 42 1.6 84 05 母集団と標本 11
目的を整理すると 1 サンプルサイズ 母集団からランダムな 𝑛 個のデータが得られた sample size 標本 データ A 1 ID B 性別 C D 身長 E 体重 平均勉強時間: ? テストの得点 2 1 男 172 70 3.0 91 3 2 女 158 47 0.8 31 4 3 女 160 54 4.0 34 5 4 男 178 69 3.8 51 6 5 女 153 42 1.9 87 7 6 男 169 80 1.9 39 8 7 男 165 70 2.1 48 9 8 女 155 42 0.8 73 10 9 男 159 63 2.4 62 11 10 女 148 40 1.7 34 12 11 女 147 42 1.6 84 2 母集団 F 勉強時間 母集団の平均勉強時間の真の値はわからないものなので 手元のデータから推測するのです 時間 平均勉強時間:2.5時間 得られたデータで 標本統計量を計算する 母数 parameter 3 標本統計量をもとに 母集団の値を推測する 05 母集団と標本 母集団の平均勉強時間 ( に当てはまる値)はだいたい 2.3~2.7時間くらいでしょう 12
目的を整理すると 1 サンプルサイズ 母集団からランダムな 𝑛 個のデータが得られた 母集団の平均勉強時間の真の値はわからないものなので 手元のデータから推測するのです sample size 標本 データ A 1 ID B 性別 2 1 男 3 2 女 4 3 女 5 4 男 6 5 女 7 6 男 8 7 男 9 C D 身長 E 体重 172 テストの得点 3.0 時間 91 前回までに やってきた内容はここ 158 47 0.8 31 160 54 4.0 34 178 69 3.8 51 153 42 1.9 87 169 80 1.9 39 165 70 2.1 48 8 女 155 42 0.8 73 10 9 男 159 63 2.4 62 11 10 女 148 40 1.7 34 12 11 女 147 42 1.6 84 2 平均勉強時間: ? F 勉強時間 70 母集団 平均勉強時間:2.5時間 得られたデータで 標本統計量を計算する 3 今回から やる内容はここ 標本統計量をもとに 母集団の値を推測する の理論を学んでいきます 05 母集団と標本 13
標本調査にあたっての注意点 標本に偏りがあってはならない 集団全体の性質を知るためには 壊れにくい椅子を作ると評判の 職人が作ったものだけ集める 代わりに一部だけ取り出してチェックする ▶ 標本調査 売り物 たくさんの椅子 より壊れにくい 壊れるまで ▶ テストを通過 テスト ここでの 「偏り」とは? 出荷したら クレーム連発 基準をクリア したら出荷 ・・・ ・・・ 母集団と標本 05 母集団と標本 椅子の上で暴れたら すぐ壊れたぞ!! 14
前回登場した図を使って説明 大抵の変数の値は様々な要因によってばらつく 椅子の平均 10000時間 ○○産の木材 +500 △△産の木材 -500 産地 仕上げ担当 ベテランの仕上げ +450 新人の仕上げ -150 パーツの寸法 ネジの寸法のズレ -200 全パーツ完璧な寸法 +500 製作時期 冬に作った -100 夏に作った +150 etc. 9000 10000 10500 11000 椅子B 椅子A 9475時間 10726時間 05 母集団と標本 時間 15
大抵の変数の値は様々な要因によってばらつく 椅子の平均 10000時間 壊れにくい椅子を作ると評判の ○○産の木材 職人が作ったものだけ集める +500 △△産の木材 -500 産地 仕上げ担当 ベテランの仕上げ +450 新人の仕上げ -150 パーツの寸法 ネジの寸法のズレ -200 全パーツ完璧な寸法 +500 製作時期 冬に作った -100 夏に作った 全ての椅子が +450+150 スタート etc. 9000 10000 椅子B 「偏り」とは? 9475時間 テストの結果も 10500 +450 11000 時間 椅子A ばらつきを発生させるあらゆる要素のこと 10726時間 05 母集団と標本 16
でも全部の要因はわからないよ random sampling そこで無作為抽出の出番です ▶ 完全にランダムに対象を決める (くじ引き的に) 母集団での割合 要因 割合 木材の産地 仕上げ担当者 ネジの寸法 標本での割合 各標本の属性情報 ○○ 30% △△ 70% ベテラン 50% 新人 50% +0-0.3mm 30% ±0mm 2% -0.3-0mm 30% 要因 … 要因 No. 254 No. 831 No. 1599 木材の産地 ○○ △△ ○○ … 新人 … ±0mm … 仕上げ担当者 ベテラン ベテラン ネジの寸法 +0.3mm -0.2mm ︙ ︙ 割合 木材の産地 仕上げ担当者 ネジの寸法 ○○ 30% △△ 70% ベテラン 50% 新人 50% +0-0.3mm 30% ±0mm 2% -0.3-0mm 30% ︙ たくさん集めたら理論的には どの要素についても「偏り」はなくなる 05 母集団と標本 17
無作為抽出の注意点 実際には完全な無作為はかなり難しい 特に人間を対象とした場合 例|高校生の勉強時間 ▶ 全国の高校生300万人からくじ引き→当たった人に調査 実際には「できる範囲で頑張る」 例|二段階抽出 ▶ 学校を無作為抽出 → 各学校から10人ずつ無作為抽出 調査依頼する学校の数が減るのでまだマシ 例|層化抽出 ▶ 偏差値帯ごとに学校を5つずつ抽出 →各学校から10人ずつ無作為抽出 ▲ 絶対に偏りが生じてはいけない要素がある場合におすすめ 例|母集団のほうを限定する ▶ 神戸市内の高校生から無作為抽出 → 結果は神戸市内の高校生の勉強時間 サンプルサイズは大きいほど良い 理論的には「偏り」が小さくなるため 実は統計的仮説検定の観点からは 「多ければ多いほどよい訳では無い」という 一見矛盾した話が登場します。(予告) ただし予算などと要相談,できる範囲で頑張ろう 05 母集団と標本 18
母集団と標本のヒストグラム 前回登場した図を使って説明 大抵の変数の値は様々な要因によってばらつく 椅子の平均 産の木材 産地 産の木材 仕上げ担当 個体ごとの値は様々な要因でばらつくが… 時間 ベテランの仕上げ 新人の仕上げ パーツの寸法 全パーツ完璧な寸法 製作時期 ネジの寸法のズレ 冬に作った 夏に作った でも全部の要因はわからないよ そこで 椅子 時間 時間 椅子 の出番です 時間 母集団と標本 ▶ 完全にランダムに対象を決める (くじ引き的に) 母集団での割合 要因 無作為抽出なら理論的には 全ての要因について偏りがなくなるので… 標本での割合 各標本の属性情報 割合 要因 木材の産地 仕上げ担当者 割合 木材の産地 ベテラン 新人 要因 仕上げ担当者 ネジの寸法 仕上げ担当者 木材の産地 新人 ベテラン ベテラン ネジの寸法 ± ベテラン 新人 ネジの寸法 ± ± ︙ ︙ ︙ 母集団と標本 母集団 標本? 理論的には母集団と標本のヒストグラムは 同じような形になるはず 統計的推測ではこの分布の 要約統計量に関心があります 05 母集団と標本 19
分布を考える ここから先では「高校生の身長」という変数を例に考えていきます 母集団の分布を出発点に考える もちろん私たちは実際の母集団の分布を知ることはできません。 ここでは「もし母集団の分布をある形だと仮定したら何がわかるか」を考えていきます。 ▶ もし母集団の身長の分布が○○だったら… 平均170cm 標準偏差8cm のこんな山型だったら… 標本の身長の分布 ここから こんなやつとか ランダムに100人 取り出したら… こんなやつとか 平均170cm 標準偏差8cm でもこんな形だったら… ここから こんなやつとか ランダムに100人 取り出したら… こんなやつとか もちろん現実にはこんな一様な分布なはずはないですが… 05 母集団と標本 母 集 団 の 分 布 に よ っ て 変 わ る 20 標 本 の 身 長 の 分 布 の 形 は
逆に考えると 標本での値の分布について,あり得るパターンを 頑張ればすべてリストアップできる,ということです 母集団の分布を○○だと仮定すると,得られる標本の分布の可能性がわかる 全国の高校生の総数が300万人だとして 平均170cm 標準偏差8cm のこんな山型だったら… 標本の身長の分布 ここから 完全にランダムに こんなやつとか 100人 取り出したら… 𝟑𝟎𝟎𝟎𝟎𝟎𝟎𝐂𝟏𝟎𝟎 こんなやつとか 実際には標本の分布全体の情報は別に必要ない だいたい10490通りくらい ▶ もし母集団の平均値が知りたければ,標本の平均値がわかっていれば十分かも 一例として 標本の平均値が取る値の可能性を考えてみます 05 母集団と標本 21
標本の平均値が取りうる値 全国の高校生の総数が300万人だとして 標本の身長の分布 ここから 完全にランダムに 平均170cm 標準偏差8cm のこんな山型だったら… 100人 取り出したら… こんなやつとか 標本の分布 標本の平均値 もし,およそ10490通りの全パターンの標本を 実際に集めることができれば こんなやつとか … 170.4 … 172.3 ▶ 「標本の平均値の分布」を作ることができる! 05 母集団と標本 22
ここまでのまとめ 2 1 母集団の分布を なにか仮定する 出現しうる標本の パターンが分かる 3 各標本で平均値 などを計算する 標本の平均値 170.4 母集団分布 169.3 population distribution 4 標本の平均値の 分布を作れる ︙ ︙ ︙ ︙ 171.4 172.3 300万人だったら 標本分布 sampling distribution つまり「母集団分布が決まると,標本の統計量が とる値の分布:標本分布も一つに決まる」ということです だいたい10490通りくらい 05 母集団と標本 23
【注意!】「標本分布」という名前について 「標本の分布」ではなく「標本統計量の分布」です。 例:「標本平均の標本分布」「標本相関係数の標本分布」 【twitter(現X)上の声】 今更な話だけど、sampling distributionの訳語に標本分布が 定着してしまったこと、統計教育における負債になってると思う。 サンプリング分布か抽出分布と率直に訳すべきだった。 そこそこの人が「ややこしいなあ」と思いながらも 仕方なく受け入れているのが現状なので, みなさんも勘違いしないように気をつけてください。 標本分布、標本分布とはいうが標本の分布じゃなくて標本統計 量の分布なので名前を変えたほうがよいのではないかと言った ら同意が得られた 標本分布に関しては訳が良くない気がするんよな。元はサンプリ ンクだからサンプルと区別つくのに日本語だと、どっちも標本じゃ ん。やべーよ。じゃあ、どうすりゃあいいのかは分かんないけど。 05 母集団と標本 24
手元のデータがどこから発生したのか考える 1 2 各標本が取る値の分布は もともと何か一つに決まっている 対応する 標本分布が決まる 神の視点 データ収集 A 1 ID 平民の視点 B 性別 C D 身長 E 体重 F 勉強時間 テストの得点 2 1 男 172 70 3.0 91 3 2 女 158 47 0.8 31 4 3 女 160 54 4.0 34 5 4 男 178 69 3.8 51 6 5 女 153 42 1.9 87 7 6 男 169 80 1.9 39 8 7 男 165 70 2.1 48 9 8 女 155 42 0.8 73 10 9 男 159 63 2.4 62 11 10 女 148 40 1.7 34 12 11 女 147 42 1.6 84 標本平均が 167.3cmでした 計算 05 母集団と標本 3 集めた標本で 平均値を計算する 25
すると統計的推測ができるようになる① 3 標本分布の前提である 母集団分布の仮定を評価する 2 標本分布に 照らし合わせる 167.3 1 集めた標本で 平均値を計算する A 1 ID 標本平均が 167.3cmでした B 性別 C D 身長 平均167.3cm の こんな山型だと考えるのが 最も妥当である ▶詳しくは資料09で 05 母集団と標本 テストの得点 172 70 3.0 91 3 2 女 158 47 0.8 31 4 3 女 160 54 4.0 34 5 4 男 178 69 3.8 51 6 5 女 153 42 1.9 87 7 6 男 169 80 1.9 39 8 7 男 165 70 2.1 48 9 8 女 155 42 0.8 73 10 9 男 159 63 2.4 62 11 10 女 148 40 1.7 34 12 11 女 147 42 1.6 84 167.3cmが最も出現しやすい 標本分布はこんなやつ 「167.3cm」という標本平均は →のような標本分布よりは↑の標本分布から 発生した値である,と考えるほうが自然だよね ということ。 ※もちろん,実際にどの分布から発生したのかは 絶対にわからない F 勉強時間 1 男 平民の視点 そんな標本分布ができる 母集団分布は E 体重 2 167.3 26
すると統計的推測ができるようになる② 3 標本分布の前提である 母集団分布の仮定を評価する 平均値165.7の 母集団分布 そんな標本分布ができる 母集団分布の平均は 165.7cmから168.9cmの間 だと考えられる ▶詳しくは資料09で 2 標本分布に 照らし合わせる 167.3 1 集めた標本で 平均値を計算する A 1 ID 標本平均が 167.3cmでした B 性別 C D 身長 05 母集団と標本 テストの得点 172 70 3.0 91 3 2 女 158 47 0.8 31 4 3 女 160 54 4.0 34 5 4 男 178 69 3.8 51 6 5 女 153 42 1.9 87 7 6 男 169 80 1.9 39 8 7 男 165 70 2.1 48 9 8 女 155 42 0.8 73 10 9 男 159 63 2.4 62 11 10 女 148 40 1.7 34 12 11 女 147 42 1.6 84 逆に言えば「↓くらいに極端な標本分布からは 標本平均167.3はさすがに出現しないだろう」といえる 167.3 F 勉強時間 1 男 167.3cmが出現しても ギリギリおかしくない標本分布は この範囲内にあるものです 平均値168.9の 母集団分布 E 体重 2 167.3 27
ここまでの説明における重要な仮定 母集団分布が山の形をしていること 実は,標本分布と母集団分布は一対一の対応ではない 母集団分布 標本分布 平均167.3の山 どの母集団分布でも 標本平均の標本分布は このような形になる 共通点は 平均値が167.3 & 標準偏差が8 ということだけ ※ 標本平均だけが持つ性質です ※ サンプルサイズが十分に大きいときの話です 中心極限定理と呼ばれます ▶ 詳細は資料08 05 母集団と標本 28
ここまでの説明における重要な仮定 母集団分布が山の形をしていること つまり標本分布だけでは母集団分布の形まではわからない 母集団分布 pp. 26-27では 「母集団分布が山の形をしていると 仮定して,平均がいくつの山なのか」 のみを推定しようとしていた ここまでは妥当な推測 ? 標本分布 平均167.3の山 ? A B 1 ID 標本平均が 167.3cmでした 性別 C D 身長 F 勉強時間 テストの得点 1 男 172 70 3.0 91 3 2 女 158 47 0.8 31 4 3 女 160 54 4.0 34 5 4 男 178 69 3.8 51 6 5 女 153 42 1.9 87 7 6 男 169 80 1.9 39 8 7 男 165 70 2.1 48 9 8 女 155 42 0.8 73 10 9 男 159 63 2.4 62 11 10 女 148 40 1.7 34 12 11 女 147 42 1.6 84 ? 平民の視点 05 母集団と標本 E 体重 2 29
実際のところ ヒストグラムはデータの分布なので それができるなら苦労してないって ▶ 母集団のすべての値がわからないとヒストグラムは描けない そしてヒストグラムは細かすぎる 母集団分布 分布の形を説明するのが難しい ▶「こういうときはこうなる」と一言でいえない 標本分布 140-141の高さが0.02で, 141-142の高さが0.024で, 164-164.1の高さが0.02で, 164.1-164.2の高さが0.023で, …(以下略) …(以下略) ヒストグラムとよく似た何かを使って母集団分布を仮定しよう ヒストグラム よく似た形の線 a.k.a. 確率分布 かわりに ということで次回は「確率」のお話に入ります 05 母集団と標本 30