第4回分布と推定(pdf)

656 Views

November 08, 23

#社会科学調査 #統計学 #正規分布 #標本分布 #母集団平均値推定

スライド概要

Yuma Ishii

@7583596

スライド一覧

university student

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

第2回サンプルサイズと尺度値(pdf)

Yuma Ishii 0.9K

第3回記述統計(pdf)

Yuma Ishii 400

学振特別研究員になるために～2026年度申請版

pd jsps 学振 dc1 dc2 研究費申請書キャリア

大上雅史 2.9M

EGG '24 | ゲーム業界ホワイト化の光と影

egg24 プロ

EGG（EEKANJI NO GAME GAKKAI） 1.7M

統計学I-1

講義資料統計学

Logics of Blue 301.2K

中級者による初心者のための「綿形混合モデル」

奥村泰之 223.5K

各ページのテキスト

正規分布と平均値の推定第4回社会科学情報処理本資料は立教大学「社会科学情報処理(古賀)」の授業での使用を目的としたものです。当該授業での学習目的以外の利用を禁じます。また本資料の全体、または一部のインターネットへのアップロード、または二次使用などを一切禁じます。

調査の妥当性の判断と分布独立した多様な要因に影響される母集団の分布は正規分布に近似 • 自然現象、身長、意見、感情、態度など • 収入や体重、売り上げ数、閲覧数などは正規分布にならないとされるその母集団から採取された標本の分布も正規分布に近似 • 充分なサンプルサイズがあること • 妥当性の高い調査の結果であること正規分布に近似すると予測できる標本に分布の歪みがある場合標本サイズが小さいか回答に偏りが生じている可能性がある

正規分布ではσの区間に一定の%で標本が含まれる標本がとる値の範囲が異なってもこことここに含まれる標本の割合は同じ範囲大の標本つまりばらつきの大きさに関わらず、正規分布であれば平均±σの範囲に標本の約68.3%が含まれるばらつきの大きな標本＝歪みのある標本ではない範囲小の標本

「歪みのある標本」とは？① 左右対称でない（片方の裾が長い）分布 •「歪度」という指標で表す •基準（正規分布の形であることを表す）値は０ •裾が右に長い（山が左寄り）場合は正の値、左に長い（山が右寄り）場合は負の値になる •０～±0.5未満は「歪み無し」、±0.5～±1未満は「やや歪み」、±1を超えると「大きなゆがみ」吉田寿夫「本当にわかりやすいすごく大切なことが書いてあるごく初歩の統計の本」北大路書房 p.53

「歪みのある標本」とは？➁ 山が2つ以上ある、または裾がなだらかでない分布 • 「尖度」という指標で表す • 正規分布であることを表す基準値は本来３だがわかりにくいため統計ソフトでは0に補正されている • 裾が重い（中央に集中）場合は正、裾が軽い（全体に分散または複数の山が存在）場合は負になる • 歪度と異なり歪みの程度を判断する基準値がないので実際の分布も見て歪みの程度を判断する吉田寿夫「本当にわかりやすいすごく大切なことが書いてあるごく初歩の統計の本」北大路書房 p.55

歪みのある標本とは③ 平均値が最大値または最小値に極端に偏った標本天井効果床効果最大値＜平均値+標準偏差最小値＞平均値－標準偏差 80 100 90 80 70 60 50 40 30 20 10 0 70 60 50 40 30 20 10 0 1 2 3 4 5 6 平均4.72 SD1.30 M+SD=6.02 1 2 3 4 5 6 平均1.99 SD1.25 M-SD=0.75

標本に歪みが見られた場合正規分布に近似する標本多様な要因が独立して影響している正規分布に近似していない特定の要因の影響を強く受けている可能性質問項目や実施手順に問題がある可能性調査人数や項目、手順を見直すただし絶対的な基準ではないので見直して問題なければそのまま分析する場合もある

母集団の平均値と標本の平均値社会調査で得られた結果は、回答者の傾向を示している回答者の傾向＝社会全体の傾向だろうか？ • 統計では調査したい対象全体のことを「母集団」という • 「母」には「元になるもの」という意味がある • たとえば「大学生の収入」を調べるなら母集団は「(日本中の)大学生全員」で構成される • 世界規模で考えたいなら母集団は「世界中の大学生」になる • 対象全体の中から実際に調査された対象を「標本」という • 上の例なら「大学生の収入」調査で実際に回答した人達が「標本」を構成する

10.

母集団と標本の誤差 ■ 「母集団」の中から調査のために抽出された対象が「標本」 – 「母集団の構成要素」ではあるが「母集団そのもの」ではない ■ 母集団の全数調査でない限りは「調査結果」と「実際の母集団の傾向」との間に誤差が生じる標本:母集団の傾向とずれが生じる母集団 (偏りが無いように選んだならその時点で無作為抽出ではなく母集団の傾向から偏ってしまう)

11.

調査したいのは「母集団」調査しているのは「標本」標本の結果から母集団の傾向を推定する必要がある ■ 点推定 – 平均値＝母集団の平均値と推定する ■ どの程度ずれている可能性があるかわからず偶然性も高い – 「たまたま今回こういう結果だっただけ」かもしれない ■ 区間推定 – 母集団の平均がとり得る範囲を推定する ■ 実際の値とのずれを考慮できる ■ 偶然性を考慮する必要が低い – 精度は確率で表せる栗原伸一・丸山敦史「統計学図鑑」オーム社

12.

どのように推定するか ① 正規分布の形を利用する正規分布は基本の形が決まっている正規分布になる対象の「平均値」と「標準偏差」が分かると • ある値が全体のどのあたりに位置するかがわかる • テストが75点だった時、上位から見て何%以内に入るのか？ • 身長175cmは日本人の平均から見て何%の範囲に入るのか？ • わりと普通なのか、結構高い方なのか？ • 分布がどの程度の範囲に収まるかがわかる • 試験を受けた人の50%は何点から何点までの範囲に収まるか？ • みんな何点くらいとっていたのか？

13.

涌井良幸・涌井貞美「文系のための統計学の教室」SB Creative 正規分布表 ① 横軸の値をaで表す ② 平均が0、標準偏差(σ)が1、全体の面積が１の正規分布を想定 ③ 平均0(＝分布の中心)からaまでの範囲の面積を表にしたもの – 実際のデータには以下のようにあてはめる ■ 表の標準偏差が1なので、0~aは平均値から標本の標準偏差×aまでの範囲とみなす – たとえば実際の標準偏差が1.5でaが2なら平均値から+3までの範囲に含まれるデータの割合が調べられる ■ 全体が1(100%)なので、表の面積の値は分布内の割合に該当する – 面積は0からaの範囲に対象全体の何%が含まれているかを表すことになる

14.

標準正規分布表 (Z=3.00まで) 縦の列は小数点1桁までの値、横の列は小数点2桁の値を表すたとえば中心から平均±1.75σの範囲に全体の何%のデータが含まれるか見たいとする 1. まず縦の1.70と横の0.05の交点にあたる位置を見る 2. 1.75の位置には0.4599と書いてあるので、0から正方向と負の方向のそれぞれに全体の45.99%が含まれることが分かる 3. 正負両方向に広がる範囲をみるなら面積を倍にする＝平均±1.75σの範囲には全体の91.98%が含まれる逆に全体の80%のデータが含まれる範囲を見るには80% の半分=0.400に近い値を表から探す。 1.28の0.3997が一番0.4に近いので、平均±1.28σの範囲に約80%が含まれていることが分かる。 Z 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3 0 0 0.0398 0.0793 0.1179 0.1554 0.1915 0.2257 0.258 0.2881 0.3159 0.3413 0.3643 0.3849 0.4032 0.4192 0.4332 0.4452 0.4554 0.4641 0.4713 0.4772 0.4821 0.4861 0.4893 0.4918 0.4938 0.4953 0.4965 0.4974 0.4981 0.4987 0.01 0.004 0.0438 0.0832 0.1217 0.1591 0.195 0.2291 0.2611 0.291 0.3186 0.3438 0.3665 0.3869 0.4049 0.4207 0.4345 0.4463 0.4564 0.4649 0.4719 0.4778 0.4826 0.4864 0.4896 0.492 0.494 0.4955 0.4966 0.4975 0.4982 0.02 0.008 0.0478 0.0871 0.1255 0.1628 0.1985 0.2324 0.2642 0.2939 0.3212 0.3461 0.3686 0.3888 0.4066 0.4222 0.4357 0.4474 0.4573 0.4656 0.4726 0.4783 0.483 0.4868 0.4898 0.4922 0.4941 0.4956 0.4967 0.4976 0.4982 0.03 0.012 0.0517 0.091 0.1293 0.1664 0.2019 0.2357 0.2673 0.2967 0.3238 0.3485 0.3708 0.3907 0.4082 0.4236 0.437 0.4484 0.4582 0.4664 0.4732 0.4788 0.4834 0.4871 0.4901 0.4925 0.4943 0.4957 0.4968 0.4977 0.4983 0.04 0.016 0.0557 0.0948 0.1331 0.17 0.2054 0.2389 0.2704 0.2995 0.3264 0.3508 0.3729 0.3925 0.4099 0.4251 0.4382 0.4495 0.4591 0.4671 0.4738 0.4793 0.4838 0.4875 0.4904 0.4927 0.4945 0.4959 0.4969 0.4977 0.4984 0.05 0.0199 0.0596 0.0987 0.1368 0.1736 0.2088 0.2422 0.2734 0.3023 0.3289 0.3531 0.3749 0.3944 0.4115 0.4265 0.4394 0.4505 0.4599 0.4678 0.4744 0.4798 0.4842 0.4878 0.4906 0.4929 0.4946 0.496 0.497 0.4978 0.4984 0.06 0.0239 0.0636 0.1026 0.1406 0.1772 0.2123 0.2454 0.2764 0.3051 0.3315 0.3554 0.377 0.3962 0.4131 0.4279 0.4406 0.4515 0.4608 0.4686 0.475 0.4803 0.4846 0.4881 0.4909 0.4931 0.4948 0.4961 0.4971 0.4979 0.4985 0.07 0.0279 0.0675 0.1064 0.1443 0.1808 0.2157 0.2486 0.2794 0.3078 0.334 0.3577 0.379 0.398 0.4147 0.4292 0.4418 0.4525 0.4616 0.4693 0.4756 0.4808 0.485 0.4884 0.4911 0.4932 0.4949 0.4962 0.4972 0.4979 0.4985 0.08 0.0319 0.0714 0.1103 0.148 0.1844 0.219 0.2517 0.2823 0.3106 0.3365 0.3599 0.381 0.3997 0.4162 0.4306 0.4429 0.4535 0.4625 0.4699 0.4761 0.4812 0.4854 0.4887 0.4913 0.4934 0.4951 0.4963 0.4973 0.498 0.4986 0.09 0.0359 0.0753 0.1141 0.1517 0.1879 0.2224 0.2549 0.2852 0.3133 0.3389 0.3621 0.383 0.4015 0.4177 0.4319 0.4441 0.4545 0.4633 0.4706 0.4767 0.4817 0.4857 0.489 0.4916 0.4936 0.4952 0.4964 0.4974 0.4981 0.4986

15.

どのように推定するか➁ 標本平均の性質を利用する：大数の法則 ■ 母集団から標本を採取して平均をとることを繰り返す ■ 繰り返された標本平均の分布は、標本サイズが大きくなるほど母平均に近い値が出やすくなり、散布度も小さくなるつまり調査の標本サイズが充分大きければ標本の平均値と母集団の平均値が一致する可能性が高い栗原伸一・丸山敦史「統計学図鑑」オーム社

16.

どのように推定するか③ 標本平均の性質を利用する：中心極限定理 ■ 標本平均の分布は正規分布に近似するとされる – 標本サイズが大きい程正規分布に近くなる – 標本平均の平均は母集団の平均μに一致する – 標本平均の標準偏差は√母集団の分散÷標本人数になる ■ この値を標準誤差（standard error; SE）という涌井良幸・涌井貞美「統計学の図鑑」技術評論社

17.

参考：「１から20までの値をランダムサンプリングした標本の平均値」の分布（標本数700）１から20までの値が同じ確率で出現する場合、平均値は10.5になると考えられる • 標本数が少ないと標本ごとの平均値のばらつきは大きい(本来の平均値から離れた値が出やすい) • 標本数が増えるほど標本の平均値は10.5に近づき、散布度も小さい(母集団の平均に一致しやすい)

18.

標本平均と正規分布の特徴を利用して母集団の平均が入る範囲を推測する① ■ 標本平均の特徴③「中心極限定理」から標本平均分布を推測 1. 調査で得られた標本平均は「標本平均分布」に含まれる値の1つ 2. 標本平均の分布は（標本サイズが30以上ならば）「平均値が標本平均値、標準偏差が√母集団の分散÷標本人数」の正規分布に近似する標準誤差 ■ 平均、標本人数は調査人数と調査結果の平均をあてはめる ■ 母集団の分散は不偏分散を利用する – 不偏分散𝜎 2 = σ xi −തx 2 n−1 nは標本の人数を表す。標本の分散はn(人数)で割るが、母集団の分散は標本より小さいのでn-1で割ることで補正したのが不偏分散。

19.

標本平均と正規分布の特徴を利用して母集団の平均が入る範囲を推測する➁ ■ 複数存在する「標本の平均」の中で発生する確率が何%までの範囲を「母集団の平均が入る範囲」として採用するか決める – 正規分布の左端、右端は確率が低くてもいいならどこまでも伸ばすことができるので、値の範囲を区切る必要がある – 慣習的に95%範囲が利用される ―4σ、―5σ… 4σ、5σ… 99.9999…%と確率をふやしていいのであれば4σ、5σ…と範囲を広げていけるが推定の範囲が広すぎる（たとえば100点満点のテストで「平均は0から100点の間です」と推定する）と推定としての意味がないので範囲を決めて区切る ©2007 M. W. Toews Wikimedia commons, cc by2.5

20.

信頼区間とは ■ 母集団の平均が存在すると考えられる範囲のこと – 標本から推測される標本分布は、標本と母集団の平均との誤差の分だけ位置がずれていると考えられる – 標本平均の95%までを信頼区間としたならば、一番左端、右端にあたる値(下限値、上限値)は信頼区間の中にぎりぎり母集団平均が含まれることになる ■ 95%の範囲を外れると信頼区間には母集団平均が含まれない ■ 95%の信頼区間とは、100回標本平均をとった場合に、そのうち95回分の標本平均の信頼区間に母集団平均が含まれることを意味する

21.

信頼区間のイメージ標本平均の分布ある標本平均が信頼区間の下限ぎりぎりの値だとする ©2016 ARAKI Satoru Wikimedia Commons, CC 表示-継承 4.0 母集団の平均標本平均の95%が存在する範囲 (青で塗られた面積) 95%信頼区間推定された標本分布の位置はここになるある標本の平均この標本の信頼区間標本平均が下限値であれば信頼区間ぎりぎりが母集団の平均である可能性があるある標本平均が上限ぎりぎりの値でも同様に信頼区間に母集団の平均が含まれる。逆に5%の確率で生じる「信頼区間を外れた標本平均」で区間推定した場合、その中には母集団の平均は含まれていないことになる。

22.

信頼区間の意味実質的には「母集団の平均が95%の確率で存在する範囲」だが、厳密には「推定範囲に母集団の値が含まれる確率が 95%ある範囲」ということになる。栗原伸一・丸山敦史「統計学図鑑」オーム社

23.

標本平均と正規分布の特徴を利用して母集団の平均が入る範囲を推測する③ ■ 分布全体の95%＝面積95%あたる範囲を信頼区間とする ■ 区間の幅は標準偏差で調べられる – 面積95%の範囲は平均値±標準偏差×a – aの値を正規分布表で調べる半分の 47.5% ■ 分布表は平均から正方向のみを扱う平均 ■ 表には実際に調べる範囲の半分の面積について書かれているので95%=0.950を2で割った0.475の値を表から探すこの範囲が標準偏差の何倍かが正規分布 ■ 縦と横に辿ると1.96であることが分かる表でわかる ■ つまり平均値±標準偏差×1.96の範囲が信頼区間となる

24.

ビデオリサーチ社：視聴率（関東地区2700世帯）百分率(%)の信頼区間(母比率の推定) ■ %の値と標本サイズがわかれば母集団の比率を区間推定できる – 標本分布の標準偏差（＝標準誤差）は次の式で算出する p 1−p n – n=標本サイズ、pは信頼区間を調べたい確率 ■ 標本サイズは実際に回答した人数で計算する ■ 例えば144人を調査して35%が使用しているアプリがあるとする – 35%＝0.35なので確率pに0.35、nには調査人数144を代入 ■ 0.35× 1−0.35 144 = 0.078 が標準誤差となる – 信頼区間95%なら確率p±1.96×標準誤差で信頼区間を算出 ■ 0.35+1.96× 0.078=0.428が上限、 0.35―1.96× 0.078=0.272が下限 ■ 「95%の確率で母集団の%は27.2%から42.8%の間にある」と推定できる