5.5K Views
October 27, 23
スライド概要
神戸大学経営学部で2022年度より担当している「経営統計」の講義資料「03_2変数の記述統計量」を公開用に調整したものです。
神戸大学経営学研究科准教授 分寺杏介(ぶんじ・きょうすけ)です。 主に心理学的な測定・教育測定に関する研究を行っています。 講義資料や学会発表のスライドを公開していきます。 ※スライドに誤りを見つけた方は,炎上させずにこっそりお伝えいただけると幸いです。
経営統計 03 2変数の記述統計量 分寺 杏介 神戸大学 経営学部 [email protected] ※本スライドは,クリエイティブ・コモンズ 表示-非営利 4.0 国際 ライセンス(CC BY-NC 4.0)に従って利用が可能です。
相関関係 2つの変数の関係性を捉えるために A 1 ID B 性別 C D 身長 E 体重 F 勉強時間 テストの得点 2 1 男 172 70 3.0 91 3 2 女 158 47 0.8 31 4 3 女 160 54 4.0 34 5 4 男 178 69 3.8 51 6 5 女 153 42 1.9 87 7 6 男 169 80 1.9 39 165 70 2.1 48 155 42 0.8 73 159 63 2.4 62 148 40 1.7 34 147 42 1.6 84 8 7 男 この前とったデータから 9 8 女 10 9 男 勉強時間とテストの得点は 11 10 女 どんな関係だったか教えて 11 女 12 えっと…1人目が3時間勉強して69点, 2人目が0.8時間勉強して53点で…(略) データが多くなると,一つ一つを見ていても 結局関係性は見えてこない 1変数のときと同じように • 図を描く • 要約統計量を算出する ことでスマートに伝えられそうです 散布図と共分散を使う 03 2変数の記述統計量 2
散布図 scatter plot 𝑥 座標が変数 𝑥 の値,𝑦 座標が変数 𝑦 の値になるようにデータを置く 𝑥 𝑦 勉強時間 テストの得点 3.0 69 0.8 53 4.0 76 3.8 91 1.9 66 こんな感じです 散布図から 関係性の記述統計量を 求めていきましょう 𝑦 (3.8, 91) 90 80 (4.0, 76) (3.0, 69) 70 (1.9, 66) 60 (0.8, 53) 50 0 03 2変数の記述統計量 1 2 3 4 𝑥 3
散布図のポイント 0から始める必要はない 標準化前 0始まりにすることでむしろ相関関係が 見えにくくなってしまう可能性も データがすべて表示できるだけの範囲を用意したらOK 変数変換しても特に問題はない 散布図で確認したいのは変数間の関係 同 じ デ ー タ 標準化後 ▶ 変数変換は軸をいじるだけなので問題なし どちらの変数を 𝑥 にするか? 散布図を描くだけならどちらでも問題ない その後行うであろう分析との対応を考えると… ※赤い線は平均値 反対に「テスト得点が上がったから 勉強時間が増える」ということはないですよね 一方がもう一方の原因と言える or 言いたい場合は原因の変数を 𝑥 軸に 例|勉強時間が長いほどテスト得点は上がるはずなので,勉強時間を 𝑥 軸に置く 03 2変数の記述統計量 4
「 2つの変数の関係性」= 相関関係 のパターン 基本は3種類だけ 「相関関係」とは2つの変数が「ともに変化する」あらゆる関係性を表す用語 ▶ 本当はいろいろな相関関係があるが,それについては のちほど… 正の相関 負の相関 無相関 𝑥 が大きいほど 𝑦 も大きい 𝑥 が大きいほど 𝑦 は小さい 𝑥 と 𝑦 には 03 2変数の記述統計量 関係がない 5
2つの変数の要約統計量 散布図に見える相関関係をどのように要約するか? 赤い線:各変数の平均値で散布図を4つに分けて見てみると… 正の相関 右上がりの傾向がある ▶ 左下と右上に 多くのデータが存在している 負の相関 右下がりの傾向がある ▶ 左上と右下に 多くのデータが存在している 03 2変数の記述統計量 無相関 傾向がない ▶ 4方向にバランス良く データが存在している 6
要約の方向性が見えてきた 左下と右上と左上と右下のどちらにデータが多いかを比べたら良い • 左下と右上のほうが多ければ 正の相関 • 左上と右下のほうが多ければ 負の相関 …本当にそれだけで良いのか? データの位置も重要な要素 Q. A と B のどちらのほうがより「右上がり」っぽく見える? A B 人によるかもしれませんが,たぶん Bのほうがより「右上がり」っぽい 平均値からの距離も 考慮してあげよう 03 2変数の記述統計量 7
平均値からの距離って? 「右上がり」っぽさの程度は中心からの距離では決まらない 赤い線から離れるほど 「右上がり」「右下がり」っぽくなっていく 𝑦ത 2つの変数がともに赤い線から離れる ▶ 長方形の面積が大きくなる 𝑥ҧ 中心からの距離が同じであっても 赤い線と近いときには 「右上がり」「右下がり」には見えない ▶ 長方形の面積は小さい データの各点が中心と結ぶ長方形の面積を合計したとき • 左下と右上の長方形の面積の合計のほうが多ければ 正の相関 • 左上と右下の長方形の面積の合計のほうが多ければ 負の相関 共分散までもう一歩です 03 2変数の記述統計量 8
平均値からの偏差の積 長方形の面積=平均値からの偏差の積(かけ算) 長方形の面積は (𝑦𝑛 − 𝑦) ത (𝑥𝑛 − 𝑥)(𝑦 ҧ 𝑛 − 𝑦) ത 4つの区分 𝑥 の値が 𝑥ҧ よりも 𝑛 番目のデータ (𝑥𝑛 , 𝑦𝑛 ) ② ③ (𝑥𝑛 − 𝑥)ҧ ① ④ = 偏差の積 𝑦 の値が 𝑦ത よりも 偏差の積 ① 大きい 𝑥𝑛 − 𝑥ҧ > 0 大きい 𝑦𝑛 − 𝑦ത > 0 プラス ② 小さい 𝑥𝑛 − 𝑥ҧ < 0 大きい 𝑦𝑛 − 𝑦ത > 0 マイナス ③ 小さい 𝑥𝑛 − 𝑥ҧ < 0 小さい 𝑦𝑛 − 𝑦ത < 0 プラス ④ 大きい 𝑥𝑛 − 𝑥ҧ > 0 小さい 𝑦𝑛 − 𝑦ത < 0 マイナス 全データの偏差の積の合計の符号は左下と右上 vs 左上と右下の多い方の符号になる ▶ 偏差の積の合計の符号は相関関係の向きと一致する マイナス×マイナス=プラス 変数の記述統計量 03 2変数の記述統計量 9
共分散 covariance 偏差の積 共分散 𝐶𝑜𝑣𝑥𝑦 𝑥1 − 𝑥ҧ (𝑦1 − 𝑦) ത + 𝑥2 − 𝑥ҧ (𝑦2 − 𝑦) ത + ⋯ + 𝑥𝑛−1 − 𝑥ҧ (𝑦𝑛−1 − 𝑦) ത + 𝑥𝑛 − 𝑥ҧ (𝑦𝑛 − 𝑦) ത = 𝑛 今後は変数 𝑥 と変数 𝑦 の共分散を𝐶𝑜𝑣𝑥𝑦 で表していきます (読みかた:こぶえっくすわい) もし 𝑦 が 𝑥 になったら? 𝐶𝑜𝑣𝑥𝑥 𝑥1 − 𝑥ҧ 𝑥1 − 𝑥ҧ + 𝑥2 − 𝑥ҧ 𝑥2 − 𝑥ҧ + ⋯ + 𝑥𝑛−1 − 𝑥ҧ 𝑥𝑛−1 − 𝑥ҧ + 𝑥𝑛 − 𝑥ҧ 𝑥𝑛 − 𝑥ҧ = 𝑛 おなじ おなじ おなじ おなじ = 𝑥1 − 𝑥ҧ 2 + 𝑥2 − 𝑥ҧ 2 + 𝑥3 − 𝑥ҧ 2 + ⋯ + 𝑥𝑛−1 − 𝑥ҧ 𝑛 分散と共分散は 同じことをやっている 2 + 𝑥𝑛 − 𝑥ҧ 2 = 変数 𝑥 の分散 絶対値だと共分散的なものを作りづらいというのも 平均偏差より標準偏差が使われる理由の一つかもしれません 03 2変数の記述統計量 10
共分散と分散は同じ なので線形代数ではまとめて扱う 𝐱3 𝑥1,1 A B 1 ID 𝑁人 性別 𝐽 個の変数 C D 身長 E 体重 F 勉強時間 テストの得点 2 1 男 172 70 3.0 91 3 2 女 158 47 0.8 31 4 3 女 160 54 4.0 34 5 4 男 178 69 3.8 51 6 5 女 153 42 1.9 87 7 6 男 169 80 1.9 39 8 7 男 165 70 2.1 48 9 8 女 155 42 0.8 73 10 9 男 159 63 2.4 62 11 10 女 148 40 1.7 34 12 11 女 147 42 1.6 84 1番目の人の1つ目の変数の値 𝑥1,1 𝑥1,2 𝐱1 = ⋮ 𝑥1,𝑁 𝑥3,1 𝑥3,2 𝐱3 = ⋮ 𝑥3,𝑁 データ全体 という感じで書けば 𝐗 = 𝐱1 𝐱2 ⋯ 𝐱𝐽 3つ目の変数の全員分の値 03 2変数の記述統計量 11
共分散と分散は同じ 𝐱1 と 𝐱2 の関係を見てみると 𝑥1,1 𝑥1,2 𝐱1 = ⋮ 𝑥1,𝑁 𝑥2,1 𝑥2,2 𝐱2 = ⋮ 𝑥2,𝑁 偏差ベクトル 平均値を引く 𝑥1,1 − 𝐱1 𝑥 − 𝐱1 (𝐱1 − 𝐱1 ) = 1,2 ⋮ 𝑥1,𝑁 − 𝐱1 𝑥2,1 − 𝐱 2 𝑥 − 𝐱2 (𝐱 2 − 𝐱 2 ) = 2,2 ⋮ 𝑥2,𝑁 − 𝐱 2 偏差の積 𝐱1 − 𝐱1 ⊤ 𝐱 2 − 𝐱 2 = 𝑥1,1 − 𝐱1 𝑥2,1 − 𝐱 2 + 𝑥1,2 − 𝐱1 𝑥2,2 − 𝐱 2 + ⋯ + 𝑥1,𝑁 − 𝐱1 𝑥2,𝑁 − 𝐱 2 共分散 分散 1 𝐶𝑜𝑣𝐱1,𝐱2 = 𝐱1 − 𝐱1 ⊤ 𝐱 2 − 𝐱 2 𝑁 1 𝑣𝐱1 = 𝐱1 − 𝐱1 ⊤ 𝐱1 − 𝐱1 𝑁 03 2変数の記述統計量 12
共分散と分散は同じ 全部まとめます 𝐗 = 𝐱1 𝐱2 ⋯ 𝐱𝐽 A B 性別 C D 身長 𝐱2 − 𝐱2 ⋯ 𝐱𝐽 − 𝐱ഥ𝐽 平均値を引く データ 1 ID 𝐗 ∗ = 𝐱1 − 𝐱1 E 体重 F 勉強時間 テストの得点 2 1 男 172 70 3.0 91 3 2 女 158 47 0.8 31 4 3 女 160 54 4.0 34 5 4 男 178 69 3.8 51 6 5 女 153 42 1.9 87 7 6 男 169 80 1.9 39 8 7 男 165 70 2.1 48 9 8 女 155 42 0.8 73 10 9 男 159 63 2.4 62 11 10 女 148 40 1.7 34 12 11 女 147 42 1.6 84 に対して 列ごとに平均値を引いたもの 𝑥1,1 − 𝐱1 𝑥1,2 − 𝐱1 = ⋮ 𝑥1,𝑁 − 𝐱1 𝑥2,1 − 𝐱2 𝑥2,2 − 𝐱2 ⋮ 𝑥2,𝑁 − 𝐱2 非対角成分は共分散 対角成分は分散 𝑣𝑥1 𝐶𝑜𝑣𝑥2,𝑥1 1 ⊤ 𝐗 ∗ 𝐗 ∗ = 分散共分散行列 = ⋮ 𝑁 𝐶𝑜𝑣𝑥𝐽,𝑥1 03 2変数の記述統計量 𝑥𝐽,1 − 𝐱ഥ𝐽 𝑥𝐽,2 − 𝐱ഥ𝐽 ⋯ ⋮ 𝑥𝐽,𝑁 − 𝐱ഥ𝐽 𝐶𝑜𝑣𝑥1,𝑥2 𝑣𝑥2 ⋮ 𝐶𝑜𝑣𝑥𝐽,𝑥2 ⋯ 𝐶𝑜𝑣𝑥1,𝑥𝐽 ⋯ 𝐶𝑜𝑣𝑥2,𝑥𝐽 ⋱ 𝐶𝑜𝑣𝑥3,𝑥𝐽 ⋯ 𝑣𝑥𝐽 13
共分散の限界 相関関係のパターンは色々あるけれども 正の相関 U字の相関 負の相関 逆U字の相関 03 2変数の記述統計量 複雑な相関 相 関 関 係 が あ る 無相関 相 関 関 係 が な い 14
共分散の限界 共分散は直線の関係しか表せない 共 分 散 プ ラ ス 共 分 散 マ イ ナ ス もちろん左右非対称なU字・逆U字などのときには 共分散はプラスやマイナスになりえます 正の相関 U字の相関 負の相関 逆U字の相関 複雑な相関 共 分 散 ほ ぼ 0 共分散は左下と右上 vs 左上と右下の どちらが多いかしか見ていない それ以上に複雑な相関関係は 表現できない 03 2変数の記述統計量 15
共分散と相関の関係性を整理すると 完全に相関がない場合は,共分散はほぼゼロになる 「完全に相関がない」のはp. 14のグレーの図 のようなパターンのときだけです 共分散がほぼゼロのとき,相関関係がないとは限らない 前ページで見たとおり:少なくとも直線の相関関係はないと言える 共分散がほぼゼロではないときも直線以外の相関関係の可能性はある 例 全体的には右上がり ▶ 共分散はそこそこの正の値だが… 正確に伝えるならば 全体的な傾向では正の相関関係が見られるが 周期的な変動もあるようだ という感じ? いつだってまずは散布図を描こう 03 2変数の記述統計量 共分散は「周期的な変動を考慮しても確かに 全体的な傾向も見られる」ことを示す重要な情報です 16
散布図と相関関係の強さ 負の相関 無相関 正の相関 相関関係が一番強いのはすべてのデータが一直線に並んでいるとき 相関関係が強くなるほど散布図は丸から直線に向かって細くなっていきます 直線の傾きは関係ない ほんの少しでも右上がりなら「最も強い正の相関」ということになります この話はあくまでも直線的な相関関係のみを対象としています。 が,実はU字型の相関やジグザグな相関関係などでも「一本の曲線」「一本のジグザグ線」に すべてのデータが並ぶ場合を「相関関係が最も強い状態」といえる可能性があります。 ※具体的には,直線を𝑦 = 𝑎𝑥 + 𝑏で表す感じで「一本の曲線」「一本のジグザグ線」を表す式を特定できることが条件となります。 03 2変数の記述統計量 17
共分散は何を表しているのか A 1 ID 単純な相関関係の強さだけではない B 性別 C D 身長 E 体重 F 勉強時間 テストの得点 2 1 男 172 70 3.0 91 3 2 女 158 47 0.8 31 4 3 女 160 54 4.0 34 5 4 男 178 69 3.8 51 6 5 女 153 42 1.9 87 7 6 男 169 80 1.9 39 8 7 男 165 70 2.1 48 9 8 女 155 42 0.8 73 10 9 男 159 63 2.4 62 11 10 女 148 40 1.7 34 12 11 女 147 42 1.6 84 …… …で,その共分散はどうなの? 相関は強いの?弱いの? 共分散は4.41でした。 共分散だけでは 相関の強さはわからない 共分散の大きさから相関関係の強さの 明確な基準を作ることはできません ▶ 次ページへ 03 2変数の記述統計量 18
単位の影響を受ける 変数 𝑥 が 𝑘 倍されたらどうなるか 𝑘𝑥1 − 𝑘𝑥ҧ (𝑦1 − 𝑦) ത + 𝑘𝑥2 − 𝑘𝑥ҧ (𝑦2 − 𝑦) ത + ⋯ + 𝑘𝑥𝑛−1 − 𝑘𝑥ҧ (𝑦𝑛−1 − 𝑦) ത + 𝑘𝑥𝑛 − 𝑘𝑥ҧ (𝑦𝑛 − 𝑦) ത 𝑛 𝑥1 − 𝑥ҧ 𝑦1 − 𝑦ത + 𝑥2 − 𝑥ҧ 𝑦2 − 𝑦ത + ⋯ + 𝑥𝑛−1 − 𝑥ҧ 𝑦𝑛−1 − 𝑦ത + 𝑥𝑛 − 𝑥ҧ 𝑦𝑛 − 𝑦ത =𝑘× 𝑛 = 𝑘 × 𝐶𝑜𝑣𝑥𝑦 もとの共分散の 𝑘 倍になる 前ページの例でいうと • テストの得点と勉強時間(単位:時間)の共分散は4.41 • テストの得点と勉強時間(単位:分)の共分散は60 × 4.41 同じ変数であっても変数変換によって共分散の値がコロコロ変わるので 「共分散の値が○○以上だったら相関は強い」見たいなことは言えない 03 2変数の記述統計量 = 264.6 つまり相関の強さは…? さて,どうしたものか… 19
共分散が単位の影響を受ける理由 共分散は偏差の積を使って計算しているから 一つのデータの偏差の積 ▶ 𝑥1 − 𝑥ҧ 𝑦1 − 𝑦ത 変数 𝑥 が 𝑘 倍になると偏差が 𝑘 倍になる つまり 𝑥1 − 𝑥ҧ が 𝑘 𝑥1 − 𝑥ҧ になる,ということです 共分散が 𝑘 倍になると同時に,変数 𝑥 の標準偏差も 𝑘 倍になっている ということは,共分散の中には どうやら「相関関係の強さ」に加えて「各変数の標準偏差」が関係している! 共分散 = 分散と同じ計算方法なので 散布度も影響するのです 変数 𝑥 の標準偏差 × 変数 𝑦 の標準偏差 × 相関関係の強さ ここだけ取り出してあげたら 一方の変数を 𝑘 倍したときに共分散が 𝑘 倍になるのは 両方の変数の標準偏差を計算に含めているから 03 2変数の記述統計量 相関関係の強さがわかる! 20
相関係数 correlation coefficient 共分散 = 変数 𝑥 の標準偏差 × 変数 𝑦 の標準偏差 × 相関関係の強さ ということは 相関関係の強さ = 共分散 変数 𝑥 の標準偏差 変数 𝑦 の標準偏差 例 勉強時間とテストの得点の共分散は4.41 こいつこそが 相関係数 なのです × 勉強時間の標準偏差が1.62 テストの得点の標準偏差が10.6 式で表すと 𝑟𝑥𝑦 𝐶𝑜𝑣𝑥𝑦 = 𝑣𝑥 𝑣𝑦 なので 4.41 相関係数は 1.62×10.6 03 2変数の記述統計量 ≒ 0.257です! 21
相関係数の性質 相関係数は-1から1までの間の値になる 負の相関 値と散布図の関係を細かく覚える必要はないですが 「相関係数の絶対値が大きくなると1本の直線に近づく」 ということは知っておいてください ▲コーシーシュワルツの不等式から -1 正の相関 0 1 𝑟𝑥𝑦 = 0 𝑟𝑥𝑦 = −1 𝑟𝑥𝑦 = −0.5 𝑟𝑥𝑦 = 0.5 𝑟𝑥𝑦 = 1 相関係数0は必ずしも無相関を表しているわけではない 相関係数0=共分散0というだけです(p. 15参照) 直線以外の相関関係もありましたね 相関係数0.5は0と1のちょうど中間というわけではない 「相関度50%」みたいな解釈はできません 03 2変数の記述統計量 22
相関係数の解釈 絶対的な解釈は難しい ▶ 時と場合によりすぎる 例|Cohenの基準 心理学でよく引用される基準 0 0.1 0.3 小 0.5 中 1 大 あくまでもCohen調べの経験的な基準 マイナスの方も同じ基準です 心理学(行動科学)の過去の研究で見られた相関係数をもとに決めた値 それ以上の根拠があるわけではないので絶対視するのは良くない 心理学の相関係数は比較的ゆるい基準 0.29と0.31の差は微々たるもの だからバッサリ分けるのは良くない そもそも人間の心や行動に影響を与える要素が多すぎるため 一方,物理学や化学では相関係数0.9で不十分なケースも多々ある 相対的な解釈には使いやすい どの変数との相関が高いか・男女ではどちらのほうが強い相関が見られるか etc. 03 2変数の記述統計量 23
外れ値の影響 相関係数は外れ値によって大きく変化する 外れ値を除いたデータは 相関係数はほぼゼロになっている 外れ値の対処法 外れ値 ▶ 資料02 p.6を参照 外れ値は偏差の積が かなり大きい 偏差の積の総和がほぼゼロである 相関係数が大きく変化する こいつは外れ値だが 相関係数に影響しない 外れ値が相関係数を大きく動かすのは偏差の積が大きいから ▶ 両方の変数について外れ値でないと影響は小さい 03 2変数の記述統計量 24
擬似相関 手へんの有無(疑/擬)はたぶんどっちでも大丈夫です 本来なんの関係もないのに相関係数はゼロじゃない状態 例 血圧が高い人ほど年収が高い 血圧 相関 本来血圧と年収にはなんの関係もないはず 年収 「血圧が高い人のほうがやる気に溢れているから 成果を出して年収も上がりやすい」なんて話はありません なのに相関係数がはっきりと現れる なぜ? 年を取るほど 血圧は高くなる 年功序列で 年収は上がる どちらとも相関する変数が存在している ここでは「年齢」 じゃあどうする? 年齢を統制して再度相関を計算 年齢 例えば30代の人のデータだけで相関係数を計算 ▶ たぶん相関係数はゼロに近い値になる 03 2変数の記述統計量 25
擬似相関を「考える」 擬似相関は何かしらのヒントになっている 決して悪者ではありません 社会科学では思いもよらない変数の関係性が見つかると盛り上がる もし相関関係の理由の説明がつかない2つの変数が相関していたら… パターンA 代 表 的 な 擬 似 相 関 の パ タ ー ン 変数 𝑥 パターンB 変数 𝑥 パターンC 変数 𝑥 2つの変数それぞれと関係のある変数が存在している 第3の変数 変数 𝑦 前ページの血圧と年収の関係はこのパターン 2つの変数の関係を媒介する変数が存在している 第3の変数 変数 𝑦 例|「ジムに入会したら痩せた」 もちろん入会するだけで痩せるわけはない ▶ 実際には「入会」→「運動した」→「痩せた」 奇跡的な偶然によってたまたま相関が出現した ? 変数 𝑦 03 2変数の記述統計量 例|「音楽CDが売れるとサバが大漁」 ▶ 絶対に関係はないが確かに相関はあった https://about.yahoo.co.jp/info/blog/20170905/bigdata-report.html 26
層別相関 だから層ごとに相関をチェックしましょう,という話です 部分ごとに見た相関と全体で見た相関が全く別物になることがある 例 例 無相関 ▶ 正の相関になるパターン 正の相関 ▶ 負の相関になるパターン 𝑟𝑥𝑦 ≒ 0.78 𝑟𝑥𝑦 ≒ −0.69 𝑟𝑥𝑦 ≒ 0 𝑟𝑥𝑦 ≒ 0.6 𝑟𝑥𝑦 ≒ 0 𝑟𝑥𝑦 ≒ 0.6 全体では正の相関に ほぼ無相関の2つの群 全体では負の相関に 正の相関を持つ2つの群 03 2変数の記述統計量 27
層別相関のしくみ 第3の変数が関係していることがほとんど 例 つまり擬似相関も層ごとの相関を見ることができれば 謎が解明されるケースが結構ある 無相関 ▶ 正の相関になるパターン 変数 𝑥 を血圧,変数 𝑦 を年収だとする 擬似相関 手へんの有無(疑/擬)はたぶんどっちでも大丈夫です A群を50代,B群を20代だとすると 𝑟𝑥𝑦 ≒ 0.78 A 本来なんの関係もないのに相関係数はゼロじゃない状態 p.25 と同じ状態になっている 50代 血圧が高い人ほど年収が高い 本来血圧と年収にはな 「血圧が高い人のほうがやる気 成果を出して年収も上がりや B 相関 なのに相関係数が 20代 全体では正の相関に 年を取るほど 血圧は高くなる 年功序列で 年収は上がる どちらとも相関する変 ここでは 年齢を統制して再 第3の変数によって層(カテゴリ)に 例えば 代の人のデータだけ ▶ たぶん相関係数はゼロに近 なっているときには全体だけでなく 層ごとに相関をチェックするべき ほぼ無相関の2つの群 変数の記述統計量 03 2変数の記述統計量 28
選抜効果(切断効果) 「入試」と「入学後の成績」の相関など 一方の変数の値が小さい or 大きいデータが入手できないときには要注意 データの一部を抜き出すと全体とは異なる相関があらわれる 例 例 正の相関 ▶ 無相関になるパターン 𝑥 + 𝑦 > 1の人だけを抜き出したとき 𝑥 > 1の人だけを抜き出したとき 𝑟𝑥𝑦 ≒ 0.6 無相関 ▶ 負の相関になるパターン 𝑟𝑥𝑦 ≒ 0.1 𝑟𝑥𝑦 ≒ 0 𝑟𝑥𝑦 ≒ −0.8 全体だとそこそこ相関 赤い点だけだと弱相関 全体だと無相関 赤い点だけだと負の相関 変数の値を基準にデータを抜き出すと発生する 完全ランダムに抜き出すだけなら選抜効果は起こらない 03 2変数の記述統計量 29
相関関係と因果関係 まずは言葉の定義から(大辞林 第三版より) 相関関係 因果関係 ① 一方が変われば他方も変わる というよう な関係。相関的な関係。 ② 〘数〙 二つの変量の間で、一方が増加するに つれて、他方が増加または減少する関係。 A いくつかの事柄の関係において、一方が原因 で他方が結果であるというつながりのあるこ と。 B 03 2変数の記述統計量 ○○のせい・おかげで△△になった A B 原因 結果 30
因果関係の3条件 1 「原因」と「結果」が関連していること つまり 相関関係がある ということ 相関関係があるからといって因果関係があるとは限らないが 相関関係がないときには因果関係は絶対にない 「相関係数がゼロではないこと」ではありません 2 「原因」が「結果」に時間的に先行していること 例|食事量と体重の因果関係 たくさんたべる 3 「たくさん食べるから太った」のであって 「太ったからたくさん食べるようになった」のではない ふとる 「太る」という結果より前に 「食べる」という原因が必ずある 「原因」の他に「結果」を説明できるもっともらしい理由が他にない つまり 擬似相関などではない ということ 03 2変数の記述統計量 31
相関関係と因果関係の使い分け 因果関係があるならば… 望んだ結果を得るために何をしたらよいか分かるかもしれない 相関関係のみの場合 一方の変数を操作したとしてもう一方の変数が 変化するかはわからない 例|「食べたら太る」のであれば食べなければ良い 相関関係を因果関係だと解釈すると良くないかもしれない 例 ピアノを習っている子は学力が高い 正しい解釈 ピアノ 親の年収が高いと子どもの 教育に金をかける ▶ピアノも塾も行かせる親が 多い? 学力 親の年収 この例もそう 因果関係だと勘違い ピアノ 学力 ピアノを習わせると ふきだし 頭が良くなるんだ! こうして教育ママは今日も ワイドショーの嘘に踊らされるのであった… 03 2変数の記述統計量 32
因果関係を見抜くには? 3 いろいろ方法はありますが… 「原因」の他に「結果」を説明できるもっともらしい理由が他にない 代表的な方法は実験的な環境を整える方法 因果関係の条件をクリアするために「第3の変数」になりうる すべてを可能な限り統制する必要がある 【例えば】 例 • • ラーメンを食べると太りやすいのか? • 「食べる」「食べない」を男女などの属性でわけない(ランダムに) 食べた量は体重に影響するので「食べない組」もラーメンと 同量のカロリーを摂取させる 睡眠時間なども体重に影響するのでなるべく同じ生活をさせる 毎日ラーメン食べる組 ラーメン食べない組 参加者を集める 2グループに分ける 03 2変数の記述統計量 1ヶ月後 体重を測って比較する 33
クロス表の記述統計 03 2変数の記述統計量 34
連関 質的変数の関係性 量的変数じゃないから 平均値とか偏差とか計算できないよ?? 性別と宿題提出率に関係があるか 調べてくれるかい? まあ,前みたいに散布図や相関を使って パッと出しちゃってよ!ヨロシク!! 少しぐらい自分でやれよ! G A B C D 1 ID 性別 身長 体重 2 1 男 172 70 3.0 91 済 3 2 女 158 47 0.8 31 未 4 3 女 160 54 4.0 34 未 5 4 男 178 69 3.8 51 済 6 5 女 153 42 1.9 87 済 7 6 男 169 80 1.9 39 済 8 7 男 165 70 2.1 48 未 9 8 女 155 42 0.8 73 済 10 9 男 159 63 2.4 62 未 11 10 女 148 40 1.7 34 済 12 11 女 147 42 1.6 84 済 E F 勉強時間 テストの得点 宿題提出 質的変数間の関係なので 相関の代わりに連関係数を 算出したいと思います。 代わりに連関を考えます いいから口の前に手を動かせ! 03 2変数の記述統計量 35
まずはまとめる 質的変数なので散布図にはできないけど… 全く同じ値(例|男性・宿題提出済)の人は 完全に重なってしまうので 何人いても一人分の点しか見えない カテゴリをそのままに散布図に押し込んでみる G A B C D 1 ID 性別 身長 体重 2 1 男 172 70 3.0 91 済 3 2 女 158 47 0.8 31 未 4 3 女 160 54 4.0 34 未 5 4 男 178 69 3.8 51 済 6 5 女 153 42 1.9 87 済 7 6 男 169 80 1.9 39 済 8 7 男 165 70 2.1 48 未 9 8 女 155 42 0.8 73 済 10 9 男 159 63 2.4 62 未 11 10 女 148 40 1.7 34 済 12 11 女 147 42 1.6 84 済 男▶0 女▶1 E F 宿題提出 勉強時間 テストの得点 宿題提出 どこに何人いるか わからない 済(1) 未(0) 性別 男(0) 女(1) 人数だけ引っ張り出す 未▶0 済▶1 男 女 宿題提出 済 42 48 未 8 2 03 2変数の記述統計量 これがクロス集計表 36
まずは言葉の定義から(大辞林 第三版より) 質的変数の関係って? というよう な関係。相関的な関係。 〘数〙 二つの変量の間で 、一方が増加するに つれて、他方が増加または減少する関係。 相関と同じように考えてみると いくつかの事柄の関係において 、 というつながりのあるこ と。 のせい・おかげで 一方の変数のカテゴリごとに もう一方のカテゴリの割合が変化する ならば2つの変数の間には関係がある 男 女 宿題提出 済 42 48 未 8 2 男性の宿題提出率は 42 = 84% 50 原因 宿題提出者のうち男性の割合は 42 ≒ 46.7% 90 になった 結果 変数の記述統計量 宿題未提出者のうち男性の割合は 8 = 80% 10 女性の宿題提出率は 48 = 96% 50 差があるなら 「関係あり」 相関と同様に2つの変数の区別はないため 縦方向・横方向のどちらで見ても結果は同じ 差があるなら「関係あり」 03 2変数の記述統計量 量的変数 ▶相関 質的変数 ▶連関 この関係のことを連関と呼びます 37
連関の強さ もし2変数の間に連関が全くなかったら 一方の変数のどのカテゴリでも もう一方のカテゴリの割合が変化しない 男 女 もちろん「女性の割合」や「宿題未提出率」 で比較しても同じ話です 宿題提出者のうち男性の割合 宿題提出 済 宿題未提出者のうち男性の割合 未 男性の宿題提出率 同じ値になる 女性の宿題提出率 この状態から離れるほど 同じ値になる 連関が強い と判断することができる 03 2変数の記述統計量 38
連関の強さを計算するために 最も連関がないときの仮想クロス表を作る Step 1 周辺度数を求める 男 女 宿題提出 済 42 48 未 8 2 Step 2 クロス表の中身を一旦無視して 「各変数の各カテゴリごとの人数」を出します • 男性は50人 • 女性は50人 • 宿題提出済は90人 • 宿題未提出は10人 男 女 計 宿題提出 済 90 未 10 計 50 50 100 期待度数を求める 男 女 計 宿題提出 済 90 未 10 計 50 50 100 宿題提出済と未提出は9:1の割合 ▶ 男子50人を9:1に分けると45:5 ▶ 同様に女子50人も45:5 03 2変数の記述統計量 男 女 計 宿題提出 済 45 45 90 未 5 5 10 計 50 50 100 39
仮想クロス表ができた あとは実際のデータ 実際のデータ 男 女 宿題提出 済 42 48 未 8 2 仮想クロス表 男 女 宿題提出 済 45 45 未 5 5 男性の宿題提出率は 45 = 90% 50 と比較するだけ 宿題提出者のうち男性の割合は 45 ≒ 50% 90 宿題未提出者のうち男性の割合は 5 = 50% 10 女性の宿題提出率は 45 = 90% 50 同じ値になっている 同じ値になっている 03 2変数の記述統計量 40
ズレの程度を評価する まずは普通に差を求めます 実際のデータ 男 女 宿題提出 済 42 48 未 8 2 ー 仮想クロス表 男 女 宿題提出 済 45 45 未 5 5 共分散と似た感じで考えてみます 差 男 女 宿題提出 済 -3 3 未 3 -3 = 差 男 女 宿題提出 済 -3 3 未 3 -3 共分散=平均値からの偏差(ズレ)の二乗を人数で割った値(平均値) ズレの二乗を仮想クロス表での人数で割る 「提出済・男」は仮想クロス表では45人なので −3 2 = 0.2 45 仮想クロス表の人数で割っているイメージとしては • 「提出済・男」と「未提出・男」のズレは同じ(3人)だが • 「提出済・男」は「45人いると思ったら42人だった」 • 「未提出・男」は「5人いると思ったら8人だった」 ▶ 「提出済・男」のほうが1人のズレの影響は相対的に小さい (期待度数が45なら1人くらいのズレは誤差だろう)といえる 03 2変数の記述統計量 計算した値 男 女 宿題提出 済 0.2 0.2 未 1.8 1.8 41
連関係数 全部足してあげます 計算した値 男 女 宿題提出 済 0.2 0.2 未 1.8 1.8 なぜこれを𝜒 2 値という名前で呼ぶのかに関しては 後半の講義で判明すると思いますが、今のところは 「そういうものなんだぁ」と受け入れてください ぜんぶ足すと4.0 この値を𝜒 2 値と呼びます 最後にちょっと調整します 相関係数と同じように取る値の範囲が0から1の間になるようにするために データの人数で割る ルートを取る 4.0 = 0.04 = 0.2 100 03 2変数の記述統計量 相関係数と同様に • 大きいほど連関が強いことを表します • 値には絶対的な基準はありません この値を クラメールの連関係数と呼びます 42
クラメールの連関係数 最後の変換,正しくは データの人数×(少ない方のカテゴリ数-1)で割る 実際のデータ 男 女 宿題提出 済 42 48 未 8 2 ルートを取る どちらの変数も2カテゴリなので 4.0 = 0.04 = 0.2 100 × 1 が正しい式になる マイナスの値を取らない クラメールの連関係数に限らず「連関」には正負の方向性がない 03 2変数の記述統計量 43
連関係数の計算方法その2 p. 36の散布図の状態から無理やり相関係数を出してみる E F G B C D 1 ID 性別 身長 体重 2 1 0 172 70 3.0 91 1 3 2 1 158 47 0.8 31 0 未 4 3 1 160 54 4.0 34 0 5 4 0 178 69 3.8 51 1 B C D 1 ID 性別 身長 体重 2 1 男 172 70 3.0 91 済 3 2 女 158 47 0.8 31 未 4 3 女 160 54 4.0 34 勉強時間 テストの得点 宿題提出 数字に E G A A F 勉強時間 テストの得点 宿題提出 5 4 男 178 69 3.8 51 済 6 5 女 153 42 1.9 87 済 6 5 1 153 42 1.9 87 1 7 6 男 169 80 1.9 39 済 7 6 0 169 80 1.9 39 1 8 7 男 165 70 2.1 48 未 8 7 0 165 70 2.1 48 0 9 8 女 155 42 0.8 73 済 9 8 1 155 42 0.8 73 1 10 9 男 159 63 2.4 62 未 10 9 0 159 63 2.4 62 0 11 10 女 148 40 1.7 34 済 11 10 1 148 40 1.7 34 1 12 11 女 147 42 1.6 84 済 12 11 1 147 42 1.6 84 1 置き換え 宿題提出 宿題提出 済 1 未 0 性別 男 性別 0 女 03 2変数の記述統計量 1 44
質的変数から相関係数を計算する 仮に数字を当てはめてしまえば計算は可能 実際のデータ 男 女 計 宿題提出 済 42 48 90 未 8 2 10 計 50 50 100 100人中50人が女性(1)なので 性別の平均値は0.5 宿題提出 1 0 42人 48人 100人中90人が宿題提出済(1)なので 宿題提出の平均値は0.9 8人 2人 性別 0 1 あとは平均値からの偏差を使って 相関係数を計算していけば良いのですが… ここで 散布図とクロス表を よく見比べてみましょう 03 2変数の記述統計量 45
相関とクロス表 要約の方向性が見えてきた p. 7より 左下と右上と左上と右下 左下と右上のほうが多ければ 左上と右下のほうが多ければ 本当にそれだけで良いのか? 宿題提出 1 0 と 8人 0 実際のデータ 男 女 計 例えば青いセルの値が赤いセル より明らかに多い場合 宿題提出 済 42 48 90 「男子は宿題未提出が多く女子は 未 8 2 10 宿題提出者が多い」ということ のどちらのほうがより「右上がり」っぽく見える? 計 50 50 100 なので連関がある 2人 (逆もまたしかり) 人によるかもしれませんが,たぶん 性別 42人 48人 データの位置も重要な要素 1 2つのカテゴリを0/1に置き換えるならば 平均値は必ず1から0の間に来るので データが取る値の4パターンが必ず上下左右に分かれます のほうがより「右上がり」っぽい クロス表の対角線上で どちらか一方が明らかに 多ければ連関がある 03 2変数の記述統計量 変数の記述統計量 46
ファイ係数 左下と右上と左上と右下 左下と右上のほうが多ければ そんなイメージで計算できる連関係数 男 クロス表 計 宿題提出 済 ③ 未 ④ 計 例 女 ① 左上と右下のほうが多ければ 本当にそれだけで良いのか? データの位置も重要な要素 と ファイ係数 = 𝜙 係数 ② 赤いセルの積 ー 青いセルの積 のどちらのほうがより「右上がり」っぽく見える? 人によるかもしれませんが,たぶん 周辺度数の積(=①×②×③×④) のほうがより「右上がり」っ 分母はファイ係数が取りうる値を-1から1に制限するために 調節しているものだと思ってください 変数の記述統計量 実際のデータ 男 女 計 宿題提出 済 42 48 90 未 8 2 10 計 50 50 100 𝜙= 42 × 2 − (48 × 8) 50 × 50 × 90 × 10 = −300 2250000 = −300 = −0.2 1500 計算の方法は違えど クラメールの連関係数と 同じ絶対値になる (p. 42) 03 2変数の記述統計量 47
ファイ係数の符号 符号には何の意味もない 相関係数っぽく計算しようとした結果負の値になることはあるが… そもそも「負の連関」なんてものが存在し得ないので気にしなくていい 例 クロス表はただの集計なので入れ替えても問題ない 入れ替え前 男 女 計 入れ替え後 女 男 計 宿題提出 済 42 48 90 宿題提出 済 48 42 90 未 8 2 10 未 2 8 10 計 50 50 100 計 50 50 100 赤いセルの積 と 青いセルの積 が完全に入れ替わっているので ファイ係数の符号だけが逆転する 03 2変数の記述統計量 48
ファイ係数について 2×2クロス表でしか計算できない カテゴリが3つ以上になるとどのカテゴリを0/1/2にするかで平均値が変わる しかし質的変数なのでどのカテゴリにどの数字を当てはめてもいい ▶ ファイ係数の値が一つに決まらないのでダメ 1 さらに言えば0<1<2という順序性も必要になるが 質的変数には順序なんてものは存在しないのでダメ クラメールの連関係数と本質的に同じ 0 0 1 2 「2×2のときには別の方法でも連関係数が計算できるよ」というだけの話 実は相関係数とも同じ 実際にpp. 44-45の考え方で相関係数を計算するとファイ係数と同じ値になる 03 2変数の記述統計量 49