経営統計_03_2変数の記述統計量

経営統計 03 ２変数の記述統計量分寺杏介神戸大学経営学部  [email protected] ※本スライドは，クリエイティブ・コモンズ表示-非営利 4.0 国際ライセンス（CC BY-NC 4.0）に従って利用が可能です。

https://creativecommons.org/licenses/by-nc/4.0/

相関関係 ▌２つの変数の関係性を捉えるために A 1 ID B 性別 C D 身長体重 E F 勉強時間テストの得点 2 1 男 172 70 3.0 91 3 2 女 158 47 0.8 31 4 3 女 160 54 4.0 34 5 4 男 178 69 3.8 51 6 5 女 153 42 1.9 87 7 6 男 169 80 1.9 39 165 70 2.1 48 155 42 0.8 73 159 63 2.4 62 148 40 1.7 34 147 42 1.6 84 8 7 男この前とったデータから 9 8 女 10 9 男勉強時間とテストの得点は 11 10 女どんな関係だったか教えて 11 女 12 えっと…１人目が3時間勉強して69点，２人目が0.8時間勉強して53点で…（略）データが多くなると，一つ一つを見ていても結局関係性は見えてこない１変数のときと同じように • 図を描く • 要約統計量を算出することでスマートに伝えられそうです散布図と共分散を使う 03 2変数の記述統計量 2

3.

散布図 scatter plot ▌𝑥 座標が変数 𝑥 の値，𝑦 座標が変数 𝑦 の値になるようにデータを置く 𝑥 𝑦 勉強時間テストの得点 3.0 69 0.8 53 4.0 76 3.8 91 1.9 66 こんな感じです散布図から関係性の記述統計量を求めていきましょう 𝑦 (3.8, 91) 90 80 (4.0, 76) (3.0, 69) 70 (1.9, 66) 60 (0.8, 53) 50 0 03 2変数の記述統計量 1 2 3 4 𝑥 3

4.

散布図のポイント ▌0から始める必要はない標準化前 0始まりにすることでむしろ相関関係が見えにくくなってしまう可能性もデータがすべて表示できるだけの範囲を用意したらOK ▌変数変換しても特に問題はない散布図で確認したいのは変数間の関係同じデータ標準化後変数変換は軸をいじるだけなので問題なし ▌どちらの変数を 𝑥 にするか？散布図を描くだけならどちらでも問題ないその後行うであろう分析との対応を考えると… ※赤い線は平均値反対に「テスト得点が上がったから勉強時間が増える」ということはないですよね一方がもう一方の原因と言える or 言いたい場合は原因の変数を 𝑥 軸に例｜勉強時間が長いほどテスト得点は上がるはずなので，勉強時間を 𝑥 軸に置く 03 2変数の記述統計量 4

5.

「２つの変数の関係性」＝相関関係のパターン ▌基本は３種類だけ「相関関係」とは2つの変数が「ともに変化する」あらゆる関係性を表す用語本当はいろいろな相関関係があるが，それについてはのちほど… 負の相関無相関正の相関 𝑥 が大きいほど 𝑦 は小さい 𝑥 と 𝑦 には 𝑥 が大きいほど 𝑦 も大きい関係がない 03 2変数の記述統計量 5

6.

「２つの変数の関係性」の要約統計量 ▌表したいのは，相関の「方向性」と「大きさ」正の相関のときにはプラス，負の相関のときにはマイナスになるように計算できたら良い！負の相関マイナス無相関正の相関０プラス 03 2変数の記述統計量統計量の値 6

7.

「２つの変数の関係性」の要約統計量 ▌散布図に見える相関関係をどのように要約するか？赤い線：各変数の平均値で散布図を4つに分けて見てみると… 負の相関右下がりの傾向がある左上と右下に多くのデータが存在している無相関傾向がない 4方向にバランス良くデータが存在している 03 2変数の記述統計量正の相関右上がりの傾向がある左下と右上に多くのデータが存在している 7

8.

要約の方向性が見えてきた ▌左下と右上と左上と右下のどちらにデータが多いかを比べたら良い • 左下と右上のほうが多ければ正の相関 • 左上と右下のほうが多ければ負の相関 …本当にそれだけで良いのか？ ▌データの位置も重要な要素 Q. A と B のどちらのほうがより「右上がり」っぽく見える？ A B 人によるかもしれませんが，たぶん Bのほうがより「右上がり」っぽい平均値からの距離も考慮してあげよう 03 2変数の記述統計量 8

9.

平均値からの距離って？ ▌「右上がり」っぽさの程度は中心からの距離では決まらない赤い線から離れるほど「右上がり」「右下がり」っぽくなっていく 𝑦ത 2つの変数がともに赤い線から離れる長方形の面積が大きくなる 𝑥ҧ 中心からの距離が同じであっても赤い線と近いときには「右上がり」「右下がり」には見えない長方形の面積は小さいデータの各点が中心と結ぶ長方形の面積を合計したとき • 左下と右上の長方形の面積の合計のほうが多ければ正の相関 • 左上と右下の長方形の面積の合計のほうが多ければ負の相関共分散までもう一歩です 03 2変数の記述統計量 9

10.

平均値からの偏差の積 ▌ 長方形の面積＝平均値からの偏差の積（かけ算）長方形の面積は (𝑥𝑛 − 𝑥)(𝑦 ҧ 𝑛 − 𝑦) ത ＝偏差の積 (𝑦𝑛 − 𝑦) ത 𝑛 番目のデータ (𝑥𝑛 , 𝑦𝑛 ) ② ③ (𝑥𝑛 − 𝑥)ҧ ① ④ 4つの区分 𝑥 の値が 𝑥ҧ よりも 𝑦 の値が 𝑦ത よりも偏差の積 ① 大きい 𝑥𝑛 − 𝑥ҧ > 0 大きい 𝑦𝑛 − 𝑦ത > 0 プラス ② 小さい 𝑥𝑛 − 𝑥ҧ < 0 大きい 𝑦𝑛 − 𝑦ത > 0 マイナス ③ 小さい 𝑥𝑛 − 𝑥ҧ < 0 小さい 𝑦𝑛 − 𝑦ത < 0 プラス ④ 大きい 𝑥𝑛 − 𝑥ҧ > 0 小さい 𝑦𝑛 − 𝑦ത < 0 マイナス全データの偏差の積の合計の符号は左下と右上 vs 左上と右下の多い方の符号になる偏差の積の合計の符号は相関関係の向きと一致するマイナス×マイナス＝プラス変数の記述統計量 03 2変数の記述統計量 10

11.

共分散 covariance 偏差の積共分散 𝑥1 − 𝑥ҧ (𝑦1 − 𝑦) ത + 𝑥2 − 𝑥ҧ (𝑦2 − 𝑦) ത + ⋯ + 𝑥𝑛−1 − 𝑥ҧ (𝑦𝑛−1 − 𝑦) ത + 𝑥𝑛 − 𝑥ҧ (𝑦𝑛 − 𝑦) ത 𝐶𝑜𝑣𝑥𝑦 = 𝑛 今後は変数 𝑥 と変数 𝑦 の共分散を𝐶𝑜𝑣𝑥𝑦 で表していきます（読みかた：こぶえっくすわい） ▌ もし 𝑦 が 𝑥 になったら？ 𝑥1 − 𝑥ҧ 𝑥1 − 𝑥ҧ + 𝑥2 − 𝑥ҧ 𝑥2 − 𝑥ҧ + ⋯ + 𝑥𝑛−1 − 𝑥ҧ 𝑥𝑛−1 − 𝑥ҧ + 𝑥𝑛 − 𝑥ҧ 𝑥𝑛 − 𝑥ҧ 𝐶𝑜𝑣𝑥𝑥 = 𝑛 おなじおなじおなじおなじ 𝑥1 − 𝑥ҧ 2 + 𝑥2 − 𝑥ҧ 2 + 𝑥3 − 𝑥ҧ 2 + ⋯ + 𝑥𝑛−1 − 𝑥ҧ 2 + 𝑥𝑛 − 𝑥ҧ 2 = = 変数 𝑥 の分散 𝑛 分散と共分散は同じことをやっている 𝑠𝑥2 絶対値だと共分散的なものを作りづらいというのも平均偏差より標準偏差が使われる理由の一つかもしれません 03 2変数の記述統計量 11

12.

共分散と分散は同じ ▌なので線形代数ではまとめて扱う 𝐱3 𝑥1,1 A B 1 ID 𝑁人性別 𝐽 個の変数 C D 身長体重 E F 勉強時間テストの得点 2 1 男 172 70 3.0 91 3 2 女 158 47 0.8 31 4 3 女 160 54 4.0 34 5 4 男 178 69 3.8 51 6 5 女 153 42 1.9 87 7 6 男 169 80 1.9 39 8 7 男 165 70 2.1 48 9 8 女 155 42 0.8 73 10 9 男 159 63 2.4 62 11 10 女 148 40 1.7 34 12 11 女 147 42 1.6 84 １番目の人の１つ目の変数の値 𝑥1,1 𝑥1,2 𝐱1 = ⋮ 𝑥1,𝑁 𝑥3,1 𝑥3,2 𝐱3 = ⋮ 𝑥3,𝑁 データ全体という感じで書けば 𝐗 = 𝐱1 𝐱2 ⋯ 𝐱𝐽 3つ目の変数の全員分の値 03 2変数の記述統計量 12

13.

分散共分散行列 ▌𝐱1 と 𝐱2 の関係を見てみると 𝑥1,1 𝑥1,2 𝐱1 = ⋮ 𝑥1,𝑁 𝑥2,1 𝑥2,2 𝐱2 = ⋮ 𝑥2,𝑁 偏差ベクトル平均値を引く 𝑥1,1 − 𝐱1 𝑥 − 𝐱1 (𝐱1 − 𝐱1 ) = 1,2 ⋮ 𝑥1,𝑁 − 𝐱1 𝑥2,1 − 𝐱 2 𝑥 − 𝐱2 (𝐱 2 − 𝐱 2 ) = 2,2 ⋮ 𝑥2,𝑁 − 𝐱 2 偏差の積 𝐱1 − 𝐱1 ⊤ 𝐱 2 − 𝐱 2 = 𝑥1,1 − 𝐱1 𝑥2,1 − 𝐱 2 + 𝑥1,2 − 𝐱1 𝑥2,2 − 𝐱 2 + ⋯ + 𝑥1,𝑁 − 𝐱1 𝑥2,𝑁 − 𝐱 2 共分散分散 1 𝐶𝑜𝑣𝐱1,𝐱2 = 𝐱1 − 𝐱1 ⊤ 𝐱 2 − 𝐱 2 𝑁 1 2 𝑠𝐱1 = 𝐱1 − 𝐱1 ⊤ 𝐱1 − 𝐱1 𝑁 03 2変数の記述統計量 13

14.

分散共分散行列 ▌全部まとめます 𝐗 = 𝐱1 𝐱2 ⋯ 𝐱𝐽 A B 性別 C D 身長 𝐱2 − 𝐱2 ⋯ 𝐱𝐽 − 𝐱ഥ𝐽 平均値を引くデータ 1 ID 𝐗 ∗ = 𝐱1 − 𝐱1 体重 E F 勉強時間テストの得点 2 1 男 172 70 3.0 91 3 2 女 158 47 0.8 31 4 3 女 160 54 4.0 34 5 4 男 178 69 3.8 51 6 5 女 153 42 1.9 87 7 6 男 169 80 1.9 39 8 7 男 165 70 2.1 48 9 8 女 155 42 0.8 73 10 9 男 159 63 2.4 62 11 10 女 148 40 1.7 34 12 11 女 147 42 1.6 84 𝑥1,1 − 𝐱1 𝑥1,2 − 𝐱1 に対して = ⋮ 列ごとに平均値を引いたもの 𝑥1,𝑁 − 𝐱1 𝑥2,1 − 𝐱2 𝑥2,2 − 𝐱2 ⋮ 𝑥2,𝑁 − 𝐱2 非対角成分は共分散対角成分は分散 𝑠𝑥21 𝐶𝑜𝑣𝑥2,𝑥1 1 ⊤ 𝐗 𝐗 = 分散共分散行列 = ⋮ 𝑁 ∗ ∗ 𝐶𝑜𝑣𝑥𝐽,𝑥1 03 2変数の記述統計量 𝑥𝐽,1 − 𝐱ഥ𝐽 𝑥𝐽,2 − 𝐱ഥ𝐽 ⋯ ⋮ 𝑥𝐽,𝑁 − 𝐱ഥ𝐽 𝐶𝑜𝑣𝑥1,𝑥2 ⋯ 𝐶𝑜𝑣𝑥1,𝑥𝐽 𝑠𝑥22 ⋮ ⋯ 𝐶𝑜𝑣𝑥2,𝑥𝐽 ⋱ 𝐶𝑜𝑣𝑥3,𝑥𝐽 𝐶𝑜𝑣𝑥𝐽,𝑥2 ⋯ 𝑠𝑥2𝐽 14

15.

共分散の限界 ▌相関関係のパターンは色々あるけれども正の相関 U字の相関負の相関逆U字の相関 03 2変数の記述統計量複雑な相関相関関係がある無相関相関関係がない 15

16.

共分散の限界 ▌共分散は直線の関係しか表せない共分散プラス共分散マイナスもちろん左右非対称なU字・逆U字などのときには共分散はプラスやマイナスになりえます正の相関 U字の相関負の相関逆U字の相関複雑な相関共分散ほぼ 0 共分散は左下と右上 vs 左上と右下のどちらが多いかしか見ていないそれ以上に複雑な相関関係は表現できない 03 2変数の記述統計量 16

17.

共分散と相関の関係性を整理すると ▌完全に相関がない場合は，共分散はほぼゼロになる「完全に相関がない」のはp. 15のグレーの図のようなパターンのときだけです ▌共分散がほぼゼロのとき，相関関係がないとは限らない前ページで見たとおり：少なくとも直線の相関関係はないと言える ▌共分散がほぼゼロではないときも直線以外の相関関係の可能性はある例全体的には右上がり共分散はそこそこの正の値だが… 正確に伝えるならば全体的な傾向では正の相関関係が見られるが周期的な変動もあるようだという感じ？いつだってまずは散布図を描こう 03 2変数の記述統計量共分散は「周期的な変動を考慮しても確かに全体的な傾向も見られる」ことを示す重要な情報です 17

18.

散布図と相関関係の強さ負の相関無相関正の相関 ▌相関関係が一番強いのはすべてのデータが一直線に並んでいるとき相関関係が強くなるほど散布図は丸から直線に向かって細くなっていきます ▌直線の傾きは関係ないほんの少しでも右上がりなら「最も強い正の相関」ということになりますこの話はあくまでも直線的な相関関係のみを対象としています。が，実はU字型の相関やジグザグな相関関係などでも「一本の曲線」「一本のジグザグ線」にすべてのデータが並ぶ場合を「相関関係が最も強い状態」といえる可能性があります。 ※具体的には，直線を𝑦 = 𝑎𝑥 + 𝑏で表す感じで「一本の曲線」「一本のジグザグ線」を表す式を特定できることが条件となります。 03 2変数の記述統計量 18

19.

共分散は何を表しているのか A 1 ID ▌単純な相関関係の強さだけではない B 性別 C D 身長体重 E F 勉強時間テストの得点 2 1 男 172 70 3.0 91 3 2 女 158 47 0.8 31 4 3 女 160 54 4.0 34 5 4 男 178 69 3.8 51 6 5 女 153 42 1.9 87 7 6 男 169 80 1.9 39 8 7 男 165 70 2.1 48 9 8 女 155 42 0.8 73 10 9 男 159 63 2.4 62 11 10 女 148 40 1.7 34 12 11 女 147 42 1.6 84 …… …で，その共分散はどうなの？相関は強いの？弱いの？共分散は4.41でした。共分散だけでは相関の強さはわからない共分散の大きさから相関関係の強さの明確な基準を作ることはできません次ページへ 03 2変数の記述統計量 19

20.

単位の影響を受ける ▌変数 𝑥 が 𝑘 倍されたらどうなるか 𝑘𝑥1 − 𝑘𝑥ҧ (𝑦1 − 𝑦) ത + 𝑘𝑥2 − 𝑘𝑥ҧ (𝑦2 − 𝑦) ത + ⋯ + 𝑘𝑥𝑛−1 − 𝑘𝑥ҧ (𝑦𝑛−1 − 𝑦) ത + 𝑘𝑥𝑛 − 𝑘𝑥ҧ (𝑦𝑛 − 𝑦) ത 𝑛 𝑥1 − 𝑥ҧ 𝑦1 − 𝑦ത + 𝑥2 − 𝑥ҧ 𝑦2 − 𝑦ത + ⋯ + 𝑥𝑛−1 − 𝑥ҧ 𝑦𝑛−1 − 𝑦ത + 𝑥𝑛 − 𝑥ҧ 𝑦𝑛 − 𝑦ത =𝑘× 𝑛 = 𝑘 × 𝐶𝑜𝑣𝑥𝑦 もとの共分散の 𝑘 倍になる前ページの例でいうと • テストの得点と勉強時間（単位：時間）の共分散は4.41 • テストの得点と勉強時間（単位：分）の共分散は60 × 4.41 = 264.6 同じ変数であっても変数変換によって共分散の値がコロコロ変わるので「共分散の値が○○以上だったら相関は強い」見たいなことは言えない 03 2変数の記述統計量つまり相関の強さは…？さて，どうしたものか… 20

21.

共分散が単位の影響を受ける理由 ▌共分散は偏差の積を使って計算しているから一つのデータの偏差の積 𝑥1 − 𝑥ҧ 𝑦1 − 𝑦ത 変数 𝑥 が 𝑘 倍になると偏差が 𝑘 倍になるつまり 𝑥1 − 𝑥ҧ が 𝑘 𝑥1 − 𝑥ҧ になる，ということです共分散が 𝑘 倍になると同時に，変数 𝑥 の標準偏差も 𝑘 倍になっている ▌ということは，共分散の中にはどうやら「相関関係の強さ」に加えて「各変数の標準偏差」が関係している！共分散＝分散と同じ計算方法なので散布度も影響するのです変数 𝑥 の標準偏差 × 変数 𝑦 の標準偏差 × 相関関係の強さここだけ取り出してあげたら一方の変数を 𝑘 倍したときに共分散が 𝑘 倍になるのは両方の変数の標準偏差を計算に含めているから 03 2変数の記述統計量相関関係の強さがわかる！ 21

22.

相関係数 correlation coefficient 共分散＝変数 𝑥 の標準偏差 × 変数 𝑦 の標準偏差 × 相関関係の強さということは相関関係の強さ＝共分散変数 𝑥 の標準偏差変数 𝑦 の標準偏差例勉強時間とテストの得点の共分散は4.41 こいつこそが相関係数なのです × 勉強時間の標準偏差が1.62 テストの得点の標準偏差が10.6 式で表すと 𝐶𝑜𝑣𝑥𝑦 𝑟𝑥𝑦 = 𝑠𝑥 𝑠𝑦 なので 4.41 相関係数は ≒ 0.257です！ 1.62×10.6 03 2変数の記述統計量 22

23.

相関係数の性質 ▌相関係数は-1から1までの間の値になる負の相関値と散布図の関係を細かく覚える必要はないですが「相関係数の絶対値が大きくなると1本の直線に近づく」ということは知っておいてください ▲コーシーシュワルツの不等式から -1 正の相関 0 1 𝑟𝑥𝑦 = 0 𝑟𝑥𝑦 = −1 𝑟𝑥𝑦 = −0.5 𝑟𝑥𝑦 = 0.5 𝑟𝑥𝑦 = 1 ▌相関係数0は必ずしも無相関を表しているわけではない相関係数0＝共分散0というだけです（p. 16参照）直線以外の相関関係もありましたね ▌相関係数0.5は0と1のちょうど中間というわけではない「相関度50%」みたいな解釈はできません 03 2変数の記述統計量 23

24.

相関係数の解釈 ▌絶対的な解釈は難しい例｜Cohenの基準心理学でよく引用される基準時と場合によりすぎる 0 0.1 0.3 小 0.5 中 1 大あくまでもCohen調べの経験的な基準マイナスの方も同じ基準です心理学（行動科学）の過去の研究で見られた相関係数をもとに決めた値それ以上の根拠があるわけではないので絶対視するのは良くない心理学の相関係数は比較的ゆるい基準 0.29と0.31の差は微々たるものだからバッサリ分けるのは良くないそもそも人間の心や行動に影響を与える要素が多すぎるため一方，物理学や化学では相関係数0.9で不十分なケースも多々ある ▌相対的な解釈には使いやすいどの変数との相関が高いか・男女ではどちらのほうが強い相関が見られるか etc. 03 2変数の記述統計量 24

25.

外れ値の影響外れ値の対処法 ▌相関係数は外れ値によって大きく変化する外れ値を除いたデータは相関係数はほぼゼロになっている外れ値資料02 p.6を参照外れ値は偏差の積がかなり大きい偏差の積の総和がほぼゼロである相関係数が大きく変化するこいつは外れ値だが相関係数に影響しない外れ値が相関係数を大きく動かすのは偏差の積が大きいから両方の変数について外れ値でないと影響は小さい 03 2変数の記述統計量 25

26.

擬似相関手へんの有無（疑／擬）はたぶんどっちでも大丈夫です ▌本来なんの関係もないのに相関係数はゼロじゃない状態例血圧が高い人ほど年収が高い血圧相関本来血圧と年収にはなんの関係もないはず年収「血圧が高い人のほうがやる気に溢れているから成果を出して年収も上がりやすい」なんて話はありませんなのに相関係数がはっきりと現れるなぜ？年を取るほど血圧は高くなる年功序列で年収は上がるどちらとも相関する変数が存在しているここでは「年齢」じゃあどうする？年齢を統制して再度相関を計算年齢例えば30代の人のデータだけで相関係数を計算たぶん相関係数はゼロに近い値になる 03 2変数の記述統計量 26

27.

擬似相関を「考える」 ▌擬似相関は何かしらのヒントになっている決して悪者ではありません社会科学では思いもよらない変数の関係性が見つかると盛り上がるもし相関関係の理由の説明がつかない2つの変数が相関していたら… パターンＡ代表的な擬似相関のパターン変数 𝑥 パターンＢ変数 𝑥 パターンＣ変数 𝑥 2つの変数それぞれと関係のある変数が存在している第3の変数変数 𝑦 前ページの血圧と年収の関係はこのパターン 2つの変数の関係を媒介する変数が存在している第3の変数変数 𝑦 例｜「ジムに入会したら痩せた」もちろん入会するだけで痩せるわけはない実際には「入会」→「運動した」→「痩せた」奇跡的な偶然によってたまたま相関が出現した？変数 𝑦 03 2変数の記述統計量例｜「音楽CDが売れるとサバが大漁」絶対に関係はないが確かに相関はあった https://www.lycorp.co.jp/ja/bigdata/2017/09/05_bigdata-report.html 27

https://www.lycorp.co.jp/ja/bigdata/2017/09/05_bigdata-report.html

28.

層別相関だから層ごとに相関をチェックしましょう，という話です ▌部分ごとに見た相関と全体で見た相関が全く別物になることがある例無相関例正の相関正の相関になるパターン負の相関になるパターン 𝑟𝑥𝑦 ≒ 0.78 𝑟𝑥𝑦 ≒ −0.69 𝑟𝑥𝑦 ≒ 0 𝑟𝑥𝑦 ≒ 0.6 𝑟𝑥𝑦 ≒ 0 𝑟𝑥𝑦 ≒ 0.6 全体では正の相関にほぼ無相関の２つの群全体では負の相関に正の相関を持つ２つの群 03 2変数の記述統計量 28

29.

層別相関のしくみ ▌第３の変数が関係していることがほとんど例無相関つまり擬似相関も層ごとの相関を見ることができれば謎が解明されるケースが結構ある正の相関になるパターン変数 𝑥 を血圧，変数 𝑦 を年収だとする擬似相関手へんの有無（疑／擬）はたぶんどっちでも大丈夫です A群を50代，B群を20代だとすると 𝑟𝑥𝑦 ≒ 0.78 Ａ本来なんの関係もないのに相関係数はゼロじゃない状態 p.26 と同じ状態になっている 50代血圧が高い人ほど年収が高い本来血圧と年収にはな「血圧が高い人のほうがやる気成果を出して年収も上がりやＢ相関なのに相関係数が 20代全体では正の相関に年を取るほど血圧は高くなる年功序列で年収は上がるどちらとも相関する変ここでは年齢を統制して再第3の変数によって層（カテゴリ）に例えば代の人のデータだけたぶん相関係数はゼロに近なっているときには全体だけでなく層ごとに相関をチェックするべきほぼ無相関の２つの群変数の記述統計量 03 2変数の記述統計量 29

30.

選抜効果（切断効果）「入試」と「入学後の成績」の相関など一方の変数の値が小さい or 大きいデータが入手できないときには要注意 ▌データの一部を抜き出すと全体とは異なる相関があらわれる例正の相関例無相関無相関になるパターン 𝑥 + 𝑦 > 1の人だけを抜き出したとき 𝑥 > 1の人だけを抜き出したとき 𝑟𝑥𝑦 ≒ 0.6 負の相関になるパターン 𝑟𝑥𝑦 ≒ 0.1 𝑟𝑥𝑦 ≒ 0 𝑟𝑥𝑦 ≒ −0.8 全体だとそこそこ相関赤い点だけだと弱相関全体だと無相関赤い点だけだと負の相関 ▌変数の値を基準にデータを抜き出すと発生する完全ランダムに抜き出すだけなら選抜効果は起こらない 03 2変数の記述統計量 30

31.

相関関係と因果関係 ▌まずは言葉の定義から（大辞林第三版より）相関関係因果関係 ① 一方が変われば他方も変わるというような関係。相関的な関係。 ② 〘数〙二つの変量の間で、一方が増加するにつれて、他方が増加または減少する関係。いくつかの事柄の関係において、一方が原因 A で他方が結果であるというつながりのあること。 B 03 2変数の記述統計量 ○○のせい・おかげで△△になった A B 原因結果 31

32.

因果関係を示すための3つの条件 1 「原因」と「結果」が関連していることつまり相関関係があるということ相関関係があるからといって因果関係があるとは限らないが相関関係がないときには因果関係は絶対にない「相関係数がゼロではないこと」ではありません 2 「原因」が「結果」に時間的に先行していること例｜食事量と体重の因果関係たくさんたべる 3 「たくさん食べるから太った」のであって「太ったからたくさん食べるようになった」のではないふとる「太る」という結果より前に「食べる」という原因が必ずある「原因」の他に「結果」を説明できるもっともらしい理由が他にないつまり擬似相関などではないということ 03 2変数の記述統計量 32

33.

相関関係と因果関係の使い分け ▌因果関係があるならば… 望んだ結果を得るために何をしたらよいか分かるかもしれない相関関係のみの場合一方の変数を操作したとしてもう一方の変数が変化するかはわからない例｜「食べたら太る」のであれば食べなければ良い ▌相関関係を因果関係だと解釈すると良くないかもしれない例ピアノを習っている子は学力が高い正しい解釈ピアノ親の年収が高いと子どもの教育に金をかけるピアノも塾も行かせる親が多い？学力親の年収この例もそう因果関係だと勘違いピアノ学力ピアノを習わせるとふきだし頭が良くなるんだ！こうして教育ママは今日もワイドショーに踊らされるのであった… 03 2変数の記述統計量 33

34.

因果関係を見抜くには？ 3 「原因」の他に「結果」を説明できるもっともらしい理由が他にない ▌いろいろ方法はありますが… 代表的な方法は実験的な環境を整える方法因果関係の条件をクリアするために「第３の変数」になりうるすべてを可能な限り統制する必要がある【例えば】例 • • ラーメンを食べると太りやすいのか？ • 「食べる」「食べない」を男女などの属性でわけない（ランダムに）食べた量は体重に影響するので「食べない組」もラーメンと同量のカロリーを摂取させる睡眠時間なども体重に影響するのでなるべく同じ生活をさせる毎日ラーメン食べる組ラーメン食べない組参加者を集める２グループに分ける 03 2変数の記述統計量１ヶ月後体重を測って比較する 34

35.

クロス表の記述統計 03 2変数の記述統計量 35

36.

連関 ▌質的変数の関係性量的変数じゃないから平均値とか偏差とか計算できないよ?? 性別と宿題提出率に関係があるか調べてくれるかい？まあ，前みたいに散布図や相関を使ってパッと出しちゃってよ！ヨロシク!! 少しぐらい自分でやれよ！ G A B C D 1 ID 性別身長体重 2 1 男 172 70 3.0 91 済 3 2 女 158 47 0.8 31 未 4 3 女 160 54 4.0 34 未 5 4 男 178 69 3.8 51 済 6 5 女 153 42 1.9 87 済 7 6 男 169 80 1.9 39 済 8 7 男 165 70 2.1 48 未 9 8 女 155 42 0.8 73 済 10 9 男 159 63 2.4 62 未 11 10 女 148 40 1.7 34 済 12 11 女 147 42 1.6 84 済 E F 勉強時間テストの得点宿題提出質的変数間の関係なので相関の代わりに連関係数を算出したいと思います。代わりに連関を考えますいいから口の前に手を動かせ！ 03 2変数の記述統計量 36

37.

まずはまとめる ▌質的変数なので散布図にはできないけど… 全く同じ値（例｜男性・宿題提出済）の人は完全に重なってしまうので何人いても一人分の点しか見えないカテゴリをそのままに散布図に押し込んでみる B C D 1 ID 性別身長体重 2 1 男 172 70 3.0 91 済 3 2 女 158 47 0.8 31 未 4 3 女 160 54 4.0 34 未 5 4 男 178 69 3.8 51 済 6 5 女 153 42 1.9 87 済 7 6 男 169 80 1.9 39 済 8 7 男 165 70 2.1 48 未 9 8 女 155 42 0.8 73 済 10 9 男 159 63 2.4 62 未 11 10 女 148 40 1.7 34 済 12 11 女 147 42 1.6 84 済男女 0 1 E 宿題提出 G A F 勉強時間テストの得点宿題提出未済どこに何人いるかわからない済(1) 未(0) 性別男(0) 女(1) 人数だけ引っ張り出す 0 1 男女宿題提出済 42 48 未 8 2 03 2変数の記述統計量これがクロス集計表 37

38.

まずは言葉の定義から（大辞林第三版より）質的変数の関係って？というような関係。相関的な関係。〘数〙二つの変量の間で、一方が増加するにつれて、他方が増加または減少する関係。 ▌相関と同じように考えてみるといくつかの事柄の関係において、というつながりのあること。のせい・おかげで一方の変数のカテゴリごとにもう一方のカテゴリの割合が変化するならば2つの変数の間には関係がある男女宿題提出済 42 48 未 8 2 男性の宿題提出率は 42 = 84% 50 原因宿題提出者のうち男性の割合は 42 ≒ 46.7% 90 になった結果変数の記述統計量宿題未提出者のうち男性の割合は 8 = 80% 10 女性の宿題提出率は 48 = 96% 50 差があるなら「関係あり」相関と同様に2つの変数の区別はないため縦方向・横方向のどちらで見ても結果は同じ差があるなら「関係あり」 03 2変数の記述統計量量的変数質的変数この関係のことを連関と呼びます 38 相関連関

39.

連関の強さ ▌もし２変数の間に連関が全くなかったら一方の変数のどのカテゴリでももう一方のカテゴリの割合が変化しない男女もちろん「女性の割合」や「宿題未提出率」で比較しても同じ話です宿題提出済宿題提出者のうち男性の割合未宿題未提出者のうち男性の割合男性の宿題提出率同じ値になる女性の宿題提出率この状態から離れるほど同じ値になる連関が強いと判断することができる 03 2変数の記述統計量 39

40.

連関の強さを計算するために ▌最も連関がないときの仮想クロス表を作る Step 1 周辺度数を求める男女宿題提出済 42 48 未 8 2 Step 2 クロス表の中身を一旦無視して「各変数の各カテゴリごとの人数」を出します • 男性は50人 • 女性は50人 • 宿題提出済は90人 • 宿題未提出は10人男女計宿題提出済 90 未 10 計 50 50 100 期待度数を求める男女計宿題提出済 90 未 10 計 50 50 100 宿題提出済と未提出は9:1の割合男子50人を9:1に分けると45:5 同様に女子50人も45:5 03 2変数の記述統計量男女計宿題提出済 45 45 90 未 5 5 10 計 50 50 100 40

41.

仮想クロス表ができた ▌あとは実際のデータ実際のデータ男女宿題提出済 42 48 未 8 2 仮想クロス表男女宿題提出済 45 45 未 5 5 男性の宿題提出率は 45 = 90% 50 と比較するだけ宿題提出者のうち男性の割合は 45 ≒ 50% 90 宿題未提出者のうち男性の割合は 5 = 50% 10 女性の宿題提出率は 45 = 90% 50 同じ値になっている同じ値になっている 03 2変数の記述統計量 41

42.

ズレの程度を評価する ▌まずは普通に差を求めます実際のデータ男女宿題提出済 42 48 未 8 2 ー仮想クロス表男女宿題提出済 45 45 未 5 5 ▌共分散と似た感じで考えてみます差男女宿題提出済 -3 3 未 3 -3 ＝差男女宿題提出済 -3 3 未 3 -3 共分散＝平均値からの偏差（ズレ）の二乗を人数で割った値（平均値）ズレの二乗を仮想クロス表での人数で割る「提出済・男」は仮想クロス表では45人なので −3 2 = 0.2 45 仮想クロス表の人数で割っているイメージとしては • 「提出済・男」と「未提出・男」のズレは同じ（3人）だが • 「提出済・男」は「45人いると思ったら42人だった」 • 「未提出・男」は「5人いると思ったら8人だった」「提出済・男」のほうが1人のズレの影響は相対的に小さい（期待度数が45なら1人くらいのズレは誤差だろう）といえる 03 2変数の記述統計量計算した値男女宿題提出済 0.2 0.2 未 1.8 1.8 42

43.

連関係数 ▌全部足してあげます計算した値男女宿題提出済 0.2 0.2 未 1.8 1.8 なぜこれを𝜒 2 値という名前で呼ぶのかに関しては後半の講義で判明すると思いますが、今のところは「そういうものなんだぁ」と受け入れてくださいぜんぶ足すと4.0 この値を𝜒 2 値と呼びます ▌最後にちょっと調整します相関係数と同じように取る値の範囲が0から1の間になるようにするためにデータの人数で割るルートを取る 4.0 = 0.04 = 0.2 100 03 2変数の記述統計量相関係数と同様に • 大きいほど連関が強いことを表します • 値には絶対的な基準はありませんこの値をクラメールの連関係数と呼びます 43

44.

クラメールの連関係数 ▌最後の変換，正しくはデータの人数×（少ない方のカテゴリ数-1）で割る実際のデータ男女宿題提出済 42 48 未 8 2 ルートを取るどちらの変数も2カテゴリなので 4.0 = 0.04 = 0.2 100 × 1 が正しい式になる ▌マイナスの値を取らないクラメールの連関係数に限らず「連関」には正負の方向性がない 03 2変数の記述統計量 44

45.

連関係数の計算方法その2 ▌p. 37の散布図の状態から無理やり相関係数を出してみる G B C D 1 ID 性別身長体重 2 1 0 172 70 3.0 91 1 3 2 1 158 47 0.8 31 0 未 4 3 1 160 54 4.0 34 0 5 4 0 178 69 3.8 51 1 B C D 1 ID 性別身長体重 2 1 男 172 70 3.0 91 済 3 2 女 158 47 0.8 31 未 4 3 女 160 54 4.0 34 E F G A A 勉強時間テストの得点宿題提出数字に E F 勉強時間テストの得点宿題提出 5 4 男 178 69 3.8 51 済 6 5 女 153 42 1.9 87 済 6 5 1 153 42 1.9 87 1 7 6 男 169 80 1.9 39 済 7 6 0 169 80 1.9 39 1 8 7 男 165 70 2.1 48 未 8 7 0 165 70 2.1 48 0 9 8 女 155 42 0.8 73 済 9 8 1 155 42 0.8 73 1 10 9 男 159 63 2.4 62 未 10 9 0 159 63 2.4 62 0 11 10 女 148 40 1.7 34 済 11 10 1 148 40 1.7 34 1 12 11 女 147 42 1.6 84 済 12 11 1 147 42 1.6 84 1 置き換え宿題提出宿題提出済 1 未 0 性別男性別 0 女 03 2変数の記述統計量 1 45

46.

質的変数から相関係数を計算する ▌仮に数字を当てはめてしまえば計算は可能実際のデータ男女計宿題提出済 42 48 90 未 8 2 10 計 50 50 100 100人中50人が女性(1)なので性別の平均値は0.5 宿題提出 1 0 42人 48人 100人中90人が宿題提出済(1)なので宿題提出の平均値は0.9 8人 2人性別 0 1 あとは平均値からの偏差を使って相関係数を計算していけば良いのですが… ここで散布図とクロス表をよく見比べてみましょう 03 2変数の記述統計量 46

47.

相関とクロス表要約の方向性が見えてきた ▌p. 8より左下と右上と左上と右下左下と右上のほうが多ければ左上と右下のほうが多ければ本当にそれだけで良いのか？宿題提出 1 0 と 8人 0 実際のデータ男女計例えば青いセルの値が赤いセルより明らかに多い場合宿題提出済 42 48 90 「男子は宿題未提出が多く女子は未 8 2 10 宿題提出者が多い」ということのどちらのほうがより「右上がり」っぽく見える？計 50 50 100 なので連関がある 2人（逆もまたしかり）人によるかもしれませんが，たぶん性別 42人 48人データの位置も重要な要素 1 2つのカテゴリを0/1に置き換えるならば平均値は必ず1から0の間に来るのでデータが取る値の4パターンが必ず上下左右に分かれますのほうがより「右上がり」っぽいクロス表の対角線上でどちらか一方が明らかに多ければ連関がある 03 2変数の記述統計量変数の記述統計量 47

48.

ファイ係数左下と右上と左上と右下左下と右上のほうが多ければ ▌そんなイメージで計算できる連関係数男クロス表女計宿題提出済 ③ 未 ④ 計 ① 左上と右下のほうが多ければ本当にそれだけで良いのか？データの位置も重要な要素とファイ係数＝ 𝜙 係数 ② 赤いセルの積ー青いセルの積のどちらのほうがより「右上がり」っぽく見える？人によるかもしれませんが，たぶん周辺度数の積（＝①×②×③×④）のほうがより「右上がり」っ分母はファイ係数が取りうる値を-1から1に制限するために調節しているものだと思ってください例実際のデータ男女計宿題提出済 42 48 90 未 8 2 10 計 50 50 100 変数の記述統計量 𝜙= 42 × 2 − (48 × 8) 50 × 50 × 90 × 10 = −300 2250000 = −300 = −0.2 1500 計算の方法は違えどクラメールの連関係数と同じ絶対値になる (p. 43) 03 2変数の記述統計量 48

49.

ファイ係数の符号 ▌符号には何の意味もない相関係数っぽく計算しようとした結果負の値になることはあるが… そもそも「負の連関」なんてものが存在し得ないので気にしなくていい例クロス表はただの集計なので入れ替えても問題ない入れ替え前男女計入れ替え後女男計宿題提出済 42 48 90 宿題提出済 48 42 90 未 8 2 10 未 2 8 10 計 50 50 100 計 50 50 100 赤いセルの積と青いセルの積が完全に入れ替わっているのでファイ係数の符号だけが逆転する 03 2変数の記述統計量 49

50.

ファイ係数について ▌2×2クロス表でしか計算できないカテゴリが3つ以上になるとどのカテゴリを0/1/2にするかで平均値が変わるしかし質的変数なのでどのカテゴリにどの数字を当てはめてもいいファイ係数の値が一つに決まらないのでダメ 1 さらに言えば0<1<2という順序性も必要になるが質的変数には順序なんてものは存在しないのでダメ ▌クラメールの連関係数と本質的に同じ 0 0 1 2 「2×2のときには別の方法でも連関係数が計算できるよ」というだけの話 ▌実は相関係数とも同じ実際にpp. 45-46の考え方で相関係数を計算するとファイ係数と同じ値になる 03 2変数の記述統計量 50

経営統計_03_2変数の記述統計量

Kyosuke Bunji

関連スライド

ベイズ統計_07_マルコフ連鎖モンテカルロ法(2)

ベイズ統計_02_確率の基本とベイズの定理

ベイズ統計_01_イントロダクション

ベイズ統計_03_尤度

ベイズ統計_04_事前分布・基本的なベイズ推論(1)

ベイズ統計_06_マルコフ連鎖モンテカルロ法(1)

各ページのテキスト