383 Views
February 25, 22
スライド概要
データサイエンス演習(R システムを使用)
https://www.kkaneko.jp/cc/rd/index.html
金子邦彦研究室ホームページ
https://www.kkaneko.jp/index.html
金子邦彦(かねこくにひこ) 福山大学・工学部・教授 ホームページ: https://www.kkaneko.jp/index.html 金子邦彦 YouTube チャンネル: https://youtube.com/user/kunihikokaneko
rd-6. 相関,相関係数 データサイエンス演習 (R システムを使用) https://www.kkaneko.jp/de/rd/index.html 金子邦彦 1
アウトライン 6-1. 相関 6-2. 相関係数 2
6-1 相関 3
相関 • 相関は,2つの変数の間に関連性があるか (一方が変化すれば、もう一方も変化する関係) • 相関あり X が増えると,Yが増えている X が増えると,Y が減っている • 相関なし X と Y に関係がない 4
6-2 相関係数 5
相関係数 • 相関係数は,相関を算出した数値 1や ー1に近い値: 1に近い値: ー1に近い値: 0に近い値: 相関あり 正の相関関係 負の相関関係 相関なし R システムでは cor を用いて,相関係数を算出 6
2つの変数の例 • 2つの変数 xx, yy の散布図 相関係数の算出結果例 7
2つの変数の例 • 2つの変数 xx, yy が 互いに相関関係を持 つ場合. xx の値が増えると yy の値が増えるという 正の相関関係 相関係数の算出結果例 8
2つの変数の例 • 2つの変数 xx, yy が 互いに相関関係を持 つ場合. xx の値が増えると yy の値が減るという 負の相関関係 相関係数の算出結果例 9
合成データからランダムに100個選び標本を 作り,相関係数を求める 合成データ サイズ100 の標本を2セット タイプ:数値(整数化しない) サイズ:100,000 x <- rnorm(100000, mean=5, sd=5) y <- rnorm(100000, mean=5, sd=5) d7 <- data.frame( xx=x[floor( runif(100, 1, 100000+1) )], yy=y[floor( runif(100, 1, 100000+1) )] ) d7$yy <- d7$yy + (d7$xx - d7$yy) * 0.6 library(ggplot2) 合成データに正の相関関係をもたせる ggplot(d7, aes(x=xx)) + geom_point( aes(y=yy), size=3 ) + theme_bw() cor(d7$xx, d7$yy) 10
相関係数 • 1や ー1に近い値: 1に近い値: 正の相関関係 ー1に近い値: • 0に近い値: 相関あり 負の相関関係 相関なし 正の相関関係 負の相関関係 11
相関係数の性質 「相関の強弱」の尺度である.「傾き」ではない 1に近い値 1に近い値 12
合成データからランダムに100個選び標本を 作る 合成データ サイズ100 の標本を2セット タイプ:数値(整数化しない) サイズ:100,000 x2 <- rnorm(100000, mean=5, sd=5) y2 <- rnorm(100000, mean=5, sd=0.1) d10 <- data.frame( xx=x2[floor( runif(100, 1, 100000+1) )], yy=y2[floor( runif(100, 1, 100000+1) )] ) 合成データに, d10$yy <- 0.1 * d10$xx + d10$yy 正の相関関係をもたせる library(ggplot2) ggplot(d10, aes(x=xx)) + geom_point( aes(y=yy), size=3 ) + xlim(-5, 15) + ylim(-5, 15) + theme_bw() cor(d10$xx, d10$yy) 13
合成データからランダムに100個選び標本を 作る 合成データ サイズ100 の標本を2セット タイプ:数値(整数化しない) サイズ:100,000 x2 <- rnorm(100000, mean=5, sd=5) y2 <- rnorm(100000, mean=5, sd=0.1) d11 <- data.frame( xx=x2[floor( runif(100, 1, 100000+1) )], yy=y2[floor( runif(100, 1, 100000+1) )] ) d11$yy <- 0.4 * d11$xx + d11$yy 合成データに, library(ggplot2) 正の相関関係をもたせる ggplot(d11, aes(x=xx)) + geom_point( aes(y=yy), size=3 ) + xlim(-5, 15) + ylim(-5, 15) + theme_bw() cor(d11$xx, d11$yy) 14
相関係数の例 15
おわりに • 相関は,2つの変数の間に関連性があるか (一方が変化すれば、もう一方も変化する関係) • 相関係数は,相関を算出した数値 • 3つ以上の変数があるとき、相関係数は多数求ま る 変数 A, B, C に対して A と B の相関係数, B と C の相関係数, C と A の相関係数 16