416 Views
April 03, 24
スライド概要
[第6回大阪sas勉強会]中川雄貴
SAS言語を中心として,解析業務担当者・プログラマなのコミュニティを活性化したいです
イーピーエス株式会社 統計解析1部 中川 雄貴
自己紹介 名前:中川雄貴 出身地:大阪 趣味:ダイビング @石垣島 大学時代(農学研究科) 機器分析(分光法)を用いた飲料水中の微生物を 対象とした測定データの解析 ⇒ 多変量解析(PCA, PLS など) 2019年4月 入社 2024年4月2日 SASによるPCAの実装 中川雄貴 2
本日の内容 SASによるPCAの実行 対象データセット:sashelp.baseball 通算成績+1986年成績(連続変数) 通算成績 通算打席数, 通算安打, 通算本塁打, 通算得点, 通算打点, 通算四球 1986年成績 打席数, 安打, 本塁打, 得点, 打点, 四球, 刺殺, 捕殺, エラー PCA(主成分分析)とは • 複数の変数を主成分という新たな変数に集約 • 多変量のデータの傾向の視覚化 • SASではprincompプロシジャで実行可能 2024年4月2日 SASによるPCAの実装 中川雄貴 3
コード例 proc princomp data=test out=Result n=5 plots(ncomp=5)=all; var '打席数'n--'通算四球'n; run; *今回は最低限のオプションのみ n= : 計算する主成分数の指定 plots= : ODSで出力するplotsの制御 ncomp= : plotsで使用される主成分数の指定 var : 使用する変数の指定 ただし、proc princomp のプロットは一色… プロット作成のために、sgscatter, sgplotを使用 SAS コード 2024年4月2日 SASによるPCAの実装 中川雄貴 4
PCA -Score Plot (+色分け)- 年俸で色分け 年数で色分け PC1 & PC2で傾向あり 2024年4月2日 SASによるPCAの実装 中川雄貴 5
PCA -Score Plot+成分パターン- 1986年の成績 Score Plotと成分パターンの観察 仮説 ①PC1正&PC2正⇒ピーク(活躍中) ②PC1正&PC2負⇒衰えで引退間近 通算成績 2024年4月2日 SASによるPCAの実装 中川雄貴 6
仮説の答え合わせ Mattingly Don 1984年:リーグ最高安打&打率 1985年:リーグ最高塁打&打点 1990年に成績降下、95年に引退 Mike Schmidt 1986年まで数多くの タイトル、表彰を獲得 1988年のけがの影響で89年に引退 Rose Pete 1980年代に入り、衰え 1986年に引退 Jackson Reggie 1986年後半戦は打率.195と不振 1987年は衰えを隠せず、現役引退 ◎PC1正&PC2正⇒ピーク(活躍中) ◎PC1正&PC2負⇒衰えで引退間近 仮説は概ね正しい 2024年4月2日 SASによるPCAの実装 中川雄貴 7
まとめ • 選手の活躍状況を知ることができた • 色付けを行うためにSASのグラフ機能(sgscatter, sgplot)を使えることが必要 • 様々な出力・オプションがある ⇒引く続きprincompプロシジャについて勉強 2024年4月2日 SASによるPCAの実装 中川雄貴 8