重回帰分析における多重共線性について

4.6K Views

March 26, 24

スライド概要

[第9回大阪SAS勉強会] 高田 浩成

profile-image

SAS言語を中心として,解析業務担当者・プログラマなのコミュニティを活性化したいです

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

2024年3月22日 第9回 大阪SAS勉強会 重回帰分析における多重共線性について 高田 浩成 1 / 19

2.

目次 1. 背景知識 モデルイメージ 重回帰分析 [自由度調整済み決定係数] 多重共線性 [分散拡大係数] 2. SAS実装例 CORRプロシジャ・REGプロシジャ[VIFオプション] 多重共線性がある結果→改善結果 変数選択 Copyright©EPS All rights reserved. 2

3.

目的・概要 • • • • データサイエンス分野で知っておきたい概念をまとめたい 重回帰分析は多変量解析(回帰・分類ともに含む)で最もポピュラーな手法と言える 他の解析手法の考え方の基本ともなる そこで多重共線性について言及されることも多い • • • • 用語としては聞くことはあるが具体的な内容を学習したい 定量的な指標が存在する SASにはこの指標を算出する機能がある この現象について実装・確認して理解に役立てる Copyright©EPS All rights reserved. 3

4.

①背景知識 Copyright©EPS All rights reserved. 4

5.

重回帰モデル例(多重共線性がある場合) 【目的変数】結果データ →様々な要因に基づく 【説明変数】原因データ 来店客数 どのような要因を 想定するのが適切か 気温 アイス の売上 降水量 降水時間 晴れて暑い日 に売れやすい・・・ 正の相関 価格 負の相関 値引率 Copyright©EPS All rights reserved. 5

6.

重回帰分析の特徴 • 目的変数を複数の説明変数により線形モデルに適合させる ※単回帰分析のグラフイメージ ←最小二乗法により残差平方和を最小にする 目的変数(2次元図示の便宜上) Y • 回帰式(β:回帰係数、βi:偏回帰係数、ε:切片) 観測値 単回帰式:Y = βX + ε 重回帰式:Y = β1X1 + β2X2 + … + βtXt + ε 残差 • 目的変数については種類によって解析名が異なる 量的変数 → 線形回帰分析 2値変数 → ロジスティック回帰分析 生存関数 → コックス回帰分析 予測値 ε 回帰直線 説明変数 Copyright©EPS All rights reserved. 説明変数が2つになると回帰平面となる X 6

7.

重回帰分析の指標: 自由度調整済み決定係数 【単回帰分析】 • 決定係数R2(0~1)により当てはまりを評価 (2変数による相関係数r(-1~1)の2乗でも可能) 1 𝑛 σ𝑖=1 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത 共分散 𝑛 𝑟= 1 𝑛 1 𝑛 σ𝑖=1 𝑥𝑖 − 𝑥ҧ 2 σ𝑖=1 𝑦𝑖 − 𝑦ത 2 標準偏差積 𝑛 𝑛 𝑛 σ ො𝑖 𝑖=1 𝑦𝑖 − 𝑦 𝟐 𝑹 =1− 𝑛 σ𝑖=1 𝑦𝑖 − 𝑦ത 2 残差平方和 2 全平方和 x,y:観測値 𝑥,ത ҧ y:平均値 yො : 予測値 (回帰分析) 【重回帰分析】 σ𝑛𝑖=1 𝑦𝑖 − 𝑦ො𝑖 2 • さらに調整済み決定係数(adjusted R2, R*2)を算出する 𝐚𝐝𝐣𝐮𝐬𝐭𝐞𝐝 𝑹𝟐 = 1 − 𝑛𝑛 − 𝑘 − 1 2 σ𝑖=1 𝑦𝑖 − 𝑦ത (観測データ数による自由度と変数の数を考慮) 𝑛−1 • 説明変数が増えると見かけ上の精度が上がり(残差が減少) 決定係数が増加しやすいため n:データの数 k:変数の数 Copyright©EPS All rights reserved. 7

8.

多重共線性とは • Multicollinearity(マルチ コ リニアリティ、 略称:マルチコ) 「説明変数に相関関係がある」状態 目的変数 vs 相関関係のある2変数 目的変数 共線性=線形関係 多重=重なり合い Y 影響大 • 目的変数にとって多重共線性のある説明変数の 影響が強くなる(重みが大きくなる) →独立した説明変数でなければ信頼性において危険 X2 説明変数2 • 回帰係数のバラツキが大きくなる →データが少し変わっただけで結果が大きく変わる • 重回帰分析において注意しなければいけない現象 →説明変数を適切に選択する必要がある Copyright©EPS All rights reserved. 相関:大 説明変数1 X1 8

9.

多重共線性の指標: 分散拡大係数 • 多重共線性の深刻さを数値化・定量化 • VIF (Variance Inflation Factor) 1 𝑉𝐼𝐹𝑖 = 1 − 𝑅𝑖2 • • • • 全ての説明変数についての決定係数R2から導出(各説明変数に対しても重回帰分析を実施) 一般的に10以上ならその説明変数に多重共線性があるとみなされる 全ての説明変数のVIFが2未満であることが望ましい 説明変数の削除や合成により対応 • SASのvifオプションで実装可能 • 相関行列の逆行列でも算出可能 • トレランス(Tolerance): VIFの逆数(1-Ri2)、0.1以下なら多重共線性、tolオプション Copyright©EPS All rights reserved. 9

10.

②SAS実装例 Copyright©EPS All rights reserved. 10

11.

サンプルデータ データセットTEST N=10 ※重回帰分析を行うにあたって症 例数は本来多くするべきだが便宜 上今回は絞ることにした 体重/BMIの分布 r = 0.89 【目的変数】 Y: 何らかの検査値・スコア 【説明変数】 AGE: 年齢 収縮期血圧/拡張期血圧の分布 HEIGHT: 身長[m] r = 0.98 WEIGHT: 体重[kg] BMI:体重[kg]÷(身長[m])2 SYSBP: 収縮期血圧[mmHg] DIABP: 拡張期血圧[mmHg] ※相関の強い説明変数を2組用意 Copyright©EPS All rights reserved. 11

12.

CORR(correlation)プロシジャによる相関分析 proc corr data=TEST ; var AGE HEIGHT WEIGHT BMI SYSBP DIABP ; run ; R > 0.5 p < 0.05 2つの量的変数の関連性を計る相関分析を 説明変数に対して総当たりで行う →相関行列を一度に作成 (1対1の関係が一覧できる) 重回帰分析の前に説明変数の傾向を知る 用意した通り2組の説明変数で有意に高い相関 係数が確認されている Copyright©EPS All rights reserved. 12

13.

相関行列の逆行列によるVIF算出 (参考) ・小数深部 SAS 24.20フォーマット ・逆行列 Excel MINVERSE関数 対角線が各説明変数のVIF Copyright©EPS All rights reserved. 13

14.

REG(regression)プロシジャによる重回帰分析(VIF算出) proc reg data=TEST ; model Y = AGE HEIGHT WEIGHT BMI SYSBP DIABP / tol vif ; quit ; 目的変数 重回帰式の 切片・偏回帰係数 vifオプション (tolオプション) 基本的にこちらの 重回帰分析に併せ て求める 現状の決定係数 相関関係のある説明変数2組と もに、VIFが大きく(基準の10 以上)、トレランスが小さい (基準の0.1以下)結果となった VIFは相関行列の逆行列の対角 線とも一致 Copyright©EPS All rights reserved. 14

15.

重回帰分析の改善 【手動】 ① VIFが大きい変数を削除 ② proc reg data=TEST ; model Y = AGE HEIGHT WEIGHT BMI SYSBP DIABP / vif ; quit ; ①のみを削除 変数を削除した組の多重共線性が解消した Copyright©EPS All rights reserved. 改善された決定係数 ①と②を削除 全ての多重共線性が解消した 15

16.

変数選択 【自動】 変数選択(特徴量選択)の手法として代表的なのは変数増減法(ステップワイズ法) 変数追加(slentry=0.5) proc reg data=TEST ; model Y = AGE HEIGHT WEIGHT BMI SYSBP DIABP / vif selection=stepwise slentry=0.5 slstay=0.5 ; quit ; 変数維持 (slstay=0.5) 変数追加(slentry=0.5) 変数維持 (slstay=0.5) プロセス停止・終了 Copyright©EPS All rights reserved. それぞれ多重共線性は回避できている(変数選択の役割ではない) 試験目的や臨床的意義から必要だと思われるものを自身で選択することが多い 16

17.

まとめ Copyright©EPS All rights reserved. 17

18.

まとめ • 重回帰分析において多重共線性を回避することは大前提である • 説明変数間の相関関係は多重共線性となる • 相関係数以外にも分散拡大係数(VIF)により実際の状況を確認する • VIFはCORRプロシジャ+逆行列またはREGプロシジャにより算出できる • VIFの大きい説明変数を除外することで多重共線性を解消することができた • 細かな変数選択は状況や意義から最終的には自身で判断する 回帰分析における重要な注意事項として念頭に置く Copyright©EPS All rights reserved. 18

19.

参考資料 【統計】 • 『データサイエンティスト基本スキル84』、 野村総合研究所データサイエンスラボ、日本経済新聞出版(2022年) • 『調査の実施とデータの分析』、日本統計学会、東京図書(2023年) • 『臨床研究から学ぶ逆引き統計』、岩城正宏・他、じほう(2023年) 【SAS】 • 『統計を知らない人のためのSAS入門』、大橋渉、オーム社(2012年) • 『統計解析入門者のための医療統計学の基礎とSASの実践』、 佐藤倫広、ムイスリ出版(2022年) • 『SAS/STAT® 13.2 User‘s Guide The REG Procedure』、 SAS Institute Inc.(2014年) Copyright©EPS All rights reserved. 19