19.5K Views
September 08, 22
スライド概要
2022年度統計関連学会連合大会 日本計量生物学会40周年記念シンポジウム @成蹊大学|2022年9月7日
Assoc prof at Tokyo University of Science. PhD in health sciences/MPH at the University of Tokyo. Causal inference in epidemiology/biostatistics.
2022年度 統計関連学会連合大会 2022年9月7日13:00 –15:00 @成蹊大学 A会場(5号館102教室) 日本計量生物学会40周年記念シンポジウム 「計量生物学の発展と今後の展開」 疫学・観察研究分野での計量生物学の発展 : 因果推論を中心として 標的学習の基礎 10 min+ で紹介する 東京理科大学 工学部 情報工学科 篠崎 智大 [email protected]
標的学習 targeted learning 観察データ分布 P の汎関数パラメータ ψ(P) を標的 (estimand) とした統計的推測のために、観察分布 P をデータから学習する • 観察分布 P に対する仮定は (ほとんど) 必要ない • P に課すモデルはノンパラメトリックでよいが、パラメトリックでもよい • 標的学習 = 因果推論 ではない • あくまで観察できる P 上でのパラメータを推定するための原理 2
因果モデル、仮定、因果パラメータ、識別 • 潜在アウトカムモデル • Y a : A = a に対する潜在アウトカム 対象者 A Y a=1 Y a=0 Y Causal effect Y a=1 – Y a=0 A 1 1 1 1 0 B 1 1 0 1 1 C 0 0 0 0 0 D 0 1 0 0 1 E 1 0 1 0 –1 F 0 1 1 1 0 G 0 1 0 0 1 3
因果モデル、仮定、因果パラメータ、識別 • 潜在アウトカムモデル • Y a : A = a に対する潜在アウトカム • 仮定 • 因果一致性 : A = a のとき Y a = Y • 条件付き交換可能性 : E[Y a|A = a, L] = E[Y a| L] • 治療確率の正値性 : 0 < P(A = a|L) • 因果パラメータの識別 E[Y a] = ∑l E[Y|A = a, L = l] P(L = l) • E(Y a) = ∑l E[Y a|L = l] P(L = l) = ∑l E[Y a|A = a, L = l] P(L = l) = ∑l E[Y |A = a, L = l] P(L = l) ☜ 期待値の繰り返し公式 E[V] = E[E[V|W]] ☜ 条件付き交換可能性 ☜ 因果一致性 4
因果モデル、仮定、因果パラメータ、識別 • 潜在アウトカムモデル • Y a : A = a に対する潜在アウトカム • 仮定 • 因果一致性 : A = a のとき Y a = Y • 条件付き交換可能性 : E[Y a|A = a, L] = E[Y a| L] • 治療確率の正値性 : 0 < P(A = a|L) • 因果パラメータの識別 E[Y a] = ∑l E[Y|A = a, L = l] P(L = l) 因果パラメータ 統計パラメータ 5
標的は統計パラメータ E[Y a] = ∑l E[Y|A = a, L = l] P(L = l) • データ解析タスクは、あくまで観察データ分布の学習 • 因果パラメータは解釈性のため用意される • 因果パラメータは、標的パラメータを整理する上でも土台となる 6
Causal Roadmap : 推測と解釈の切り分け vdL & Rose, 2011; 2018 Ho et al. SBR 2022 7
なぜ 「標的化」 が必要か? E[Y a] = ∑l E[Y|A = a, L = l] P(L = l) • 差し込み (plug-in) 型推定量 • E[Y|A = a, L = l] = Q(a, l) に対する 尤度最大化 (= 損失関数最小化) • 標的パラメータはちがう: ψ = EL{E[Y|A = a, L]} • Q(a, l) の損失最小化は、 ψ に対しては不適切なバイアス・分散トレードオフ • 機械学習を用いて推定した場合、より顕著 • (a, l) ごとの Q(a, l) を求めるため高次元の L ではバイアスより分散を重視して損失最小化 • ψ � の漸近バイアス (plug-in bias) の収束レートが非常に遅い ( n-一致性に不達) 8
TMLE • 標的型最尤推定量 targeted maximum likelihood estimator • または、標的型最小損失推定量 targeted minimum loss-based estimator • 標的学習のための推定量構成原理のひとつ • 想定するモデル(ノンパラメトリック) • 観察データ : Oi = (Ai, Yi, Li) ~ P, i.i.d. • 標的パラメータ • 観察データ確率分布 P の汎関数 : ψ(P) • 例 : 平均因果 「効果」 パラメータ ψ(P) = E{E[Y|A = a, L]} = ∫ E[Y|A = a, L = l]dF(l) 9
TMLE • 標的型最尤推定量 targeted maximum likelihood estimator • または、標的型最小損失推定量 targeted minimum loss-based estimator • 標的学習のための推定量構成原理のひとつ • 想定するモデル(ノンパラメトリック) 1. AIPW 推定量と漸近的に同等 •2. 観察データ : Oi = (Ai, Yi, Li) ~ P, i.i.d. 二重ロバスト性をもつ 3. アウトカム回帰 Q(a, l) と傾向スコア π(l) がそれぞれ n–1/4 より速いオーダーで一致推定 • 標的パラメータ されれば漸近有効 • 観察データ確率分布 P の汎関数 : ψ(P) • Q(a, l) と π(l) をモデル化するセミパラメトリック推定量 or ノンパラメトリック推定量(機械学習) •4. 例Q(a, : 平均因果 「効果」 パラメータ l) と π(l) をデータ適応的に(機械学習などで)推定しても統計的推測OK ψ(P) = E{E[Y|A = a, L]} = ∫ E[Y|A = a, L = l]dF(l) • 標的パラメータの有効影響関数を影響関数にもつように構成 10
E{E(Y|A = a, L)} の TMLE • 流れ 1. E[Y|A = a, L = l] を推定 • パラメトリックモデルでもよい • P をノンパラメトリックのまま推定したいなら機械学習を利用 2. 1 の推定量を更新 • ψ(P) = E{E[Y|A = a, L]} の標的化には P(A = 1|L = l) の推定が必要 3. 更新した E[Y|A = a, L = l] の推定値で plug-in 推定 11
E{E(Y|A = a, L)} の TMLE � 0(a, l) � • E(Y|A = a, L = l) = Q • 損失関数を適当に定めた回帰モデル or 機械学習 • 対数尤度、二乗誤差、疑似対数尤度、… • 初期推定量 � = 1| L = l) = π� (l) • P(A • 標的パラメータに向けたアップデート • 作業ロジスティック回帰モデル オフセット � 0(Ai, Li) ➡Q ➡ π� (Li) クレバー共変量 a 1–a 0 � logit E[Y|A = a, L = l] = logit Q (a, l) + ε1 � + ε2 π(l) 1 – π� (l) � 0(a, l) と同じ損失関数からクレバー共変量の係数 (ε1, ε2) を推定 •Q 12
E{E(Y|A = a, L)} の TMLE � 0 からアップデートされた Q �* •Q a 1–a * 0 � � ] Q (a, l) = expit [logit Q (a, l) + ε�1 � + ε�2 � π(l) 1 – π(l) ε = (ε1, ε2)T のスコア方程式 Ai � *(Ai, Li)} = 0 Σi � {Yi – Q π(Li) 1 – Ai � *(Ai, Li)} = 0 Σi – Q {Y i 1 – π� (Li) を満たすように (�ε1, ε�2) を選んでいる 13
E{E(Y|A = a, L)} の TMLE � 0 からアップデートされた Q �* •Q a 1–a * 0 � � ] Q (a, l) = expit [logit Q (a, l) + ε�1 � + ε�2 � π(l) 1 – π(l) � *(a, Li)] = �Q •ψ � TMLE = E[ n �∗ ∑i=1 Q (a, n Li) • 二重ロバスト推定量になっている Ai � ∗(1, Li) Y − Q i π� (Li) � *(0, Li)] + E � ∗(0, Li) �Q � 1 − Ai Yi − Q • a=0:ψ � TMLE = E[ 1 − π� (Li) � *(1, Li)] + E �Q � • a=1:ψ � TMLE = E[ 0 14
TMLE の漸近性質 • 影響関数 • 推定量に特有 n –1 •ψ � – ψ = n ∑i=1 IF(Oi) + oP(1/ n) • 正則条件下で ψ � の漸近分布を支配 • 有効影響関数 • パラメータに特有 • そのパラメータのRAL推定量が漸近的に達成できる分散の下限に対応 • 影響曲線 influence curve (IC) ともいう Kennedy, arXiv 2022 “Semiparametric doubly robust targeted double machine learning: a review” Hines et al., Am Stat 2022 “Demystifying statistical learning based on efficient influence functions” 15
平均因果効果の有効影響関数 IC(O) • ψ(P) = E{E[Y|A = 1, L] – E[Y|A = 0, L]} IC(Oi) = Ai 1 – Ai – {Yi – Q(Ai, Li)} + Q(1, Li) – Q(0, Li) –ψ π(Li) 1 – π(Li) Kennedy, arXiv 2022 “Semiparametric doubly robust targeted double machine learning: a review” Hines et al., Am Stat 2022 “Demystifying statistical learning based on efficient influence functions” • TMLE � 0(a, Li) を Q � *(a, Li) に更新 • Σi IC(Oi) = 0 となるように Q � * で 第1項 は常に 0、 plug-in 推定量は 第2項以降 = 0 として得られる •Q • AIPW • Σi IC(Oi) = 0 を推定方程式として ψ � を直接得る 16
超学習器 super learner • アンサンブル学習の一種であり、その理論 • 複数の学習器で予測 • 各予測の重み付け平均 (convex combination) • 上限のバウンドされた損失関数を交差検証で最小化すれば、 個々の学習器のうち最良のものと同等の損失達成が保証される • 色々な学習器をひたすら突っ込んでおけば性能が保証される • Rパッケージ(sl3)、SASマクロ(SuperLearner)で実装は容易 van der Laan et al., 2022+ “Targeted Learning in R: Causal Data Science with the tlverse Software Ecosystem” Keil et al, arXiv 2019 “Super learning in the SAS system” 17
超学習器 super learner van der Laan & Rose, 2011 “Targeted Learning: Causal Inference for Observational and Experimental Data” van der Laan et al., 2022+ “Targeted Learning in R: Causal Data Science with the tlverse Software Ecosystem” 18
「医学のための標的学習の基礎 I / II」 • Part I : 観察研究における標的学習 (田栗・篠崎) • • • • • 交絡調整とは 交絡調整に必要な仮定で標的パラメータを決めてはいけない TMLE の基礎理論と推定アルゴリズム super learner 回帰モデルのパラメータを、モデルの仮定なしに推定、解釈する • Part II : RCT における共変量調整 (山本・林) • 一般化線形モデルによる plug-in 推定量の頑健性 • TMLE との関連 • アウトカムの型に応じた TMLE の例 19
まとめ • 因果パラメータと統計パラメータを区別 • 標的学習における標的は統計パラメータ • 因果パラメータを知りたい場合は両パラメータを一致させる識別仮定を要する • 統計パラメータはなるべく仮定なく定義したい • データに仮定する確率分布はノンパラメトリックが望ましい • 仮定なく定義されたパラメータは、仮定なく推定できるとなお良い • super learner をはじめとする機械学習などのノンパラメトリック法 • TMLE は標的パラメータの統計的推測に正当化を与える原理的推定量の ひとつ 20