NEC因果分析勉強会

意思決定の側面から見た統計的因果推論の全体像 2023/7/24 NEC AI・アナリティクス事業統括部 © NEC Corporation 2023 谷本啓

本日の内容 ◆ 自己紹介 ◆ 導入 ■ 因果推論の定義 ■ なぜ今因果推論なのか ■ シンプソンのパラドックス ◆ Rubin流因果推論：潜在結果FW ■ 教師あり学習との違い（部分観測問題） ■ 傾向スコア重み付け法、二重機械学習 ■ Rubin流の主な3つの仮定 ■ 正値性仮定違反：回帰不連続デザイン ◆ 因果推論における精度と意思決定性能の関係 2 © NEC Corporation 2023 ◆ Pearl流因果推論：構造的因果モデル ■ 合流点と選択バイアス ■ 介入とは：do演算子 ■ バックドア基準：調整すべき変数の選択基準 ◆ 因果構造の推定（因果探索） ■ ノンパラメトリック法（PCアルゴリズム） ■ セミパラメトリック法（LiNGAM） ■ パラメトリック法（NEC Causal Analysis） ◆ 未観測交絡のもとでの因果推論 ■ フロントドア基準、操作変数法、プロキシ変数法 ◆ 因果性を考慮した分析の流れ ■ 因果モデルの解釈法 ◆ まとめ

3.

自己紹介：谷本啓 ◆ ’12 東京大学工学部航空宇宙工学工学科学士 ■ ジェットエンジンの研究、ロボコンサークル制御担当 ◆ ‘14 東京大学大学院工学系研究科航空宇宙工学専攻修士 ◆ 小惑星探査機の自律化に向けた画像による航法の研究 ◆ 同年 NEC入社、データサイエンス研究所 ◆ データ分析：鉄道、人工衛星、小売り、金融、etc. ◆ 機械学習研究：学習高速化、転移学習、etc. ◆ ’17—’21 京都大学大学院情報学研究科知能情報学専攻 (社会人博士) ’17—’22 理化学研究所革新知能統合研究センター客員研究員 ◆ 意思決定のための機械学習：因果推論、強化学習、小データ学習 ◆ ’21— AI・アナリティクス事業統括部 ◆ 意思決定のための分析・最適化の事業化と研究開発 3 © NEC Corporation 2023 谷本啓 @tanimoto_akira

4.

◆ x ･･･背景因子、確率変数一般 ◆ x (n) ･･･ nはサンプルインスタンス番号 ◆ a ･･･行動（意思決定変数）･･･ (花文字のA) 行動の候補の集合 a ◆ ◆ | ◆ y ･･･結果、予測対象 ■ ∈ | ･･･集合のサイズ（有限離散集合を仮定） ya ･･･行動aに対する潜在結果 ◆ ŷ ･･･ y の推定値 ◆ ℓ ･･･損失、損失関数、負の効用（嬉しくなさ、最小化したいもの） ◆ a⊥ ⊥ b | S ･･･確率変数 a と bが変数集合 S の条件付きのもとで独立（Sは空集合でもよい） ◆ ∏ i ◆ ai := a1 × a2 × ⋯ u ∅ ･･･空集合 ◆ グラフィカルモデル ■ ノードは確率変数、破線ノードは未観測変数 ■ 矢印は因果関係、破線矢印は因果関係がある可能性、矢無し辺は関連性 ■ 4 pai ･･･ i 番目の変数の親変数群 © NEC Corporation 2023 𝒜 𝒜 𝒜 𝒜 表記 a y

5.

因果推論とはなるしたもしこうらどうかを推量する分析技術 ◆ {していた} {なっていた} 5 © NEC Corporation 2023

6.

因果推論とは介入･･･意思決定向け分析に用いる例) 広告すれば売上がいくら上がる？なるしたもしこうらどうかを推量する分析技術 ◆ {していた} {なっていた} 反実仮想･･･(ほぼ) 振り返り的分析に用いる例) この女性がもし男性だったら反実仮想面接で採用されていたか？世の中にたえて桜のなかりせば介入春の心はのどけからまし関連性在原業平今日はほぼ介入の話をします 6 © NEC Corporation 2023 (相関) Pearlの因果のはしご

7.

ミルクが先か紅茶が先か：統計学の心因果的機序が説明できずともデータで結論先取できる ◆ ティーパーティーにて、ある婦人いわく？「ミルクを先に入れたか後か分かる」 ◆ 中身が同じなら同じはずでは？ ◆ フィッシャーによる実験 ■ 4杯ずつ、ミルクを先と後に入れた紅茶を用意、それをランダムに並べ、婦人が判別 ■ 婦人は見事すべて正解 → 偶然とするにはあまりに不自然 ■ 後に、ミルクの温度変化によるタンパク質変性が違う機序が説明される Display only メカニズム ◆ 因果的機序が説明できずとも信頼できる結論は得られる Ronald Fisher - Wikipedia 7 © NEC Corporation 2023

https://en.wikipedia.org/wiki/Ronald_Fisher

8.

なぜ今、改めて因果なのか関連性(相関)に基づく分析が、その保証範囲を超えて広まったことによる不具合が起きている ◆ データ分析は（主に）意思決定のためにある ◆ 関連性の分析技術（教師あり学習）の技術が発達し使い勝手が向上、あらゆるシーンで使われるように ◆ → 性能が保証されない使い方も ◆ →「因果と相関は違う！」「疑似相関では」 ◆ →「じゃあどうすればいいのですか！？」 8 © NEC Corporation 2023 意思決定問題因果推論の保証範囲教師あり学習の保証範囲・天気予報・(時系列)需要予測・画像認識・医療措置シミュレーション・価格弾力性推定

9.

不具合の具体例：シンプソンのパラドックス（交絡の問題）相関関係は因果関係を含意しない、データ生成（意思決定）過程に要注意 ◆ 「運動する人ほど健康でない」代 0 2 ◆ 基本的対処：交絡因子で層別 “交絡因子” = 行動と結果の両方に代 0 3 健康度 ⇏ 「運動すると健康でなくなる」代 0 4 代 0 5 代 0 6 影響を与える変数(群) 運動 x a 年齢健康 y ◆ ただし交絡因子が多いと非現実的各種の分析手法 9 © NEC Corporation 2023 運動習慣 [時間/週] a Simpson's paradox - Wikipedia

https://en.wikipedia.org/wiki/Simpson's_paradox

10.

意思決定問題の捉え方：Rubinの潜在結果モデル (Potential Outcome; PO) 実際に取らなかった行動にも潜在的な結果を想定し変数化、欠損していると考える ◆ 介入は通常の確率の言葉では表現できない ◆ 確率の言葉で表現するため、各行動をとった世界線ごとの結果＝潜在結果に変数を拡張 ■ 実際取らなかった（反事実的）行動の結果は欠損年齢 x 23 57 43 72 10 © NEC Corporation 2023 処方 a 説明変数 x 行動 f( ⋅ , a) 結果 y ya= ya= 治癒 y ya= 1 1 0 0 ya= ﹅﹅潜在結果因果効果 τ Rubin因果モデル (RCM) とも

11.

意思決定問題の捉え方：Rubinの潜在結果モデル (Potential Outcome; PO) 実際に取らなかった行動にも潜在的な結果を想定し変数化、欠損していると考える ◆ 介入は通常の確率の言葉では表現できない ◆ 確率の言葉で表現するため、各行動をとった世界線ごとの結果＝潜在結果に変数を拡張 ■ 実際取らなかった（反事実的）行動の結果は欠損潜在結果 ya 年齢 x 処方 a 23 57 43 72 11 © NEC Corporation 2023 1 – – – – – 0 – – – – – – 1 – 0 説明変数 x 行動 f( ⋅ , a) 結果 y ya= ya= 治癒 y ya= 1 1 0 0 ya= 拡張﹅﹅潜在結果因果効果 τ Rubin因果モデル (RCM) とも

12.

教師あり学習との違い：部分教示 ⊂「正解のない問題」潜在結果の観測可能性の違い教師あり学習画像 x 予測 f( ⋅ , y)̂ 因果推論正誤 ℓ 背景因子 x 処方 f( ⋅ , a) 予後 y 」犬「﹅﹅潜在結果 ya= ya= 「猫」「猿」 ya= 「豚」 ya= ◆ 例: 画像認識 ■ ラベル以外は間違い 12 © NEC Corporation 2023 ◆ 例: 医療措置予後予測 ■ 実際に行った措置の結果のみ観測

13.

教師あり学習との違い：部分教示 ⊂「正解のない問題」潜在結果の観測可能性の違い教師あり学習説明変数 x 仕入 f( ⋅ , y)̂ 90 100 因果推論売上 ℓ 0 x 価格 f( ⋅ , a) ﹅﹅潜在結果 100 10%引 20%引 90 ya=10 100 30 95 ya=20 102 ya=30 90 ◆ 例: 需要予測 ■ 売れた量＝需要と仮定 © NEC Corporation 2023 y ya=0 定価 %引 100 13 売上 80 110 12 背景因子 ◆ 例: 価格弾力性推定 ■ 実際に売った価格に対する需要のみ観測

14.

教師あり学習との違い：部分教示 ⊂「正解のない問題」別の見方として、推定対象の関数が行動 a を入力に含むかどうか教師あり学習因果推論未知 f y x 未知既知 a ◆ 意思決定変数と未知関数が分離 14 © NEC Corporation 2023 ℓ x f a y ( ℓ) ◆ 意思決定変数を入力に含む関数が未知

15.

汎用お手軽法：傾向スコア重み付け法教師あり学習（フルフィードバック）の損失関数を密度比推定に基づき復元 ◆ フルフィードバックの損失関数（学習の目的関数）を変形 1 N L= ℓa(n) ∑ N∑ n a∈ | = ■ | = | ℓa(n) = − ya(n) log y(n) â (交差エントロピー) など : 行動候補集合 N N ∑ n a∼Unif( (n) [ℓ ) a ] 一様分布 (=1/ | |) Unif( ) (n) ℓa a∼μ(a|x) [ μ(a | x) ] N ∑ n | N • 傾向スコア μ(a | x): 過去の意思決定者の選択分布（条件付き確率分布) ■ 最後の期待値はデータの従う分布と同じなので、データで近似できる μ は結果 y 以外のデータ {(xn, an)}n から教師あり学習で推定できる！ 𝒜 𝒜 𝔼 ◆ 前提： a y ya= ya= ya= 𝒜 ̂ | x) を上式に代入 ■ → 推定値 μ(a x 𝒜 𝒜 𝔼 ◆ Inverse Probability Weighting using Propensity (傾向) Score (IPW法) 𝒜 𝒜 15 © NEC Corporation 2023 ya=

16.

連続値 a ∈ ℝ などにも適用可能なセミパラメトリックモデル（因果効果部だけ線形） ◆ 以下のモデルを仮定 ◆ y = θ(x) ⋅ a + g(x) + ε 売上 ◆ ◆ 価格弾力性価格 a = μ(x) + η その他の要因ノイズ ( [ε ∣ x] = 0) ･･･ (1) ( [η ∣ x] = 0) g, μ を任意のモデルで学習（RF, GP, NN等） ◆ （g, μの学習とは別のデータに適用した）予測残差を線形モデルで学習 ◆ (1) の期待値をとると [y ∣ x] = θ(x) ⋅ [a ∣ x] + g(x) ･･･(2) ◆ (1) の両辺から (2) の両辺を引くと、 ◆ y − [y ∣ x] = θ(x) ⋅ (a − [a ∣ x]) + ε “普段”の売上との差 “普段”の価格との差 𝔼 𝔼 © NEC Corporation 2023 𝔼 16 𝔼 ◆ 結果の残差を行動の残差に回帰する 𝔼 𝔼 少し賢い汎用法：二重機械学習 (DML)

17.

二重機械学習のイメージ行動以外の背景因子の効果を差っ引くことで背景因子ごとに原点をずらす y − [y ∣ x] = θ(x) ⋅ (a − [a ∣ x]) + ε ◆ “普段”の結果との差 ■ 属性 x ごとにベースラインを設定、 x 代 0 2 “普段”の行動との差 g(x) ≃ [y ∣ x] 代 0 3 代 0 4 そこからの差分にフォーカス g と μ の推定誤差が θ の推定誤差に影響する度合いが小さい健康度 y ◆ 理論的なポイント: 代 0 6 ■ ネイマン直交性(Neyman orthogonality) • 誤差 Δθ を1段階の誤差 (Δμ, Δg) について 𝔼 𝔼 © NEC Corporation 2023 𝔼 17 𝔼 テイラー展開した１次の係数がゼロ代 0 5 μ(x) ≃ [a ∣ x] 運動習慣 [時間/週] a

18.

因果推論分野の（大まかな）全体像因果効果推論ができれば良い意思決定のために十分 Pearl流因果推論 3つの仮定・SUTVA ・無視可能性・正値性＋十分なデータ Rubin流因果推論 ⇒ 潜在アウトカム推定特に a が二値＝一様誤差 MSEu 最小化 →因果効果推定・因果効果 τ(x) ya= ya= ya= ・平均因果効果 τ ⇒ 良い意思決定の MSE 最小化 ya= ・仮定が成り立たない場合の手法群 ◆ Pearl流因果推論はその外側を埋める枠組み（ただしサンプルサイズ無限の議論） 18 © NEC Corporation 2023

19.

Rubin因果モデルにおける主な仮定 Pearl流因果推論 3つの仮定・SUTVA ・無視可能性・正値性＋十分なデータ Rubin流因果推論 ⇒ 潜在アウトカム推定特に a が二値＝一様誤差 MSEu 最小化 →因果効果推定・因果効果 τ(x) ya= ya= ya= ・平均因果効果 τ の MSE 最小化 ya= ・仮定が成り立たない場合の手法群 19 © NEC Corporation 2023 ⇒ 良い意思決定

20.

潜在結果の推定のための重要な仮定 3つの仮定を置くことで、因果効果は一致推定が可能（＝データを増やせば十分精緻に推定できる）満たされない場合、無限のデータがあっても真のモデルを特定できないか、代わりの仮定が必要 1. SUTVA (Stable Unit Treatment Value Assumption) サトヴァ (n′) y 介入対象間の干渉がない ■ ⊥ ⊥ a (n) ∀n ≠ n′ ！ • NG) あるSNSユーザへの広告が、その人の反応を通してフォロワーに影響する！ → スピルオーバー効果！ ■ 各行動は1種類の処置に対応 • NG) 同じ「薬Aを投与する」行動でも、Aさん（子ども）には1錠、Bさん（大人）には2錠 2. 無視可能性 Ignorability / 未観測交絡因子の不存在: {ya}a ■ 観測されてない交絡因子の対処はできない 3. 正値性 Positivity / Overlap: 0 < μ(a | x) < 1 ∀a, x ■ 背景因子 x のもとで任意の行動 a が取られる確率が正 © NEC Corporation 2023 20 ⊥⊥ a ∣ x u y a NG x 未観測 y a OK

21.

[beta]

正値性(3)違反時の推定法：回帰不連続デザイン (Regression Discontinuity Design; RDD)

割り当てカットオフ点周辺はランダムとみなせる
◆ とくにNo-overlap:

∃a, x,

μ(a | x) ∈ {0,1}

卒業時成績

■ アルゴリズムによって割り当てが決まる場合など
◆

進学校の

x 全体では推定のしようがないが、カットオフ点の

教育効果

入試

周りではほとんどランダムに処置割り当てが決まる
→ それらの差は（x

= カットオフ点での）因果効果

成績
不合格

合格（入学）
合格点

https://ja.wikipedia.org/wiki/回帰不連続デザイン

◆ 入試の成績がギリギリ合格・不合格の差で
進学校の教育効果を測るなど

21

© NEC Corporation 2023

https://ja.wikipedia.org/wiki/回帰不連続デザイン

22.

RDDの位置 Pearl流因果推論 3つの仮定・SUTVA ・無視可能性・正値性＋十分なデータ Rubin流因果推論 ⇒ 潜在アウトカム推定特に a が二値＝一様誤差 MSEu 最小化 →因果効果推定・因果効果 τ(x) ya= ya= ya= ・平均因果効果 τ の MSE 最小化 ya= ・仮定が成り立たない場合の手法群 22 © NEC Corporation 2023 ・RDD ⇒ 良い意思決定

23.

因果推論と意思決定の関係？ Pearl流因果推論 3つの仮定・SUTVA ・無視可能性・正値性＋十分なデータ Rubin流因果推論 ⇒ 潜在アウトカム推定特に a が二値＝一様誤差 MSEu 最小化 →因果効果推定・因果効果 τ(x) ya= ya= ya= ・平均因果効果 τ の MSE 最小化 ya= ・仮定が成り立たない場合の手法群 23 © NEC Corporation 2023 ・RDD ⇒ 良い意思決定

24.

因果推論精度は意思決定性能の最悪値を保証する（ただし行動空間が広いと難しくなる） ◆ 学習したモデルを最適化した行動方策の期待効用で評価 D 学習 (モデリング) f ̂ = arg min L( f; D) f ̂f 最適化 ̂ ∣ x) := π(a ̂ a) arg max π(a∣x) [ f(x, ] π∈Π ̂ ∣ x) π(a 評価指標方策価値 V (π)̂ := リグレット RegretΠ := [ f*(x, a)] ̂ π(a∣x)p(x) π*(a∣x)p(x) [ f*(x, a)] − V (π)̂ ◆ 定理：リグレットは以下のように抑えられる [Tanimoto+ 21] ̂ ≤ Regret ( f ) Π ■ x [| 1 | ここから以下のことがわかる | ⋅ MSEu( f )̂ ⋅ ERuΠ( f )̂ =: L u ̂ a) y ∣ x − f(x, [ ] a )] ∑( | a∈ 2 一様MSE x ( ∑ [ a∈ ̂ ∣ x)) π*(a ∣ x) − π(a • ] 2 𝒜 𝔼 𝒜 𝒜 𝒜 𝔼 © NEC Corporation 2023 𝔼 𝔼 24 ERuΠ ≤ 2 より、全ての行動に対する一様平均精度 MSEu の最小化は意思決定性能につながる • 定数項 | | より、行動空間が広いとき意味のある上界を得るには一般にはより高精度が求められてしまうポリシー誤差 • 𝒜 𝔼 𝔼 精度と意思決定性能の関係ポリシー誤差ERuΠを最小化してもよい（が直接は観測不能）

https://proceedings.mlr.press/v130/tanimoto21a.html

25.

Pearl流因果推論 Pearl流因果推論 3つの仮定・SUTVA ・無視可能性・正値性＋十分なデータ Rubin流因果推論 ⇒ 潜在アウトカム推定特に a が二値＝一様誤差 MSEu 最小化・因果効果 τ(x) ya= ya= ya= ya= 仮定が成り立たない場合の手法群 25 © NEC Corporation 2023 →因果効果推定・平均因果効果 τ の MSE 最小化 ⇒ 良い意思決定

26.

天は二物を与えず？：合流点と選択バイアス因果推論するには全データをポンと入れればOK、ではなく事前検討が必要 ◆ 学力＋実技で選別された合格者の学力ー実技分布は負の相関が出がち ■ 選択バイアスと呼ばれる ◆ 共通の下流変数（合流点）で層別化すべきでない ■ 予め層別化(選択)されたデータになっていないかも要注意 ◆ これらの判定基準 →バックドア基準 26 © NEC Corporation 2023 学力 a 合否実技 y z 林岳彦, 建設性のある議論のために／バックドア基準の入門とその使用例，web（2017）

https://www.slideshare.net/ takehikoihayashi/ss-73059140

27.

Pearlの構造的因果モデル (Structural Causal Model; SCM) 全変数間の因果の流れをグラフで、関係を関数で、不確実性を外生変数で表現 ◆ 因果構造 G：変数間の因果の流れを表す ■ 有向非巡回グラフ (Directed Acyclic Graph; DAG) で表す ■ 各変数 xi は、入ってくる辺で繋がる変数群（親）pai のみで条件付けられる p(x1, x2, ⋯) = ∏ i p(xi | pai) ◆ 因果モデル M：関数と外生（ノイズ）変数によるモデル化 27 ■ xi = fi(pai, ui) ⊤ （例: βi xpai ■ p(u1, u2, ⋯) = ∏ ■ M = ({fi}i, {p(ui)}i) © NEC Corporation 2023 i + ui ） p(ui) （外生変数は独立） u1 pa4 u4 x1 u3 x3 x4 x2 x6 x5 u5 u2 u6

28.

介入する、とは：do演算子任意の変数を行動として介入した場合の条件付き確率 ◆ 意思決定＝介入は do 演算子で表現 ■ a に介入したときの予測対象 p(y | x, do(a = α)) = p (ya=α | x) ◆ 介入対象変数に入る辺を削除し、特定の値に固定する操作に相当 ◆ 観察データから推定できるのは条件付き分布 p(y | x, a = α) のみ ◆ → p(y | x, do(a = α)) = となるための条件は？ 28 © NEC Corporation 2023 p(y | x, a = α) データを生成した知りたい介入後の (介入前の)因果構造因果構造 x a y α x a y 構造への介入が局所的に留まり、対象変数以外の関係が保たれるように推定することが因果性考慮の本質（RCTは元々右の世界でデータを取る）

29.

バックドア基準 (Back-door criterion) （実際に使いたくなった時に参照する用） ◆ 因果ダイアグラムGにおいて、aからYへの有向パスがあるとする。次の２条件を満たすとき、変数集合 Z は順序対 (a, Y) についてバックドア基準を満たすという ■ (B1) aからZへの有向パスがない（行動より下流の変数を含まない） ■ (B2) aに入るパスを含む、aとY を結ぶパス (バックドアパス) において、ZがaとYをバックドア基準を満たすZ (一例) x1 有向分離 (ブロック) する ◆ ただし、a-Y間の全てのパス p に対してZが以下の条件のいずれかを満たすとき、Z はaとYを有向分離するという ■ 鎖 i→m→j またはフォーク i←m→j を含み、m は Z に含まれる ■ 合流点 i→m←j を含み、m及びその子孫は Z に含まれない ◆ このとき、以下のバックドア調整定理が成立 ■ 29 P(Y ∣ do(a)) = ∑ z © NEC Corporation 2023 P(Y ∣ a, Z)P(Z) a x3 x4 x5 x2 y x6 因果の Directed Acyclic Graph (DAG)

30.

バックドア基準（ざっくり版）共通原因は調整、行動より下流は調整せず、合流点の調整による擬似相関に注意 ◆ バックドア基準を満たす調整変数群の選び方 1. 行動 a と結果 y の両方に影響を与える入学前学力 x1 交絡変数は調整する 2. 行動 a よりも下流の変数は調整しない a の親が全て観測されていれば Z = paa でＯＫ 3. 合流点(及びその子孫)を調整すると上流変数間に擬似相関が発生、擬似的な交絡になることに注意し、そのような変数があれば調整する 30 © NEC Corporation 2023 卒業時学力 a 入学前実技入試 x3 x4 x5 x2 y 卒業時実技

31.

DAGitty：自動バックドア基準判定ライブラリ調整基準を満たす調整変数集合を出力してくれる ◆ 調整基準 (Adjustment criterion) ■ バックドア基準よりも精緻（十分かつ必要でもある） ◆ DAGitty (R言語) は調整変数集合 Z を出してくれる ■ 可能な Z の列挙も再現用Colab 31 © NEC Corporation 2023

https://colab.research.google.com/drive/1304_vK4ygAqzVP67c02r4wZCIpg72Kqx?usp=sharing

32.

独立性制約に基づくノンパラメトリック法 DAGの推定法① PC(IC)法：(条件付き)独立性検定のみにより可能な限りの構造と向きを特定 ◆ (条件付き)独立性検定により向き無しグラフを推定 ■ 各変数の組 a, b に対し，条件付き独立 a ⊥ ⊥ b | S となる x1 変数集合 S (含む∅) が存在しない場合のみa-b間に辺を描く ◆ V構造 (右図) に対し合流点かどうか独立性検定 ■ x3 で条件付けると x1 と x2 が従属 x3 は合流点 ◆ 追加で可能な限り向きを判定するオリエンテーションルール？ x3 An Algorithm for Deciding if a Set of Observed Independencies Has a Causal Explanation 1. bは合流点じゃなかったので媒介 2. DAG制約から 3. d→bならDAG制約からa→bかつc→bとなるはずだが、 bはV構造なのに合流点じゃないので矛盾 4. b→aはV構造から否定。b→cならcはV構造から合流点じゃないのでc→dとなり、DAG制約に矛盾 32 © NEC Corporation 2023 x2 x4

https://arxiv.org/abs/1303.5435

33.

DAGの推定法② モデルに基づく(セミ)パラメトリック法因果の向きを含めてデータだけから特定できる場合も（仮定が必要） ◆ 線形非ガウス加法モデル (LiNGAM) ■ 変数間の関係に線形性 + ノイズの加法性を仮定 → ノイズを仮定せず（正規分布でなければ）推定可能 Shimizu, Shohei. LiNGAM: Non-Gaussian methods for estimating causal structures. Behaviormetrika 41.1 (2014): 65-98. ◆ パラメトリック法 (NEC causal analysis) ■ (線形)モデル + ノイズの加法性と非ガウスな分布（ラプラス分布等）を仮定 • 高速・連続離散変数混合OK・情報量基準による変数選択 33 © NEC Corporation 2023 xi = ⊤ βi xpai + εi, εi ∼ Laplace(0,bi)

https://link.springer.com/article/10.2333/bhmk.41.65

34.

未観測交絡因子（無視可能性違反）全ての交絡因子が観測されているとは限らない？→場合によっては因果推論可能 ◆ 交絡因子が観測されていなかったら？遺伝子 ■ 個人の意思決定には遺伝子が関わっているかも u ■ バックドア基準が満たせない →層別化も傾向スコアも使えない ■ タバコ業界「発癌遺伝子がニコチンを欲しがらせるだけである。禁煙政策は無意味！」 34 © NEC Corporation 2023 喫煙 a ？ y 肺がん

35.

フロントドア基準 (Front-door criterion) 交絡因子の影響を受けない媒介変数により因果の機序をたどる ◆ 交絡因子が観測されていなかったら？遺伝子 ■ 個人の意思決定には遺伝子が関わっているかも u ■ バックドア基準が満たせない →層別化も傾向スコアも使えない ■ タバコ業界「発癌遺伝子がニコチンを欲しがらせる喫煙だけである。禁煙政策は無意味！」 z a 肺がん肺タール量 ◆ フロントドア基準 ■ 交絡因子の影響を受けない媒介変数 z があれば a → z はバックドア基準を満たし、肺タール量に直接影響する遺伝子が z → y もバックドア基準を満たすのであるでしょうか？組み合わせると a y Display only → y の因果効果を推定できる ◆ 科学的なモデリングに近いアプローチ米国タバコ業界ぐぬぬ Judea Pearl ※ イメージ。実際はタバコの発がん性の議論はフロントドア基準の発明より前 35 © NEC Corporation 2023

36.

操作変数法 (Instrumental variable method; IV) 「確実に外生的な変数による行動への影響」の分は因果と解釈できるイベント ◆ 航空機チケット価格→売上への影響を調べたい u ■ チケット価格は売れ行きに応じて変動させている ■ 近くでイベントがある時は売れやすく、価格も上がりやすい x ■ イベント情報はデータにない ■ 価格は航空燃料費によっても変動させる ■ イベントと燃料費は独立と考えられる ◆ 「価格の燃料費による変動分」については少なくともイベ z 燃料費 a 価格売上ントの影響を受けていないはず ■ z → a の予測値 a ̂ と y の相関を調べることにより a → y の因果を（部分的に）推定可能 36 © NEC Corporation 2023 y ￥

37.

未観測変数から漏れ出す相関と独立性を使って疑似相関を推定 ◆ 未観測交絡変数uと関連していて、かつ ■ アウトカム y とは u を通してしか関連していないNegative Control Exposure (NCE) z と ■ 行動 a とは u を通してしか関連していないNegative Control Outcome (NCO) w があり， ■ zとwが十分よく u を表現している※ならば因果推論可能 • ※仮定: • ∀ℓ : → ℝ に関して， [[l(U ) ∣ A = a, W = w]] = 0 ∀(a, w) ∈ × [[l(U ) ∣ A = a, Z = z]] = 0 ∀(a, z) ∈ × ⇔ l(u) = 0 ℙ(U )-a.e. ⇔ l(u) = 0 ℙ(U )-a.e. ◆ 線形性を仮定した直観（右下図）皮膚科受診高血圧 ■ 1. 係数 AY が知りたい ■ 2. AU-UW はわかる (1) ■ 3. ZU-UW と ZU-UY の比から UY/UW がわかる (2) ■ 4. (1) × (2) により AU * UW * UY/UW = AU*UY がわかる帯状疱疹ワクチン急性心筋梗塞 ■ 5. AYの関係のうち、間接的関連 AU*UY を除いた部分が αAY ◆ 線形性の仮定の下での手順(2SLS) → w に回帰しŵ を推定 (1) 2. a → y を、ŵ に関して条件付けて回帰（uの代わりにŵ を使う） 1. z, a An Introduction to Negative Control and Proximal Causal Learning 𝒵 © NEC Corporation 2023 𝒜 37 𝒲 𝒜 𝒰 𝔼 𝔼 代理変数法 (Proximal Causal Learning)

https://www.sentinelinitiative.org/sites/default/files/documents/Sentinel_Presentation_Webinar_Negative-Control-Proximal-Causal-Learning.pdf

38.

未観測交絡因子存在下の因果推論まとめバックドア基準が満たせない場合、代わりに使える変数を探す ◆ まずデータを取ろうとする、特に意思決定者が参考にした情報（aの親）は全て取る ◆ 未観測交絡因子がある場合でも、DAGを描き、バックドア基準が満たせればＯＫ ◆ 満たせない場合、以下のパターンに当てはまるか試す ◆ 因果を媒介する変数が観測可能かつuから直接影響なし ◆ uから影響ない外生変数もaに影響 → 操作変数法 a z uを表す十分な変数があり、それらが a x3 x4 x5 x1 Z y x6 y, aと独立した変数群 z, w に分けられる → 代理変数法 → フロントドア調整 u ◆ u u y z a x y ◆ ダメな場合は部分同定（因果効果の上下限のみの推定）、実験的行動アリの設定（バンディットなど）を考える 38 © NEC Corporation 2023

39.

因果性に基づく分析フロー知見結果フィードバックフィードバック ①因果モデル推定 LiNGAM / NEC causal analysis データ季節 ②因果モデルに基づく解釈 Causal SHAP 構造決定 ③因果効果推論 (シミュレーション) ・最適化介入対象意思決定調整変数 (値決定) 気温価格曜日 ④実施○○ 売上 = f(a = 価格; x = 気温, 曜日, 季節) 売上 ◆ ①説明変数間の因果性の考慮により ■ 例）季節 → 気温 → 売上という因果関係の真因（季節）がわかるどの変数を最適化（介入）すればいいかわかる ◆ ③最適化対象変数と目的変数の因果性の考慮により ■ 疑似相関に惑わされず正しい因果を捉えたシミュレーションモデルが学習できる 39 © NEC Corporation 2023 ⑤効果測定

40.

𝔼 𝔼 𝔼 𝔼 因果モデルの解釈例：Causal SHAP 因果性を考慮した解釈により真因の寄与を明らかにする ◆ Causal SHAP [Heskes+ 20] ̂ | 売上 do(天気=晴れ, 曜日=平日) [ ] 0 ̂ [売上] ̂ [売上 | do(天気=晴れ, 曜日=平日, 価格=10%引)] ̂ | do(天気=晴れ) 売上 [ ] 天気の貢献曜日の貢献価格の貢献 ■ do演算子による介入的条件付き分布の計算が必要＝SCMを用いる ■ 追加する順序について、因果の順序に沿った順序に関して貢献を平均 40 © NEC Corporation 2023 売上

https://proceedings.neurips.cc/paper/2020/hash/32e54441e6382a7fbacbbbaf3c450059-Abstract.html

41.

Takeaways ◆ 意思決定のための予測：（一般には）部分観測 ■ 各行動の選択肢に対する潜在結果を考え、反事実的結果は欠損していると考える潜在アウトカム ■ 欠損の仕方が交絡により偏る→因果推論 ◆ Rubin流因果推論は介入対象変数（行動）と結果の関係を3つの仮定のもとで分析 ■ 手法 ◆ 損失を傾向スコアで割るIPW法 ◆ 普段との差を考えるDML ◆ 潜在アウトカム予測精度は意思決定性能を保証する ◆ Pearlの構造的因果モデル ■ DAGと関数で全変数間の因果関係を表す ■ 変数選択：バックドア基準 ◆ 共通原因は調整、行動より下流は調整せず、合流による擬似相関に注意 ◆ DAGの推定も可能 ◆ 未観測交絡因子への対象法もいろいろ考えられている ◆ 問合せ先：Zoom IDをお知らせしたメール末尾に記載 41 © NEC Corporation 2023

NEC因果分析勉強会

TANIMOTO Akira

関連スライド

意思決定のための因果推論_阪大研究会講演

朝日高キャリア教育講演会_情報系企業研究者の頭の中_公開用

RMNet_talk_CausalityDiscussionGroup

学振特別研究員になるために～2025年度申請版

ZAZA株式会社_会社紹介

StampFlyで学ぶマルチコプタ制御

各ページのテキスト