意思決定のための因果推論_阪大研究会講演

14.6K Views

December 16, 22

スライド概要

profile-image

機械学習の技術者/研究者です

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

AI・データ利活用研究会 第44回 意思決定のための因果推論 2022/12/16 NEC AI・アナリティクス事業統括部 © NEC Corporation 2022 谷本 啓

2.

本日の内容 ◆ 因果推論の必要性と方法 ■ シンプソンのパラドックス(交絡)と層別化による対処 ■ 教師あり学習との違い(バンディットフィードバック) ■ 傾向スコアによる対処 ◆ 因果グラフを用いた変数選択 ■ 合流点 ■ バックドア基準:調整すべき変数の選択基準 ◆ 未観測交絡のもとでの因果推論 ■ フロントドア基準 ■ (操作変数法) 2 © NEC Corporation 2022

3.

谷本 啓 ◆ ‘14 東京大学工学系研究科航空宇宙工学専攻 修士 ◆ 小惑星探査機の自律化に向けた画像による航法の研究 ◆ 同年 NEC入社、データサイエンス研究所所属 ◆ ◆ ◆ 主に異種混合学習を用いたデータ分析PoC遂行 鉄道インフラ劣化予測、人工衛星データ品質分析、小売り品揃え最適化、etc. ドメイン応用研究、異種混の高速化、転移学習、etc. ◆ ’17—’21/9 京都大学大学院 報学研究科知能情報学専攻 後期博士課程 (社会人博士) ◆ 意思決定のための機械学習—因果推論、強化学習、小データ学習 ◆ ’17—’22/3 理化学研究所 革新知能統合研究センター 客員研究員 ◆ ’21/10— AI・アナリティクス事業部 テクノロジーオファリングG ◆ 意思決定・最適化の事業化と研究開発 ◆ 趣味:音楽(Vn., Pf.)、ゲーム(スマブラ)、ジャグリング、ランニング、デスク整備 3 © NEC Corporation 2022 @tanimoto_akira

4.

因果とは? ◆ 因果と聞いて連想? 4 ■ 因果と相関の違い、擬似相関 → Rubin流因果 → 主にこの話 ■ What-If、反実仮想、鶏と卵 → Pearl流因果 → こちらも少し紹介 ■ 時間的前後関係 → Granger因果 → 触れません ■ 自由意志、前世からの因縁 → 触れません © NEC Corporation 2022

5.

因果を考えるべき具体例:シンプソンのパラドックス 相関関係は因果関係を含意しない、データ生成(意思決定)過程に要注意 ◆ 「運動する人ほど健康でない」 ⇏ 「運動すると健康でなくなる」 ◆ 基本的対処:交絡因子で層別 健康度 “交絡因子” = 行動と結果の両方に 代 0 2 代 0 3 代 0 4 代 0 5 代 0 6 影響を与える変数(群) 年齢 運動 a x 健康 y ◆ ただし交絡因子が多いと非現実的 5 © NEC Corporation 2022 運動習慣 [時間/週]

6.

意思決定問題の捉え方 反事実的行動にも潜在的な結果を想定し、欠損していると考える ◆ 介入は通常の確率の言葉では表現できない ◆ 確率の言葉で表現するため、各行動をとった 世界線ごとの結果=潜在結果に変数を拡張 ■ 実際取らなかった(反事実的)行動の結果は欠損 x 23 57 43 72 6 © NEC Corporation 2022 潜在結果 ya a 1 – – – – – 0 – – – – – y – 1 – 0 1 1 0 0 説明変数 x 行動 f( ⋅ , a) 結果 y ﹅ ﹅ 潜在結果 ya= ya= 因果効果 ya= ya= → Rubin因果モデル (RCM) と呼ばれる

7.

汎用手法:傾向スコアを用いた逆確率重み付け (IPW法) 全観測の教師あり学習の損失関数を期待値の意味で復元する 教師あり学習 説明変数 / 画像 予測 x f( ⋅ , y)̂ 因果推論 損失 ℓ 行動 背景因子 x f( ⋅ , a) 「犬」 結果 (アウトカム) y ﹅ ﹅ 潜在結果 ya= ya= 「猫」 「猿」 ya= 「豚」 ya= N 1 (n) LCE = − yi log f î ∑ N∑ n i 全クラス 7 © NEC Corporation 2022 N 2 1 1 (n) ̂ (n) LIPW = y − f a ) ( (n) (n) ∑ |x ) ̂ N n μ(a 偏りを補正する重み付け

8.

意思決定理論の始まり:サンクトペテルブルクのパラドックス 効用(結果の嬉しさ)の導入 ◆ それまでの不確実性下(ギャンブル)における”合理的”意思決定基準=期待値 n−1 2 n コインを連続で投げる。最初に表が出るまでに裏が出た回数 に対して 円がもらえる。 ◆ この賭けにいくら出せるか?(ベルヌーイ) 1 1 1 1 1 k−1 期待値は発散 W = ⋅ 2 = + + + + ⋯ = ∞ ∑ ( 2k ■ ) 2 2 2 2 k=1 ∞ ■ 100億円でも安いはず?90%以上の確率で10円以下しかもらえないのに? ◆ ベルヌーイの提案:得られる「効用(主観的価値)」は金額の対数くらい。 効用の期待値は発散しない! 2n−1 ■ では 2 円もらえるなら? ■ ・・・ ◆ →どんな報酬の増え方に対しても期待値が発散しないためには効用に上界が必要 8 © NEC Corporation 2022 Daniel Bernoulli

9.

期待効用理論(vNMの定理) 結果の嬉しさ(=: ”効用”)を表す関数を想定、その期待値の最大化としての意思決定 ◆ 儲けそのものではなく、儲けの嬉しさ=”効用”を表す関数を想定すれば選好関係を説明できるのでは? ■ 効用関数は個人(意思決定者)ごとに異なる、と考える ◆ フォンノイマン・モルゲンシュテルンの定理 (vNM) ■ 「選好関係が幾つかの公理(弱順序、連続性、独立性)を満たすとき(かつその時に限り)、 効用関数 u が存在して、意思決定(選好)は期待効用を最大化しているとみなせる」 ■ E[u(p)] ≥ E[u(q)] ⟺ p ⪰ q, ∀p, q ∈ P (P: 確率変数(クジ)の集合) • (A ≺ B: AよりBを選好する) ◆ 公理 ■ 弱順序 (完備性と推移率) 9 ■ 連続性 p ≻q≻r ■ 独立性 p ⪰ q ⟺ ∀α, αp + (1 − α)r ⪰ αq + (1 − α)r © NEC Corporation 2022 ∃α, β, αp + (1 − α)r ≻ q ≻ βp + (1 − β)r

10.

意思決定理論とモデリング(因果推論)の関係 効用が測定されていれば、それを(期待値の意味で)予測できれば意思決定にとって十分 ◆ 客観的因果関係 x, a ■ 効用関数 u (y → y の推定にフォーカス → u) 自体の推定も大きな問題(Preference learning)だが、 企業など組織ではKPIとして客観的に定義される場合が多い ■ 効用関数 u は予め与えられる、そもそも目的変数は効用として 意思決定者の 状況 過去データ上 の関係 与えられるものとする (u(y) をあらためて y と定義する) 行動 結果 効用 効用 効用を結果と 改めて定義 y x 脳内 u a • 普通の因果推論の研究ではそこまで仮定しない場合も多い(その代わり意思決定と の関係は明らかではない) ◆ → f(x, a) ■ := [y | x, do(a)] が精緻に推定し、それを最大化すればよい do 演算子:行動 a を選択するという条件付け x 過去データ上 の関係 行動 © NEC Corporation 2022 𝔼 10 f 状況 a y

11.

意思決定と因果推論(本日の話)の全体像 Rubin流因果(効果)推論ができれば良い意思決定のために十分 Pearl流因果推論 3つの仮定 ・SUTVA ・無視可能性 ・正値性 + 十分なデータ Rubin流因果推論 ⇒ ⇍ 潜在アウトカム推定 特に a が二値 =一様誤差 MSEu 最小化 →因果効果推定 ・因果効果 τ(x) ya= ya= ya= ・平均因果効果 τ ⇒ 良い意思決定 の MSE 最小化 ya= 仮定が成り立たない場合の手法群 ◆ Pearl流因果推論はその外側を埋める枠組み(ただしサンプルサイズ無限の議論) 11 © NEC Corporation 2022

12.

連続値 a ∈ ℝ などにも適用可能な汎用モデル ◆ セミパラメトリック(重要な因果効果部分だけシンプルな)モデル ◆ ◆ ◆ y = θ(x) ⋅ a + g(x, w) + ε 売上 価格弾力性 価格 その他の要因 a = μ(x, w) + η ノイズ ( [ε ∣ x, w] = 0) ・・・ (1) [η ∣ x, w] = 0 g, μ を任意のモデルで学習(RF, GP, NN等) ◆ 別のデータで残差モデルを線形モデルとして学習 ◆ (1) の期待値をとると [y ∣ x, w] = θ(x) ⋅ [a ∣ x, w] + g(x, w) ・・・(2) ◆ (1) の両辺から (2) の両辺を引くと、 ◆ Y − [Y ∣ X, W] = θ(X) ⋅ (a − [a ∣ X, W]) + ε “普段”の売上との差 “普段”の価格との差 𝔼 𝔼 © NEC Corporation 2022 𝔼 12 𝔼 ◆ 結果の残差を行動の残差に回帰する 𝔼 𝔼 二値/連続値行動向け因果効果直接推定: 二重機械学習 (DML)

13.

DMLのイメージ 行動以外の背景因子の効果を差っ引くことで背景因子ごとに原点をずらす y − [y ∣ x, w] = θ(x) ⋅ (a − [a ∣ x, w]) + ε そこからの差分にフォーカス g(X, W ) ≃ [Y ∣ X, W ] ◆ 理論的なポイント: g と μ の推定誤差が θ の推定誤差に 影響する度合いが小さい 代 0 2 代 0 3 代 0 4 y ◆ 属性 (x, w) ごとに「原点」を設定 健康度 ◆ 代 0 6 ■ 誤差 Δθ を (Δμ, Δg) についてテイラー 展開した1次の係数がゼロ μ(X, W ) ≃ [a ∣ X, W ] • ネイマン直交性(Neyman orthogonality)という 𝔼 𝔼 © NEC Corporation 2022 𝔼 𝔼 運動習慣 [時間/週] 13 代 0 5 a

14.
[beta]
表現均衡化アプローチ
深層学習による敵対的ドメイン適応として解く
◆ Remind) 実績分布が傾向スコア μ(a | x) によって偏ることが問題なのであった
◆ Estimating individual treatment effect: generalization bounds and algorithms [Shalit ’17]
◆ 行動 a によって変化しない表現 ϕx

= ϕ(x) を抽出し、その上ではあたかもランダム

p(ϕx | a = 0) ≃ p(ϕx | a = 1) になるようにすれば、
ϕx 空間上のモデルはバイアスがないのでは?

◆ 積分確率計量 Integral Probability Metric (IPM) : GANのDiscriminatorみたいなやつ
Estimating individual treatment effect: generalization bounds and algorithms
vidual is identified by its features x. The bound leads natIPMG(p1, p2) := sup
g(ϕ)(purally
−apnew
. representation-learning based al1(ϕ)to
2(ϕ))dϕ
family
of
■
g∈G ∫Φ
gorithms (Bengio et al., 2013), which we show to match or
outperform state-of-the-art methods on several causal ef■ Facts: 関数クラスGの設定によって以下のようになる
fect inference tasks.

‣ IPM(G=1-Lipschitz) = Wasserstein
We distance
frame our results using the Rubin-Neyman potential
‣
14

outcomes framework (Rubin, 2011), as follows. We asIPM(G=1-norm ball in RKHS) = MMD (最大平均不一致)
sume that for a unit with features x 2 X , and an action
(also known as treatment or intervention) t 2 {0, 1}, there
are two potential outcomes: Y0 and Y1 . In our data, for
© NEC Corporation 2022

789! = 1

"

…

…

#(ℎ&(Φ), * = ,&)

…

# ℎ6 Φ , * = ,6

Φ
789! = 0

!

ℎ&

ℎ6

456 45&
IPM0 (123
, 123 )

Figure 1. Neural network architecture for ITE estimation. L is
a loss function, IPMG is an integral probability metric. Note that
only one of h0 and h1 is updated for each sample during training.

15.
[beta]
L(·, ·): loss function, from Y ⇥ Y to R+ .
`h, (x, t): the expected loss of h( (x), t) for the unit x and treatment t.
✏F (h, ), ✏CF (h, ): expected factual and counterfactual loss of h( (x), t).
⌧ (x) := E [Y1 Y0 |x], the expected treatment effect for unit x.
✏PEHE (f ): expected error in estimating the individual treatment effect of a function f (x, t).
IPMG (p, q): the integral probability metric distance induced by function family G between distributions p and q.

敵対的ドメイン適応の理論

(観測できない)x による損失の差を上限 sup で置き換える

Proof. Let J (r) be the
gabsolute of the determinant of the
Jacobian of (r).

◆ 理論
■ 表現抽出器 ϕ

p (t, r) (a) p(t, (r))J (r)
p (t|r) =
=
=
p (r)
p( (r))J (r)
u
p(t, (r))
が逆関数を持つなら、一様分布上の損失
が、
= p(t| (r)),
p( (r))

MSE

データ分布上の損失 MSE と分布間IPMを用いて上から抑えられる

where equality (a) is by the change of variable formula.
u The proof is identical for p(Yt |r).

■ → MSE + IPM を最小化すれば MSE が抑えられる

tion. Let h : R⇥{0, 1} ! Y be an hypothesis defined over
the representation
space R. The expected loss for the unit
事実的(観測された結果)誤差
and treatment pair (x, t) is:
Z
`h, (x, t) =
L(Yt , h( (x), t))p(Yt |x)dYt

Y
上の真のモデル
と損失
(MSE)
の合成
Φ
h
L
◆
Definition A5. The expected factual loss and counterfactual B
lossesを決めれば、その未知の関数
が関数クラスGに入るように定数(パラメタ)
Φ of h and are, respectively:

ℓh,Φ に関して最悪 sup をとれば上界になる

15

✏t=0
CF (h, ) =

Z

`h, (x, 1) pt=0 (x) dx
X

`h, (x, 0) pt=1 (x) dx.
X

The four losses above are simply the loss conditioned
either the control or treated set. Let u := p(t = 1) be
proportion of treated in the population. We then have
immediate result:
Lemma A3.
✏F (h, ) = u · ✏t=1
F (h, ) + (1

t=1
t=0
t=1 t=0
MSECF(h, Φ) ≤ (1 − Definition
u)MSEA4.
(h,
Φ)
+
uMSE
(h,
Φ)
+
B
⋅
IPM
p
,
p
,
(
)
Let
:
X
!
R
be
a
representation
funcΦ
G
F
F
Φ
Φ
t=1

反事実(観測されなかった
潜在結果)の誤差

Let L : Y ⇥ Y ! R+ be a loss function, e.g. the absolute
↓ p(a
1)
loss
or=squared
loss.

✏t=1
CF (h, ) =

Z

✏F (h, ) =

© NEC Corporation 2022

✏

(h, ) =

Z

Z

`h, (x, t) p(x, t) dxdt
X ⇥{0,1}

`

(x, t) p(x, 1

t) dxdt.

✏CF (h, ) = (1

u) · ✏t=0
F (h, )

u) · ✏CF (h, ) + u · ✏t=0
CF (h, ).

The proof is immediate, noting that p(x, t) = u · pt=1 (x)
(1 u) · (¸x), and from the Definitions A4 and A6 of
losses.

Definition A7. Let G be a function family consisting
functions g : S ! R. For a pair of distributions p1 ,
over S, define the Integral Probability Metric:
Z
IPMG (p1 , p2 ) = sup
g(s) (p1 (s) p2 (s)) ds
g2G

S

IPMG (·, ·) defines a pseudo-metric on the space of prob

16.
[beta]
表現均衡化と重み付けの合わせ技 — 表現解きほぐし (DR-CFR)
Published
as aasconference
paper
at ICLR
2020
Published
a conference
paper
at ICLR
2020

行動とアウトカムとの依存性に基づき x を成分分解、必要十分な軸 Δ に重み付け
vational
dataset
D. D.
TheThe
respective
graphical
model
is illustrated
in Figure
3. Conforming
with
thethe
◆ 表現均衡化は逆写像を持たないとき不完全、一方で重み付けも極端な重みがあると不安定、じゃあどうする?
vational
dataset
respective
graphical
model
is illustrated
in Figure
3. Conforming
with

statements
above,
note
thatthat
thethe
graphical
model
alsoalso
suggests
thatthat
selection
biasbias
is induced
by by
factors
statements
above,
note
graphical
model
suggests
selection
is induced
factors
andand, where
represents
thethe
confounding
factors
between
T and
Y .Y .
for CounterFactual
Regression
(ICLR
2020)
◆ Learning Disentangled representations
, where
represents
confounding
factors
between
T and
Main
WeWeargue
(Δ) は少ないのではないか。
Maincontribution:
contribution:
arguethatthatex-ex■ アウトカムと行動の両方に関係する軸
Published as a conference paper
at ICLR
2020
plicit
identification
of of
thethe
underlying
factors
plicit
identification
underlying
factors
{ {, (Γ,
}⌥in}Υ)
observational
datasets
offers
great
,, ⌥,Δ,
in observational
datasets
offers
great
を学習し、
◆ Method: “解きほぐされた”表現
insight
to to
guide
designing
models
thatthat
better
insight
guide
designing
models
better
handle
selection
bias
andand
consequently
achieve
Δに対して重み付け、Υに対して均衡化する
handle
selection
bias
consequently
achieve
performance
terms
of estimating
ITEs.
better
performance
in terms
of estimating
ITEs.
We therefore try to minimizebetter
the
following
objectiveinfunction:
In In
thisthis
paper,
wewe
propose
a model,
named
Dispaper,
propose
a
model,
named
Dis■ 目的関数:
N
X
⇥ CounterFactual
⇤
1
entangled
Representations
for
0
1 entangled Representations
tCounterFactual
i
for
y
J( , , ⌥, h , h , ⇡0 ) =
! ti , (xi ) · L yi , h
(xi ), ⌥(xi )
(3)
N i=1
Regression
(DR-CFR),
thatthat
is optimized
to do
Regression
(DR-CFR),
is optimized
to do
exactly
that.
also
present
experiments
that
exactly
We
also
present
experiments
that
+ that.
↵ · We
disc
{⌥(x
)}
,
{⌥(x
)}
(4)
i i:ti =0
i i:ti =1
Figure
3: 3:Underlying
factors
of of
X;X; (⌥)(⌥)
areare
Figure
Underlying
factors
demonstrate
the
advantages
of
this
perspective;
demonstrate the
advantages
of
this
perspective;
N
X
⇥
⇤
factors
thatthat
partially
determine
only
T (Y
) but
notnot
1
factors
partially
determine
only
T
(Y
)
but
andand
show
empirically
that
the
proposed
method
show
+ ·empirically
log that
⇡0 tthe
(xi ), (xi )method
(5)
i | proposed
thethe
other
random
variable;
andand areare
confounders;
N i=1
other
random
variable;
confounders;
outperforms
state-of-the-art
models
in
a
variety
outperforms state-of-the-art models in a variety
bias
is induced
by by
factors
andand. .
Selection
bias
is
induced
factors
0
1with different di- Selection
of of
data
generation
scenarios
· Reg( , ,scenarios
⌥, h , h , ⇡with
(6)
data+ generation
different di0)
mensionality
of factors;
seesee
below.
mensionality
of⇥factors;
below. ⇤
ti

16

where ! ti , (xi ) is the re-weighting function; L yi , h
(xi ), ⌥(xi ) is the prediction loss for
observed
© NEC Corporation
2022 outcomes (aka factual loss); disc {⌥(x)}i:ti =0 , {⌥(x)}i:ti =1 calculates the discrepancy
between conditional distributions of ⌥ given t = 0 versus given t = 1; log ⇡ ( · ) is the cross entropy

17.

意思決定の性能における因果推論的精度の十分性と必要性を考える Pearl流因果推論 3つの仮定 ・SUTVA ・無視可能性 ・正値性 + 十分なデータ Rubin流因果推論 ⇒ ⇍ 潜在アウトカム推定 特に a が二値 =一様誤差 MSEu 最小化 ・因果効果 τ(x) ya= ya= ya= ya= 仮定が成り立たない場合の手法群 17 © NEC Corporation 2022 →因果効果推定 ・平均因果効果 τ の MSE 最小化 ⇒ ⇐ ? 良い意思決定

18.

因果推論精度は意思決定性能の最悪値を保証する(ただし行動空間が広いと難しくなる) ◆ 学習したモデルを最適化した行動方策の期待効用で評価 D 学習 (モデリング) f ̂ = arg min L( f; D) f ̂f 最適化 ̂ ∣ x) := π(a ̂ a) arg max π(a∣x) [ f(x, ] ̂ ∣ x) π(a π∈Π 評価指標 方策価値 V (π)̂ := リグレット RegretΠ := [ f*(x, a)] ̂ π(a∣x)p(x) π*(a∣x)p(x) [ f*(x, a)] − V (π)̂ ◆ 定理:リグレットは以下のように抑えられる [Tanimoto+ AISTATS 2021] ̂ ≤ Regret ( f ) Π ■ | → | ⋅ MSEu( f )̂ ⋅ ERuΠ( f )̂ =: L u • ERuΠ ≤ 2 より、全ての行動に対する一様平均精度 MSEu の 最小化は意思決定性能につながる x [| 1 ̂ a) y ∣ x − f(x, [ ] a )] ∑( | a∈ 2 一様MSE x [ a∈ ̂ ∣ x)) π*(a ∣ x) − π(a ∑( ] 2 • 𝒜 𝔼 𝒜 𝒜 𝒜 𝔼 © NEC Corporation 2022 𝔼 𝔼 18 定数項 | | より、行動空間が広いとき意味のある上界を得るには 一般にはより高精度が求められてしまう ポリシー誤差 • 𝒜 𝔼 𝔼 精度と意思決定性能の関係 ポリシー誤差ERuΠを最小化してもよい(が直接は観測不能)

19.

意思決定志向損失:Regret Minimization Network [Tanimoto ’21] 全行動に対する一様平均回帰誤差に加えて、基準値との比較判別誤差を考える ◆ 予測最善 行動と 真の最善 行動のギャップ =: Regret を最小化したい ◆ (一様平均) 回帰誤差だけではモデル fA と fB のうちどちらが望ましいか区別できない Error rate = 0 Error rate = 6/9 yâ = fA(x = , a) Predicted ̂̂ ya* 9.5 MSE同じ ȳ ≃ ̂̂ ya* 9.5 ȳ 7.125 ȳ = g(x) yâ = fB(x = , a) 7.125 Classi cation 4.75 a [ya | x] Regret 2.375 4.75 Error Regret 2.375 「過去のエキスパートなら Actual これくらいになりそう」 𝔼 0 19 fi © NEC Corporation 2021 0 2.375 4.75 y a y y ȳ a*̂ a* 7.125 9.5 0 0 2.375 ya*̂ ȳ 4.75 7.125 ya* 9.5 ya

20.

RMNetの学習 意思決定志向の損失+(広い行動空間に向けた)IPMによる表現均衡化 ◆ 予測精度MSEと(過去の意思決定における平均的アウトカムとの差に関する)判別誤差の幾何平均を最小化 ■ L( f ) := | | ⋅ MSE( f ) ⋅ ER( f ) + IPM + R( f ) y 過去の実績アウトカム バイアスあり 学習データ 実際の⾏動 ランダム化試験 した場合の⾏動 (フェイクデータ) © NEC Corporation 2021 𝒜 20 x a a u ŷ g 特徴表現 ϕ NN Φ u Φ 特徴表現 (フェイク) yâ h 回帰損失 平均的な意思決定者の パフォーマンスを推定 判別損失 その⾏動が平均より 良かったかどうか 回帰損失 u ΦとΦ が一致するように NNϕ を訓練 (均衡化正則化項) データをよく再現 ランダム化試験の表現と ⾒分けがつかないように

21.

RMNet - 結果 提案法が高性能、判別精度が重要 表 1 半人工データ実験における最終的な意思決定のパフォーマンス及び回帰予測精度,判別精度の結果.訓練/テストデータの分 割に関して 10 回試行した際の平均と標準誤差を示した.各設定及び指標において最高の結果を太字,次点を下線付きで示した. ! (π 正規化プラグインポリシー価値 V k=1 ) f |A| Method → OLS 𝒜 ± 0.01 ± 0.13 ± 0.05 ± 0.09 ± 0.06 ± 0.07 0.61 ± 0.05 ± 0.07 ± 0.04 ± 0.13 ± 0.06 ± 0.10 ± 0.14 ± 0.09 −0.10 0.33 0.33 0.13 0.30 0.32 0.39 0.38 ± 0.13 0.61 ± 0.04 ± 0.05 ± 0.04 ± 0.10 ± 0.07 ± 0.07 ± 0.10 ± 0.06 −0.01 0.38 0.39 0.04 0.37 0.45 0.35 0.45 ± 0.10 0.51 ± 0.06 ± 0.05 ± 0.02 ± 0.09 ± 0.05 ± 0.05 ± 0.05 ± 0.05 1.12 1.03 0.59 1.06 0.78 0.75 0.78 6.08 1.89 0.87 0.64 1.05 0.83 0.64 0.80 10.13 1.70 0.93 0.64 1.15 0.82 0.74 0.87 8.47 0.76 0.81 0.85 8 16 32 64 5.86 1.07 0.63 1.63 0.84 0.74 0.86 2.42 0.221 0.214 0.211 0.222 0.211 0.212 0.210 0.210 0.116 0.114 0.113 0.116 0.113 0.114 0.113 0.113 0.061 0.059 0.059 0.060 0.059 0.059 0.058 0.058 0.031 0.030 0.030 0.031 0.030 0.029 0.030 0.029 0.204 0.109 0.055 0.029 0.75 →→ 0.68 ± 0.04 ± 0.20 64 → 21 → RMNet (提案法) ± 0.08 −0.08 0.33 0.39 0.13 0.48 0.25 0.39 0.29 8 → ◆ ± 0.15 64 ERuk=1 → ◆ RF kNN → BART → Multi-head DNN → Single-head DNN → CFRNet RankNet −0.04 0.24 0.35 −0.05 0.40 0.28 0.50 0.35 32 →→ ◆ 16 → ◆ 8 MSEu 16 32 u →提案法は必ずしも k = 1 に対するERを最小化していないが、ERk=1 で優越、かつ意思決定性能でも優越 ods, considerations, and applications in the journal of 表 2 アブレーション. thoracic and cardiovascular surgery. The Journal of f →(一様)回帰誤差よりも判別誤差ERの方が最終性能 ! (π f ) V(π ) と一貫性を持つ 正規化プラグインポリシー価値 V k=1 thoracic and cardiovascular surgery, Vol. 150, No. 1, Synthetic Semi-synthetic pp. 14–19, 2015. →因果推論の既存法が必ずしも高性能でない IPM MSE ER Bilinear |A| = 32 |A| = 64 [6] Cedric Nugteren and Valeriu Codreanu. Cltune: A †! ! ! 0.77 ± 0.04 0.61 ± 0.04 0.51 ± 0.06 generic auto-tuner for opencl kernels. In Embed→行動空間 ! | —| が大きくなるほどシングルヘッドアーキテクチャが有利 ! 0.73 ± 0.03 0.61 ± 0.05 0.58 ± 0.05 © NEC Corporation 2021 ded Multicore/Many-core Systems-on-Chip (MCSoC), ! ! — 0.55 ± 0.10 0.55 ± 0.05 0.49 ± 0.05

22.

二値意思決定の場合の精度と意思決定性能の関連 結果の差(”効果”)の推定MSEが重要 ◆ ある行動を行う(a=1)か行わない(a=0)かの二択( | ya= | = 2)の場合 ⟨ π* − π ̂ , y − y⟩̂ = Δ1 (y1 − y1̂ ) + Δ0 (y0 − y0̂ ) Δ1 ■ Δ= (Δ0) x [Δ1(x)(τ(x) ya= ̂ )] ≤ − τ(x) x [(Δ1(x)) 2 ] x [(τ(x) ◆ ̂ )] − τ(x) =:PEHE 2 (Δ ) ■ 1 ≤ 1 より、τ のMSEであるPEHE (Precision on Estimating 22 © NEC Corporation 2022 𝔼 𝔼 𝒜 𝔼 Heterogeneous Effect) は意思決定性能の保証となる 2 効果(差 τ)

23.

意思決定の性能における因果推論的精度の十分性と必要性を考える Pearl流因果推論 3つの仮定 ・SUTVA ・無視可能性 ・正値性 + 十分なデータ Rubin流因果推論 ⇒ ⇍ 潜在アウトカム推定 特に a が二値 =一様誤差 MSEu 最小化 ・因果効果 τ(x) ya= ya= ya= ya= 仮定が成り立たない場合の手法群 23 © NEC Corporation 2022 →因果効果推定 ・平均因果効果 τ の MSE 最小化 ⇒ 良い意思決定

24.

効果推定を可能にする重要な仮定 3つの仮定を置くことで、因果効果は一致推定が可能(=データを増やせば十分精緻に推定できる) 満たされない場合、無限のデータがあっても真のモデルを特定できないか、代わりの仮定が必要 1. SUTVA (Stable Unit Treatment Value Assumption) サトヴァ j 措置対象間の干渉がない: y ■ { a′} a′ ⊥ ⊥ a i ∀i ≠ j • NG) あるSNSユーザへの広告配信アルゴリズムの変更が、その人の反応を通してフォロワーに影響する → スピルオーバー効果 ■ 各行動は1種類の処置に対応 • NG) 同じ「薬Aを投与する」行動でも、Aさん(子ども)には1錠、Bさん(大人)には2錠 2. 無視可能性 Ignorability / 未交絡因子の不存在: {ya}a ■ 観測されてない交絡因子の対処はできない 3. 正値性 Positivity / Overlap: 0 < μ(a | x) < 1 ∀a, x   ■ 実際にとられていない行動の結果はわからない 24 © NEC Corporation 2022 u ⊥ ⊥a∣x a x y a y

25.

仮定が成り立たない場合の手法群 Pearl流因果推論 3つの仮定 ・SUTVA ・無視可能性 ・正値性 + 十分なデータ Rubin流因果推論 ⇒ ⇍ 潜在アウトカム推定 特に a が二値 =一様誤差 MSEu 最小化 ・因果効果 τ(x) ya= ya= ya= ya= 仮定が成り立たない場合の手法群 25 © NEC Corporation 2022 →因果効果推定 ・平均因果効果 τ の MSE 最小化 ⇒ 良い意思決定

26.

合流点:層別にすることでむしろ問題があるケース 因果推論するには全データをポンと入れればOK、ではなく事前検討が必要 ◆ 学力+実技で選別された合格者の学力ー実技 分布は負の相関が出がち ■ 選択バイアスと呼ばれる ◆ 共通の下流変数(合流)で層別すべきでない ■ 予め層別(選択)されたデータに なっていないかも要注意 ◆ これらの判定基準 →バックドア基準 26 © NEC Corporation 2022 学力 a 合否 実技 y z 林 岳彦, 建設性のある議論のために/バックドア基準 の入門とその使用例,web(2017)

27.

バックドア基準 (実際に使いたくなった時に参照する用) ◆ 因果ダイアグラムGにおいて、aからYへの有向パスがあるとする。次の2条件を 満たすとき、変数集合 Z は順序対 (a, Y) についてバックドア基準を満たすという ■ (B1) aからZへの有向パスがない(行動より下流の変数を含まない) ■ (B2) aに入るパスを含む、aとY を結ぶパス (バックドアパス) において、ZがaとYを バックドア基準を満たすZ (一例) x1 有向分離 (ブロック) する ◆ ただし、a-Y間の全てのパス p に対してZが以下の条件のいずれかを満たすとき、Z はaとYを有向分離するという ■ 鎖 i→m→j またはフォーク i←m→j を含み、m は Z に含まれる ■ 合流点 i→m←j を含み、m及びその子孫は Z に含まれない ◆ このとき、以下のバックドア調整定理が成立 ■ P(Y ∣ do(a)) = ※ Y | do(a) 27 ∑ z P(Y ∣ a, Z)P(Z) = Ya © NEC Corporation 2022 a x3 x4 x5 x2 y x6 因果の Directed Acyclic Graph (DAG)

28.

バックドア基準(ざっくり版) 共通原因は調整、行動より下流は調整せず、合流点の調整による擬似相関に注意 ◆ バックドア基準を満たす調整変数群の選び方 1. 行動 a と 結果 y の両方に影響を与える 入学前学力 x1 交絡変数は調整する 2. 行動 a よりも下流の変数は調整しない 卒業時 3. 合流点(及びその子孫)を調整すると上流変数間 学力 に擬似相関が発生、擬似的な交絡になることに 注意し、そのような変数があれば調整する 28 © NEC Corporation 2022 a 入学前実技 入試 x3 x2 y 卒業時 実技

29.

DAGitty:自動バックドア基準 調整基準を満たす調整変数集合を出力してくれる ◆ 調整基準 (Adjustment criterion) ■ バックドア基準よりも精緻(十分かつ必要でもある) ◆ DAGitty (R言語) は調整変数集合 Z を出してくれる ■ 可能な Z の列挙も 再現用Colab 29 © NEC Corporation 2022

30.

DAGがわかっていないとき:因果探索 (Causal Discovery) 因果の向きを含めてデータだけから特定できる場合もある(仮定が必要) ◆ 線形非ガウス加法モデル (LiNGAM) ■ ノイズ ei, ej が独立であるという性質 と、変数間の関係に線形性を仮定 → ノイズがガウスでなければ推定可能 Shimizu, Shohei. LiNGAM: Non-Gaussian methods for estimating causal structures. Behaviormetrika 41.1 (2014): 65-98. ◆ 情報幾何的因果推論 (IGCI) ■ 非線形性+傾きと密度の独立性を仮定 ◆ 教師あり因果方向 30 {x , y }n → xはyの原因か? という判別 (n) © NEC Corporation 2021 fi ■ (n) NEC Group Internal Use Only D. Janzing, J. M. Mooij, K. Zhang, J. Lemeire, J. Zscheischler, P. Daniuˇsis, B. Steudel, and B. Sch¨olkopf. Information-geometric approach to inferring causal directions. Arti cial Intelligence, 182-183:1–31, 2012.

31.

決定論的割当て(正値性違反):回帰不連続デザイン 割り当てカットオフ点周辺はランダムとみなせる ◆ とくにNo-overlap: ∃a, x, μ(a | x) ∈ {0,1} 卒業時成績 ■ アルゴリズムによって割り当てが決まる場合など ◆ 進学校の x 全体では推定のしようがないが、カットオフ点の 教育効果 入試 周りではほとんどランダムに処置割り当てが決まる → それらの差は(x = カットオフ点での)因果効果 成績 不合格 合格(入学) 合格点 https://ja.wikipedia.org/wiki/回帰不連続デザイン ◆ 入試の成績がギリギリ合格・不合格の差で 進学校の教育効果を測るなど 31 © NEC Corporation 2021 NEC Group Internal Use Only

32.

未観測交絡因子(無視可能性違反) 全ての交絡因子が観測されているとは限らない?→場合によっては因果推論可能 ◆ 交絡因子が観測されていなかったら? 遺伝子 ■ 個人の意思決定には遺伝子が関わっているかも u ■ バックドア基準が満たせない →層別化も傾向スコアも使えない ■ タバコ業界「発癌遺伝子がニコチンを欲しがらせる だけである。禁煙政策は無意味!」 32 © NEC Corporation 2022 喫煙 a ? y 肺がん

33.

フロントドア基準 交絡因子の影響を受けない中間変数があるとき因果推論可能 ◆ 交絡因子が観測されていなかったら? 遺伝子 ■ 個人の意思決定には遺伝子が関わっているかも u ■ バックドア基準が満たせない →層別化も傾向スコアも使えない ■ タバコ業界「発癌遺伝子がニコチンを欲しがらせる 喫煙 z a ◆ フロントドア基準 肺タール量に直接 影響する遺伝子が ■ 交絡因子の影響を受けない中間変数があれば a → z はバックドア基準を満たし、 あるでしょうか? z → y もバックドア基準を満たすので 33 © NEC Corporation 2022 → y の因果効果を推定できる 肺がん 肺タール量 だけである。禁煙政策は無意味!」 組み合わせると a y 米国タバコ業界 因果推論の大家 ぐぬぬ ※イメージ Judea Pearl

34.

操作変数法 「確実に外生的な変数による行動への影響」の分は因果と解釈できる イベント ◆ 航空機チケット価格→売上への影響を調べたい u ■ チケット価格は売れ行きに応じて変動させている ■ 近くでイベントがある時は売れやすく、価格も上がりやすい x ■ イベント情報はデータにない ■ 価格は航空燃料費によっても変動させる ■ イベントと燃料費は独立と考えられる ◆ 「価格の燃料費による変動分」については少なくともイベ z 燃料費 a 価格 売上 ントの影響を受けていないはず ■ z → a の予測値 a ̂ と y の相関を調べることにより a → y の因果を(部分的に)推定可能 34 © NEC Corporation 2022 y ¥

35.

Takeaways ◆ 意思決定のための予測:(一般には)部分観測 ◆ 各行動の選択肢に対する潜在結果を考え、反事実的結果は欠損していると考える潜在アウトカム ◆ 欠損の仕方が交絡により偏る→因果推論 ◆ 潜在アウトカム上の一様誤差は意思決定にとって十分 ■ ただしアウトカム=効用と考える ■ 意思決定性能の最悪値を上から抑える ■ 意思決定の良さを考えて学習することも可能(RMNet) ◆ 因果推論のやり方(3つの仮定の下で) ◆ 手法 ◆ 損失を傾向スコアで割るIPW法 ◆ 普段との差を考えるDML ◆ 深層学習による表現均衡化 ◆ 仮定が満たされない場合の因果推論 ◆ 変数選択:バックドア基準 ◆ 共通原因は調整、行動より下流は調整せず、合流による擬似相関に注意 ◆ その他、追加仮定などにより対処法が考案されている 35 © NEC Corporation 2022

36.

本日の元ネタ ◆ 人工知能学会誌 7月号特集記事 ◆ 別刷り提供可 36 © NEC Corporation 2022

37.

NECの最適化 研究所新規成果のエンジン取り込み、事業化を⽬指した製品開発活動 意図学習は エンジン名 意思決定をホワイトボックス化し、自動化を実現します 意図学習 オンライン学習 「頭の中の基準」の 可視化 意思決定の 加速 意思決定の 品質の底上げ ベテラン社員の暗黙知や、 迅速に判断を 誰もが良い意思決定を 消費者の行動基準がわかる することが可能になる することが可能になる SAiL ③ オンライン最適化アプローチ 第2 週 ‫ﭸ‬ ‫ﭸ‬ ‫ﭸ‬ 最適化モデル 第1週 値引き戦略 ‫ﭸ‬ ɰᴀ ɰᴁ ‫ﭸ‬ ‫ﭸ‬ © NEC Corporation 2018 ‫ﭸ‬ 37 ɰϸ ‫ﭸ‬ 利益 ‫ﭸ‬ 実世界( 市場) フィードバック フィードバック 第3 週 ・ ・ ・ 繰り返しアップデート ☺ 過去データなしでも 適用可 ☺ 非定常に変化する 需要にも対応

38.

NECの最適化の強み:トップクラスの研究成果 若手研究者が研究・事業化をリード 江藤 力 NEC AI・アナリティクス事業部 (データサイエンス研究所兼務) エキスパート 2012年3月東京大学大学院工学系研究科航空宇宙工学専攻修士課程修了.同年4月 NEC入社. 最難関のAI国際学会で毎年発表、日本トップクラス Matsuoka, T., Ito, S., & Ohsaka, N. (2021, March). Tracking Regret Bounds for Online Submodular Optimization. In International Conference on Artificial Intelligence and Statistics (pp. 3421-3429). PMLR. Ito, S. (2021, July). Parameter-free multi-armed bandit algorithms with hybrid data-dependent regret bounds. In Conference on Learning Theory (pp. 2552-2583). PMLR. Takemura, K., Ito, S., Hatano, D., Sumita, H., Fukunaga, T., Kakimura, N., & Kawarabayashi, K. I. (2021, March). A Parameter-Free Algorithm for Misspecified Linear Contextual Bandits. In International Conference on Artificial Intelligence and Statistics (pp. 3367-3375). PMLR. 機械学習・データマイニング・システム同定の原理研究やビジネス応用に従事し, 2015年に第29回先端技術大賞(フジサンケイビジネスアイ賞)受賞. NECの最適化事業をけん引する. 伊藤 伸志 NEC データサイエンス研究所 主幹研究員 2015年より NEC に所属,2020年に東京大学で博士(情報理工学)を取得.オンラ イン最適化・バンディット最適化の基礎研究に従事. NeurIPS, ICML, AISTATS などの機械学習分野の最難関国際会議において,複数の 論文を発表.日本のAI・数理最適化研究をリードしている. 38 © NEC Corporation 2018 Takemura, K., Ito, S., Hatano, D., Sumita, H., Fukunaga, T., Kakimura, N., & Kawarabayashi, K. I. (2021, January). Near-Optimal Regret Bounds for Contextual Combinatorial Semi-Bandits with Linear Payoff Functions. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 35, No. 11, pp. 9791-9798). Ito, S., Hirahara, S., Soma, T., & Yoshida, Y. (2020). Tight first-and second-order regret bounds for adversarial linear bandits. Advances in Neural Information Processing Systems, 33, 2028-2038. 世界的に最も権威ある Ito, S. (2020). A Tight Lower Bound and Efficient Reduction for Swap Regret. Advances in AI国際会議に複数採択 Neural Information Processing Systems, 33. Ito, S., Hatano, D., Sumita, H., Takemura, K., Fukunaga, T., Kakimura, N., & Kawarabayashi, K. I. (2020). Delay and cooperation in nonstochastic linear bandits. Advances in Neural Information Processing Systems, 33, 4872-4883.