nakano_intrinsic_slide

1.

2023 OS-21 1

2.

etc. Variational Autoencoder, VAE z ∼ 𝒩(0,1) VAE x̂ x pθ z pθ(x, z) 𝔼qϕ log qϕ(z) ] [ qϕ 2

3.

disentangle Object-centric Learning VAE Object-centric x̂ x VAE x̂ x z1 z z2 z3 3

4.

2020 [1] Object-centric World Models Object-centric World Model ̂ xt+1 xt z1 z1 z2 z2 z3 z3 t t+1 4

5.

Q, ？？目玉焼きを作る 5

6.

SMORL [Zadaianchuk+ 2021] + + - 6

7.

CAI [Seitzer+ 2021] + + - 7

8.

disentanglement 2 Causal Action In uence (CAI) [3] Latent Bayesian Surprisal (LBS) [4] 8

9.

• 画像・行動系列を入力とする（長さ T） • x (t) : 時刻 t における画像 (t) : 時刻 t における行動ベクトル • a • (t) zk ：時刻 t における k 番目のスロットで獲得された潜在変数 9

10.

Causal Action In uence (CAI) (t+1) (t) | z1:K, a (t)) p(z1:k z1(t) K slots parallel z2(t+1) zK(t) zK(t+1) ⋮ π(a | z1:K ) x (t) (t) Ck (z) = z1(t+1) z2(t) ⋮ a (t) Latent Bayesian Surprisal (LBS) K slots parallel (t) (t) zz1z(t) 1k (t) (t) zzz1(t+1) 1 k a (t) x (t) x (t+1) x (t+1) (t+1) (t) (t) I(zk ; a | z1:K ) r (t) = I(z (t+1) ;x (t+1) (t) (t) |x , a ) (t) (t) )] = 𝔼a(t)∼π[DKL(Pzk(t+1)|z1:K ,a (t)∥Pzk(t+1)|z1:K K K 1 1 (t+1) (t) (t+1) (t) | ≈ DKL p(zk z1:K, ai)∥ p(zk | z1:K, aj) ∑ K∑ K i=1 j=1 • 行動による因果的影響を測る (t) r1:K • = ≈ (t+1) (t+1) (t) (t) |x , a ) I(z1:K ; x (t+1) (t) (t) (t+1) (t+1) (t) (t) |x , a , x | x , a )] DKL[q(z1:K )∥p(z1:K 次の時刻の観測によるサプライズを測る 10

11.

Causal Action In uence (CAI) (t+1) (t) | z1:K, a (t)) p(z1:k z1(t) K slots parallel z2(t+1) zK(t) zK(t+1) ⋮ π(a | z1:K ) x (t) (t) Ck (z) = z1(t+1) z2(t) ⋮ a (t) Latent Bayesian Surprisal (LBS) K slots parallel (t) (t) zz1z(t) 1k (t) (t) zzz1(t+1) 1 k a (t) x (t) x (t+1) x (t+1) (t+1) (t) (t) I(zk ; a | z1:K ) r (t) = I(z (t+1) ;x (t+1) (t) (t) |x , a ) (t) (t) )] = 𝔼a(t)∼π[DKL(Pzk(t+1)|z1:K ,a (t)∥Pzk(t+1)|z1:K K K 1 1 (t+1) (t) (t+1) (t) | ≈ DKL p(zk z1:K, ai)∥ p(zk | z1:K, aj) ∑ K∑ K i=1 j=1 • 行動による因果的影響を測る (t) r1:K • = ≈ (t+1) (t+1) (t) (t) |x , a ) I(z1:K ; x (t+1) (t) (t) (t+1) (t+1) (t) (t) |x , a , x | x , a )] DKL[q(z1:K )∥p(z1:K 次の時刻の観測によるサプライズを測る 11

12.

Causal Action In uence (CAI) (t+1) (t) | z1:K, a (t)) p(z1:k z1(t) K slots parallel z2(t+1) zK(t) zK(t+1) ⋮ π(a | z1:K ) x (t) (t) Ck (z) = z1(t+1) z2(t) ⋮ a (t) Latent Bayesian Surprisal (LBS) K slots parallel (t) (t) zz1z(t) 1k (t) (t) zzz1(t+1) 1 k a (t) x (t) x (t+1) x (t+1) (t+1) (t) (t) I(zk ; a | z1:K ) r (t) = I(z (t+1) ;x (t+1) (t) (t) |x , a ) (t) (t) )] = 𝔼a(t)∼π[DKL(Pzk(t+1)|z1:K ,a (t)∥Pzk(t+1)|z1:K K K 1 1 (t+1) (t) (t+1) (t) | ≈ DKL p(zk z1:K, ai)∥ p(zk | z1:K, aj) ∑ K∑ K i=1 j=1 • 行動による因果的影響を測る (t) r1:K • = ≈ (t+1) (t+1) (t) (t) |x , a ) I(z1:K ; x (t+1) (t) (t) (t+1) (t+1) (t) (t) |x , a , x | x , a )] DKL[q(z1:K )∥p(z1:K 次の時刻の観測によるサプライズを測る 12

13.

• OP3モデルとBlocksデータセット[5]を利用 • 複数の異なる色の3次元ブロックを含む画像・行動系列 • エージェントは各時刻でブロックを移動する（行動ベクトルはブロックの移動前と移動後の座標を表す4次元ベクトル） • 探索フェーズと学習フェーズを交互に行う • 探索：サンプリングされた行動のうち、ε-greedyに内的報酬が最も高いものをバッファに追加（ε • • = 0.0, 0.5, 1.0）経験バッファ：Prioritized Experience Replay 学習：経験バッファからバッチを取り出して学習する 13

14.

Q, 内的報酬を用いることで学習効率は上がったか？ • 内的報酬を用いた手法の方が約2倍早く再構成誤差が下がった • CAIとLBSの間ではわずかにLBSの方が下がるのが早い • LBSは x (t+1) の情報を得ることによるサプライズを測っているため、再構成がうまくいかないデータを優先してサンプリングすることにつながった、と考えられる 14

15.

Q, 内的報酬を用いることでより複雑な行動をとるようになったか？ • エポック毎にサンプリングされたデータのうち、物体をもう片方の物体に乗せるデータが含まれている割合を比較 • 4手法間で明確な差は見られなかった • 他3手法よりCAIによる探索が上昇幅は最も大きい • CAIは行動によるスロット表現への影響を測っているため、複数物体に影響を及ぼす行動の選択につながった、と考えられる 15

16.

CAI/LBS CAI CAI/LBS 16

17.

17

18.

[1] Lin Z, Wu YF, Peri S, Fu B, Jiang J, Ahn S. Improving generative imagination in object-centric world models. In International Conference on Machine Learning 2020 Nov 21 (pp. 6140-6149). PMLR. [2] Zadaianchuk A, Seitzer M, Martius G. Self-supervised Visual Reinforcement Learning with Objectcentric Representations. In International Conference on Learning Representations 2021. [3] Seitzer M, Schölkopf B, Martius G. Causal in uence detection for improving e ciency in reinforcement learning. Advances in Neural Information Processing Systems. 2021 Dec 6;34:22905-18. [4] Mazzaglia P, Catal O, Verbelen T, Dhoedt B. Curiosity-driven exploration via latent bayesian surprise. In Proceedings of the AAAI Conference on Arti cial Intelligence 2022 Jun 28 (Vol. 36, No. 7, pp. 7752-7760). [5] Veerapaneni R, Co-Reyes JD, Chang M, Janner M, Finn C, Wu J, Tenenbaum J, Levine S. Entity abstraction in visual model-based reinforcement learning. In Conference on Robot Learning 2020 May 12 (pp. 1439-1456). PMLR. 18

19.

19

20.

Appendix A.1 OP3 [5] + + - 20

21.

Appendix A.2 Latent Bayesian Surprisal [4] + Bayesian surprise + Continuous/discrete 21

22.

Appendix B. Object-Centric Learning Compositional Understanding Imagination of states after taking actions Object-Centric World Models ✔ ✔ ❌ ✔ Make an sunny-side up egg World Models ❌ Crack an egg ✔ Hypothesis: Taking actions to interact with the environment is the key to build a compositional understanding of the world 22

23.

Appendix C. Object Toy dataset Realistic dataset occlusion, containment vs. & Temporal consistency, spatial consistency, etc. 23

weblab

関連スライド

iwasawa_SLTH_slide

yamatsuta_jsai_slide

takashiro_daikibo_slide

oshima_iterative

KoheiHiraki_Transformer_slide_JSAI2023

jsai2023_taniguchi_slide

各ページのテキスト