5.6K Views
October 23, 23
スライド概要
好奇心は、構成的な理解を構築するにあたって、身の回りと相互作用を動機づけるための、重要な能力である。近年、物体中心学習を用いて、動画から構成的な表現獲得が可能となっている。しかし、物体中心の表現獲得を、内的報酬に基づく環境との相互作用を行いながら学習できるかどうかは解明されていない。本研究では、エージェントが自身の予測結果を用いてより不確かな観測を優先して学習することが、効率的な物体中心表現の学習につながるかどうかを検証する。
2023 OS-21 1
etc. Variational Autoencoder, VAE z ∼ 𝒩(0,1) VAE x̂ x pθ z pθ(x, z) 𝔼qϕ log qϕ(z) ] [ qϕ 2
disentangle Object-centric Learning VAE Object-centric x̂ x VAE x̂ x z1 z z2 z3 3
2020 [1] Object-centric World Models Object-centric World Model ̂ xt+1 xt z1 z1 z2 z2 z3 z3 t t+1 4
Q, ? ? 目玉焼きを作る 5
SMORL [Zadaianchuk+ 2021] + + - 6
CAI [Seitzer+ 2021] + + - 7
disentanglement 2 Causal Action In uence (CAI) [3] Latent Bayesian Surprisal (LBS) [4] 8
• 画像・行動系列を入力とする(長さ T) • x (t) : 時刻 t における画像 (t) : 時刻 t における行動ベクトル • a • (t) zk :時刻 t における k 番目のスロットで獲得された潜在変数 9
Causal Action In uence (CAI) (t+1) (t) | z1:K, a (t)) p(z1:k z1(t) K slots parallel z2(t+1) zK(t) zK(t+1) ⋮ π(a | z1:K ) x (t) (t) Ck (z) = z1(t+1) z2(t) ⋮ a (t) Latent Bayesian Surprisal (LBS) K slots parallel (t) (t) zz1z(t) 1k (t) (t) zzz1(t+1) 1 k a (t) x (t) x (t+1) x (t+1) (t+1) (t) (t) I(zk ; a | z1:K ) r (t) = I(z (t+1) ;x (t+1) (t) (t) |x , a ) (t) (t) )] = 𝔼a(t)∼π[DKL(Pzk(t+1)|z1:K ,a (t)∥Pzk(t+1)|z1:K K K 1 1 (t+1) (t) (t+1) (t) | ≈ DKL p(zk z1:K, ai)∥ p(zk | z1:K, aj) ∑ K∑ K i=1 j=1 • 行動による因果的影響を測る (t) r1:K • = ≈ (t+1) (t+1) (t) (t) |x , a ) I(z1:K ; x (t+1) (t) (t) (t+1) (t+1) (t) (t) |x , a , x | x , a )] DKL[q(z1:K )∥p(z1:K 次の時刻の観測によるサプライズを測る 10
Causal Action In uence (CAI) (t+1) (t) | z1:K, a (t)) p(z1:k z1(t) K slots parallel z2(t+1) zK(t) zK(t+1) ⋮ π(a | z1:K ) x (t) (t) Ck (z) = z1(t+1) z2(t) ⋮ a (t) Latent Bayesian Surprisal (LBS) K slots parallel (t) (t) zz1z(t) 1k (t) (t) zzz1(t+1) 1 k a (t) x (t) x (t+1) x (t+1) (t+1) (t) (t) I(zk ; a | z1:K ) r (t) = I(z (t+1) ;x (t+1) (t) (t) |x , a ) (t) (t) )] = 𝔼a(t)∼π[DKL(Pzk(t+1)|z1:K ,a (t)∥Pzk(t+1)|z1:K K K 1 1 (t+1) (t) (t+1) (t) | ≈ DKL p(zk z1:K, ai)∥ p(zk | z1:K, aj) ∑ K∑ K i=1 j=1 • 行動による因果的影響を測る (t) r1:K • = ≈ (t+1) (t+1) (t) (t) |x , a ) I(z1:K ; x (t+1) (t) (t) (t+1) (t+1) (t) (t) |x , a , x | x , a )] DKL[q(z1:K )∥p(z1:K 次の時刻の観測によるサプライズを測る 11
Causal Action In uence (CAI) (t+1) (t) | z1:K, a (t)) p(z1:k z1(t) K slots parallel z2(t+1) zK(t) zK(t+1) ⋮ π(a | z1:K ) x (t) (t) Ck (z) = z1(t+1) z2(t) ⋮ a (t) Latent Bayesian Surprisal (LBS) K slots parallel (t) (t) zz1z(t) 1k (t) (t) zzz1(t+1) 1 k a (t) x (t) x (t+1) x (t+1) (t+1) (t) (t) I(zk ; a | z1:K ) r (t) = I(z (t+1) ;x (t+1) (t) (t) |x , a ) (t) (t) )] = 𝔼a(t)∼π[DKL(Pzk(t+1)|z1:K ,a (t)∥Pzk(t+1)|z1:K K K 1 1 (t+1) (t) (t+1) (t) | ≈ DKL p(zk z1:K, ai)∥ p(zk | z1:K, aj) ∑ K∑ K i=1 j=1 • 行動による因果的影響を測る (t) r1:K • = ≈ (t+1) (t+1) (t) (t) |x , a ) I(z1:K ; x (t+1) (t) (t) (t+1) (t+1) (t) (t) |x , a , x | x , a )] DKL[q(z1:K )∥p(z1:K 次の時刻の観測によるサプライズを測る 12
• OP3モデルとBlocksデータセット[5]を利用 • 複数の異なる色の3次元ブロックを含む画像・行動系列 • エージェントは各時刻でブロックを移動する(行動ベクトルはブロックの移動前と移動後の 座標を表す4次元ベクトル) • 探索フェーズと学習フェーズを交互に行う • 探索:サンプリングされた行動のうち、ε-greedyに内的報酬が最も高いものをバッファに追加 (ε • • = 0.0, 0.5, 1.0) 経験バッファ:Prioritized Experience Replay 学習:経験バッファからバッチを取り出して学習する 13
Q, 内的報酬を用いることで学習効率は上がったか? • 内的報酬を用いた手法の方が約2倍早く再構成 誤差が下がった • CAIとLBSの間ではわずかにLBSの方が下がるのが 早い • LBSは x (t+1) の情報を得ることによるサプライ ズを測っているため、再構成がうまくいかない データを優先してサンプリングすることにつな がった、と考えられる 14
Q, 内的報酬を用いることでより複雑な行動をとるよ うになったか? • エポック毎にサンプリングされたデータのうち、 物体をもう片方の物体に乗せるデータが含まれて いる割合を比較 • 4手法間で明確な差は見られなかった • 他3手法よりCAIによる探索が上昇幅は最も大きい • CAIは行動によるスロット表現への影響を測っ ているため、複数物体に影響を及ぼす行動の選 択につながった、と考えられる 15
CAI/LBS CAI CAI/LBS 16
17
[1] Lin Z, Wu YF, Peri S, Fu B, Jiang J, Ahn S. Improving generative imagination in object-centric world models. In International Conference on Machine Learning 2020 Nov 21 (pp. 6140-6149). PMLR. [2] Zadaianchuk A, Seitzer M, Martius G. Self-supervised Visual Reinforcement Learning with Objectcentric Representations. In International Conference on Learning Representations 2021. [3] Seitzer M, Schölkopf B, Martius G. Causal in uence detection for improving e ciency in reinforcement learning. Advances in Neural Information Processing Systems. 2021 Dec 6;34:22905-18. [4] Mazzaglia P, Catal O, Verbelen T, Dhoedt B. Curiosity-driven exploration via latent bayesian surprise. In Proceedings of the AAAI Conference on Arti cial Intelligence 2022 Jun 28 (Vol. 36, No. 7, pp. 7752-7760). [5] Veerapaneni R, Co-Reyes JD, Chang M, Janner M, Finn C, Wu J, Tenenbaum J, Levine S. Entity abstraction in visual model-based reinforcement learning. In Conference on Robot Learning 2020 May 12 (pp. 1439-1456). PMLR. 18
19
Appendix A.1 OP3 [5] + + - 20
Appendix A.2 Latent Bayesian Surprisal [4] + Bayesian surprise + Continuous/discrete 21
Appendix B. Object-Centric Learning Compositional Understanding Imagination of states after taking actions Object-Centric World Models ✔ ✔ ❌ ✔ Make an sunny-side up egg World Models ❌ Crack an egg ✔ Hypothesis: Taking actions to interact with the environment is the key to build a compositional understanding of the world 22
Appendix C. Object Toy dataset Realistic dataset occlusion, containment vs. & Temporal consistency, spatial consistency, etc. 23