【拡散モデル勉強会】SlotDiffusion: Object-Centric Generative Modeling with Diffusion Models

3K Views

April 09, 24

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] SlotDiffusion: Object-Centric Generative Modeling with Diffusion Models 2024.04.09 Akihiro Nakano, D2, Matsuo Lab http://deeplearning.jp/ 1

2.

書誌情報 “SlotDiffusion: Object-Centric Generative Modeling with Diffusion Models” • 著者:Ziyi Wu, Jingyu Wu, Wuyne Lu, Igor Gilitschenski, Animesh Garg – University of Toronto – Garg先⽣はRL系のbackgrounをもつ先⽣ – 第⼀著者の⼈はSlotFormer(Object-centricなtransformerモデル)の提案者 • NeurIPS2023にて採択(spotlight) 2

3.

概要 • ⼀⾔で⾔うと? – Object-centricな拡散モデル – 画像および動画⽣成において,object discoveryとgenerationにおいてモデル を検証 – Future predictionとtemporal reasoningタスクにおいても精度向上を確認 3

4.

背景 • Object-centric Learning(物体中⼼学習) – 複数の物体から構成されるシーンを,単⼀の潜在表現ではなく,物体ごとの 潜在表現(以下,slot表現)に分割して表すように学習する⼿法 – 元々はVAEのdisentanglementに関する研究の⼀つ – シーンを物体にdisentangleし,さらに物体表現がfactorごとにdisentangleさ れて学習されることで,未知物体・シーンへの汎化性能が向上 4

5.

背景 • Object-centric Learning(物体中⼼学習) – 静⽌画 → 動画への拡張,物体間の相互作⽤のモデリング,視点変化の追加な どが研究されてきている [4,6] – シーンを物体表現を⽤いて表した⽅が後続タスクにおいても有⽤であることが 近年⽰されている • VQAタスク,planningなど [3,5] 5

6.

関連研究 1. Slot Attention [1] • 物体中⼼である潜在表現を獲得する⼿法の⼀つ • CNNエンコーダの出⼒をquery,ガウス分布によって初期化された slot表現をkey・valueとして,画像のどの部分をどのslotに割り当て るかを競い合わせる 6

7.

関連研究 1. Slot Attention [1] • 物体中⼼である潜在表現を獲得する⼿法の⼀つ • CNNエンコーダの出⼒をquery,ガウス分布によって初期化された slot表現をkey・valueとして,画像のどの部分をどのslotに割り当て るかを競い合わせる ×𝑀 𝑧 ∈ ℝ!×#×$ → 𝑞 Slot Attention &:( 𝑠) 𝑠%&:( ∈ ℝ(×$! → 𝑘, 𝑣 7

8.

関連研究 2. SLATE [2] • Slot Attentionを拡張した⼿法の⼀つ • dVAEと組み合わせて,離散化されたvisual tokenからslot表現を獲得 する⼿法 Autoregressiveにslot表現を CNNをdVAEに置き換え tokenに戻す 8

9.

関連研究 3. SAVi [3] • Slot Attentionを動画に拡張した⼿法 #:) • 時刻t-1のslot表現𝑠!"#(,&) を,現在時刻でのslot attentionの計算の 初期値として⽤いる • CNNエンコーダー,Spatial Broadcastデコーダー,Attentionを⽤い た遷移モデル 9

10.

関連研究 4. STEVE [4] • SLATEを動画に拡張した⼿法 #:) • 時刻t-1のslot表現𝑠!"#(,&) を,現在時刻 でのslot attentionの計算の初期値とし て⽤いる • CNNエンコーダー,Autoregressive Transformerデコーダー+CNNデコー ダー,RNNを⽤いた遷移モデル 10

11.

関連研究 5. SlotFormer [5] • Slot表現を⽤いたTransformerモデルを提案し,幅広い後続タスクに おける性能を評価した⼿法 • 任意の(pretrainedな)object-centricなモデルで得られたslot表現を ⼊⼒としてTransformerを学習させる • Video prediction,VQAタスクにおいて object-centricな表現を⽤いることが 性能向上につながることを確認 11

12.

⼿法 • SAViやSTEVEにあったslot-to-imageデコーダーを拡散モデルに置換 • 事前学習させたVQVAEより特徴量𝑧を求め,Latent Diffusion Model [7]を⽤いる • Text-guided LDMに倣い,slot情報 𝒮 で条件づけを⾏う 𝒄 = CrossAttention 𝑄 𝒄- , 𝐾 𝒮 , 𝑉 𝒮 • 損失関数は,𝒛! = 𝜖! ~𝒩 0, 𝑰 𝛼(! 𝒛 + 1 − 𝛼(! 𝜖! , ℒ = 𝜖! − 𝜖* 𝒛! , 𝑡, 𝒮 + where 12

13.

⼿法 • Slot情報 𝒮 で条件づけを⾏う際,slot表現のorder-invariant性をもた せたい.実装上は,UNetにおいて異なるresolutionで条件付けを⾏う • 動画予測する際は,各時刻でのslot表現を予測するところで任意の既 存⼿法(SAVi, SlotFormerなど)を⽤いる • ↑あくまでslot-to-imageデコーダーをLDMに置き換える効果を検証 しているので,その他の部分は任意のモデルで成⽴ 13

14.

実験 Research Questions 1. 拡散モデルに置き換えてもobject-centricなdisentanglementが学習 されるか 2. 拡散モデルに置き換えることで⽣成の品質が向上するか 3. SlotDiffusionによって学習されたslot表現は後続タスクにおいて有⽤ か ※それぞれの実験設定において,SOTAな既存⼿法を持ってきて,slotto-imageデコーダーをLDMに置き換えている – 静⽌画:Slot AttentionとSLATE – 動画:SAViとSTEVE 14

15.

実験結果 ①:Disentanglement • 全指標においてSlot Attention(Mixture)とSLATE(Transformer) を上回る結果に • 動画でもqualitative resultsからうまくdisentangleできているのが わかる 15

16.

実験結果②-1:Reconstruction • LPIPSではSlot Attention(Mixture)とSLATE(Transformer)を 上回る結果に • 再構成誤差ではSLATEに次いで2番⽬の性能 16

17.

実験結果②-2:Generation • Generation qualityの⾯では,FID・FVDの両⽅で既存⼿法を⼤幅に 上回る性能 17

18.

実験結果③-1:Downstream Tasks (Video Prediction) • PhysionデータセットにおいてVideo PredictionタスクでPredRNN, VQFormer(SlotFormerでslotの代わりにVQVAEのトークンを利⽤), STEVE + SlotFormerと⽐較 • LPIPS,FVDで精度向上を確認 18

19.

実験結果③-2:Downstream Tasks (VQA) • PhysionデータセットにおいてVQAタスクでRPIN,pDEIT-lstm, STEVE + SlotFormerと⽐較 • やや精度向上を確認 19

20.

その他実験結果①:Scalability to Real-World Data • Slot Attentionを計算する際のエンコーダーをViTベースのものに置き 換えたときの性能を⽐較 – DINOSAUR [8]に倣って,事前学習済みのDINO [9]に置き換える • デコーダーをLDMに置き換えるだけでも性能向上がみられる 20

21.

まとめ • 静⽌画と動画において“object-centric learning”x“diffusion model”を 初めて提案した論⽂ • 既存⼿法でslot-to-imageデコーダーでLDMを⽤いることで,⽣成や 後続タスクにおいて性能向上につながることを確認 • 任意のobject-centricモデルと組み合わせることができる 疑問・課題感など • (おそらく)⽐較するにあたって既存⼿法のVQVAE相当部分を事前 学習させていない,fairな⽐較じゃないのでは?(特にLPIPSで⽐較 しているあたり) • デコーダー性能が上がると⽣成が良くなるのはわかるが,後続タスク において性能が上がるのがよくわからない 21

22.

参考⽂献 [1] Locatello F, et al. Object-Centric Learning with Slot Attention. NeurIPS2020. [2] Singh G, et al. Illiterate DALL-E Learns to Compose. ICLR2022. [3] Kipf T, et al. Conditional Object-Centric Learning from Video.ICLR2022. [4] Singh G, et al. Simple Unsupervised Object-Centric Learning for Complex and Naturalistic Videos. NeurIPS2022. [5] Wu Z, et al. SlotFormer: Unsupervised Visual Dynamics Simulation with Object-Centric Models. ICLR2023. [6] Li N, et al. Learning Object-Centric Representations of Multi-Object Scenes from Multiple Views. NeurIPS2020. [7] Rombach R, et al. High-Resolution Image Synthesis with Latent Diffusion Models. CVPR2022. [8] Seitzer M, et al. Bridging the Gap to Real-World Object-Centric Learning. ICLR2023. [9] Caron M, et al. Emerging Properties in Self-Supervised Vision Transformers. CVPR2021. 22

23.

Appendix 1. Decoderの⽐較 23

24.

Appendix 2. Visual Concept Library • SLATEで提案されていた⼿法 • 学習済みのSlot Attentionモデルを⽤いて,データセットについてslot 表現を計算し,K-Means法を使うことでK個のクラスタを作ることが できる.Slot表現におけるクラスタは,それぞれ“concept”(データ セットに登場する個々の物体)とみなすことができる. 24