1.4K Views
September 08, 23
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] Neural Systematic Binder 2023.09.08 Akihiro Nakano, D1, Matsuo Lab http://deeplearning.jp/ 1
書誌情報 • “Neural Systematic Binder” • 著者:Gautam Singh, Yeongbin Kim, Sungjin Ahn – Rutgers⼤学+KAIST – Sungjin Ahn先⽣はここ数年Object-centric learningやDreamerの研究に取り 組んでいる • ICLR2023にて採択(ポスター) – オンライン参加だったのか,現地にポスターはなかった 2
概要 • 物体中⼼学習において,位置(Spatial) と特徴(Factor)の組み合わせとして, 物体表現を学習するアルゴリズムを提案 • 決定論的なFactorへのDisentanglement • Factorを1次元ではなく,blockとして 複数次元で表すことでより豊かな表現が 可能に 3
背景 • Object-centric Learning(物体中⼼学習) – 複数の物体から構成されるシーンを,単⼀の潜在表現ではなく,物体ごとの潜 在表現に分割して表すように学習する⼿法 – 元々はVAEのDisentanglementに関する研究の⼀つだったが,最近では Transformerベースのモデルも登場 [1] – シーンを物体にdisentangleし,さらに物体表現がfactorごとにdisentangleさ れて学習されることで,未知物体・シーンへの汎化性能が向上 – 静⽌画 → 動画への拡張,物体間の相互作⽤のモデリング,視点変化の追加 などが研究されてきている [2,3] – シーンを物体表現を⽤いて表した⽅が後続タスクにおいても有⽤であることが 近年⽰されている • VQAタスク,planningなど [4,5] 4
問題意識 Q, 未知物体・シーンにうまく汎化するには? • 物体を細かいfactorの組み合わせとして捉え,それらを組み合わせて 推論したい • Factorをどう学習させるかについて様々なアプローチが取られている • なるべく仮定を少なく実装したい Factorizationの 種類 静止画 動画 Explicit AIR[12]など SQAIR[13], STOVE[14]など (What, Where, Presenceなど) (What, Where, Presence, Velocityなど) 本研究 STEDIE[15], NCS[16]など Implicit 5
関連研究 1. IODINE [6] • シーンが複数の物体で構成され ているという仮定から,画像を 「分離された表現で解釈可能な オブジェクト」にセグメンテー ション可能であることを⽰した 論⽂ • 反復変分推論を⽤いて,画像中 の物体ごとの潜在表現を獲得す る⼿法を提案 6
関連研究 2. Slot Attention [7] • 物体中⼼である潜在表現を獲得する⼿法の⼀つ • CNNエンコーダの出⼒をque,ガウス分布によって初期化されたslot 表現をkey・valueとして,画像のどの部分をどのslotに割り当てるか を競い合わせる • 動画予測など様々な拡張が提案されている 7
関連研究 3. SLATE [1] • Slot Attentionを拡張した⼿法の⼀つ • dVAE [8]と組み合わせて,離散化されたvisual tokenからslot表現を 獲得する⼿法 • 未知物体・物体数・シーンに対して⼤幅に汎化性能が向上 8
⼿法 1. Spatial Binding – Slot Attentionと同様 – CNNによって 𝐿 個のエンコーダ 出⼒𝐸 ∈ ℝ!×# を得る – Slot表現 𝑆 ∈ ℝ$×%! をquery,エン コーダ出⼒ 𝐸 ∈ ℝ!×# をkey, value にして𝑁 個のreadoutを獲得 – 𝑆, 𝐸間のattentionは, 𝐴 = softmax ! 𝑞(𝑆) . 𝑘(𝐸)" 𝑀# – Readoutは, 𝑈 = 𝐴 . 𝑣(𝐸) 9
⼿法 2. Factor Binding – – Readoutを𝑀 分割(=block) それぞれに対し,GRUを適⽤して 表現のrefinementを⾏う 𝑠$,& = GRU'! (𝑠$,& , 𝑢$,& ) – 各blockのGRUは別のパラメータ • – パラメータ共有でも可能 各iterationで,𝑠&,( に⼀番類似 するconcept memory 𝐶( ∈ ℝ)×* を選択(=slot) 𝑠$,& = softmax ( 𝑠$,& . 𝐶& " 𝑑 . 𝐶& 10
⼿法 3. Block-Coupling – 同じblock番号が同じconceptに対応づけるため,block番号をpositional embeddingして1層のTransformerに通す 𝑠$,& ̅ = 𝑠$,& + p)*+,& ⟹ 𝑠̃$,. , ⋯ , 𝑠̃$,/ = BlockCoupler(𝑠$,. ̅ , ⋯ , 𝑠$,/ ̅ ) – 「これによりblock間の相互作⽤もモデルできる」 →時系列への拡張を視野に⼊れている? 4. Autoregressive Decoding – これまで説明したアーキテクチャとは別にdVAEを学習 → tokens 𝑧+, ⋯ , 𝑧! – 𝑧+, ⋯ , 𝑧! をslot表現 𝑆 = 𝑠̃&,( に条件づけ,Transformerを⽤いて autoregressiveにトークン𝑜+, ⋯ , 𝑜! を予測し,デコードする 𝑒0 = 𝐷𝑖𝑐𝑡 𝑧0 + p1+-23 0 ⟹ 𝑜0 = TransformerDecoder(𝑒. , ⋯ , 𝑒04. ; 𝑆) – 全体のアーキテクチャはdVAEの損失関数+∑!,-+ CrossEntropy(𝑧, , 𝑜, ) 11
実験結果 • 使⽤データセット [9,10] – CLEVR-Easy – CLEVR-Hard – CLEVR-Tex • ベースラインモデル – IODINE [6] – Slot Attention [7] – SLATE [1] CLEVR-Easy Type of CLEVR Easy Hard Tex CLEVR-Tex CLEVR-Hard Color Shape Position Size Material ✅ ✅ ✅ ❌ ❌ ✅ ✅ ✅ ✅ ✅ ✅ ✅ ✅ (8 colors) ✅ (137 colors) ✅ Table: Factor of Variations (obj + bg) 12
実験結果 1. Disentanglementの評価 • 定量的評価 – 評価指標 • FG-ARI(Foreground Adjusted Rand Index) 前景について,予測マスクと正解マスク間のARIを計算 • DCI(Disentanglement, Completeness, Informativeness)[11] "#$%& Slot表現から各特徴を予測するprobe関数 𝑔! を学習させ, そこからfeature importance matrix 𝑅 = 𝑅!,( ∈ ℝ)×+ を計算 . ) "#$%& 𝐷( = 1 − 𝐻) 𝑅:,( , 𝐶! = 1 − 𝐻+ 𝑅!,∶ , 𝐼 = ∑! 𝑎𝑐𝑐(𝑔! ) Block表現については 𝑅 をblockごとに⾜し合わせて評価 – 全てのデータセット(特に⼀番難しいCLEVR-Tex)に おいて⽐較⼿法を上回る 13
実験結果 1. Disentanglementの評価 • 定量的評価 – DCI計算に⽤いるfeature importance matrix 𝑅 を可視化 – 他⼿法と⽐べ,よりスパース – 決定論的な⼿法であるSlot AttentionやSLATEはより“active”な次元が多い → Completeness-scoreが低い 14
実験結果 1. Disentanglementの評価 • 定性的評価 – データセットごとにblock表現のk-meansを可視化 – データセットに対応した特徴(⾊,形,位置,テクスチャ,etc.)が disentangleされてblock表現として学習されていることがわかる 15
実験結果 2. Compositionalityの評価 • 定性的評価(のみ) – blockを⼀つ選択し,画像間で表現を交換(swap)する – その特徴のみが綺麗に交換されていることがわかる CLEVR-Hard CLEVR-Easy 16
まとめ • Slot表現をさらに明⽰的にblockに分けることで意味のあるblock表現 が獲得されることを⽰した • Concept memoryを導⼊することでボトルネック構造を作ることで, disentanglementを促している 疑問・課題感など • 結局slot数・block数はハイパラのまま • Block-couplingがどこに効いているのかがあまりよく分からない→時 系列・物体間の相互作⽤のモデリングのため? • 正解マスクがないとslotのうち物体に対応しているものを⾒つけるの が困難 17
参考⽂献 [1] Singh G, et al. Illiterate DALL-E Learns to Compose. ICLR2022. [2] Singh G, et al. Simple Unsupervised Object-Centric Learning for Complex and Naturalistic Videos. NeurIPS2022. [3] Li N, et al. Learning Object-Centric Representations of Multi-Object Scenes from Multiple Views. NeurIPS2020. [4] Wu Z, et al. SlotFormer: Unsupervised Visual Dynamics Simulation with Object-Centric Models. ICLR2023. [5] Veerapaneni R, et al. Entity Abstraction in Visual Model-Based Reinforcement Learning. CoRL2020. [6] Greff K, et al. Multi-Object Representation Learning with Iterative Variational Inference. ICML2019. [7] Locatello F, et al. Object-Centric Learning with Slot Attention. NeurIPS2020. [8] Rolfe JT. Discrete Variational Autoencoders. ICLR2017. [9] Johnson J, et al. CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning. CVPR2017. [10] Karazija L, et al. CLEVRTex: A Texture-Rich Benchmark for Unsupervised Multi-Object Segmentation. NeurIPS2021 Datasets and Benchmarks Track. 18
参考⽂献 [11] Eastwood C and Williams C. A Framework for the Quantitative Evaluation of Disentangled Representations. ICLR2018. [12] Eslami SM, et al. Attend, Infer, Repeat: Fast Scene Understanding with Generative Models. NIPS2016. [13] Kosiorek A, et al. Sequential Attend, Infer, Repeat: Generative Modelling of Moving Objects. NeurIPS2018. [14] Kossen J, et al. Structured Object-Aware Physics Prediction for Video Modeling and Planning. ICLR2020. [15] Nakano A, et al. Interaction-Based Disentanglement of Entities for Object-Centric World Models. ICLR2023. [16] Chang M, et al. Neural Constraint Satisfaction: Hierarchical Abstraction for Combinatorial Generalization in Object Rearrangement. ICLR2023. 19
Appendix 1. Ablations 20