387 Views
July 17, 20
スライド概要
2020/07/17
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Object-Centric Learning with Slot Attention Present Square Co.,Ltd. 小林 範久 http://deeplearning.jp/ 1
書誌情報 タイトル: 著者: Object-Centric Learning with Slot Attention (https://arxiv.org/abs/2006.15055) Francesco Locatello, Dirk Weissenborn, Thomas Unterthiner, Aravindh Mahendran, Georg Heigold, Jakob Uszkoreit, Alexey Dosovitskiy, and Thomas Kipf (Google Research, Brain Team、Dept. of Computer Science, ETH Zurich、MaxPlanck Institute for Intelligent Systems) 概要: • 「物体中心表現」をもつ潜在表現を獲得し、物体認識のために利用する手法。 • 低レベルの知覚入力から物体中心の抽象表現を学習する「Slot-Attention」を提案。 • 教師なしの物体検出と教師ありの物体ラベル予測では従来の手法と比べ、メモリ消費と計算の 面でより効率的で高精度。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2
アジェンダ 1. 導入 2. 関連研究 3. 手法 4. 実験結果 5. まとめ Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3
1. 導入 • 複雑なシーンの物体中心の表現を学習することは、低レベルの知覚特徴から効率的な抽象推論を可能にするための 有望なステップである。 • しかし、ほとんどの深層学習アプローチは、シーンの構成特性を捉えていない分散表現を学習している。 物体中心表現を学習させることで、より正確でかつ汎用性の高い物体認知モデルを構築したい。 物体中心表現は、「視覚的推論」、「構造化されたモデリング」、「マルチエージェントモデリング」、「相互作用する物理シ ステムのシミュレーション」など、様々な応用分野で機械学習のサンプル効率と一般化を向上させる可能性がある。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 4
1. 導入 本論文の貢献 ① 知覚的表現(CNNの出力など)と集合として構造化された表現との間のインターフェイスとして、シンプルなアーキテクチャ・コンポーネ ントであるSlot-Attentionモジュールを導入。 ② 教師なし物体検出にSlot-Attentionベースのアーキテクチャを適用し、よりメモリ効率が高く、訓練時間が大幅に短縮したうえで、関 連する最先端のアプローチと同等以上の性能。 ③ オブジェクトのセグメンテーションを教師なしで学習したうえで、教師付き物体プロパティ予測にSlot-Attentionモジュールが使用できる ことを実証。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. ※本論文におけるプロパティ予測とは、 オブジェクトの(位置、形状、素材、色、大きさ)を予測することを意味する。 5
2. 関連研究 ①Object discovery IODINE(Multi-Object Representation Learning with Iterative Variational Inference) • シーンが複数の実体で構成されているという仮定から、画像を「分離され た表現で解釈可能なオブジェクト」にセグメンテーションが可能であることを 示した論文。 • 潜在物体表現を利用することで、教師なし学習でオクルージョンを塗り潰 すように学習し、より多くのオブジェクトを持つシーンや、新しい特徴の組み 合わせを持つ見たことがないオブジェクトに外挿していく。 • 反復的変分推論を使用して、画像内のオブジェクトを記述する潜在変 数のセットを推論する。 • 物体ごとの相互関係はモデリングできない。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 6
2. 関連研究 ①Object discovery MONet(Unsupervised Scene Decomposition and Representation) • 画像の領域の周りのAttentionマスクと再構成を提供するために教 師なしで、再帰的Attentionネットワークと一緒にVAEをEnd-toEndで学習。 • マスクの生成→VAEでマスク領域を再構成 という処理を再帰的に 繰り返し行う。 • マスクの生成の際にCNNの計算をマスク数分だけ行うため、計算効 率が悪い 。 • 複数のエンコード・デコードステップが必要(GENESISも同様。) Copyright (C) Present Square Co., Ltd. All Rights Reserved. 7
2. 関連研究 ②Neural networks for sets DSPN(Deep Set Prediction Network) • 集合の符号化、生成、集合から集合へのマッピングの探索。 • ほとんどの先行研究は、要素ごとに出力セットの順序表現を学習している ため、テスト時に異なるセットのカーディナリティ(要素の数)に一般化でき なかった。 • DSPNは、各例に対して内部勾配降下ループを実行することで permutation symmetry(順列対称性)を尊重するが、収束のため に多くのステップを必要とし、いくつかの損失ハイパーパラメータを慎重に調 整する必要がある。 ※DETR と TSPN は、条件付き集合生成に Transformer を使用することを提案している。 DETR は出力集合のpermutation symmetryを考慮していない。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 出典:https://postersession.ai/poster/deep-set-prediction-networks/ 8
2. 関連研究 ②Neural networks for sets <参考>集合予測における不連続性と責任問題 • 正方形(図の左上)を90度回転させると(図の右上)、集合内の 要素を単純に並べ替えたものになる。これらは同じ集合なので、同じ潜 在表現にエンコードし、同じリスト表現にデコードする。つまり、各出力は 回転後も同じ位置のポイントを生成する責任がある。 • しかし、これは、90度回転中のある時点(図の下のパス)で、出力の 割り当て方法に不連続なジャンプ(図の赤い矢印)が存在する必要 があることも意味する。 • ニューラルネットワークは不連続なジャンプを考慮せず関数のみをモデル化するため、このジャンプはニューラルネットワークの学習にとって 課題となる。 • 多角形の頂点の数(設定された要素の数)を増やすと、すべての出力が一度に不連続に変化しなければならない状況の頻度が増 え、モデル化が非常に難しくなります。このように出力するべきものが定まっているのにもかかわらず、入力の順序が定まっていないと多くの 問題が発生する。 この問題に対処するためには、入力の順序と出力の順序を独立な関係なものにするため、入力をpermutation invarianceにし、 ②集合を入力した時に、各要素に1対1対応する集合を出力する permutation equivarianceなモデルにすることが必要。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 出典:https://postersession.ai/poster/deep-set-prediction-networks/ 9
3. 手法 モデル構造 ① CNNによって画像特徴量を抽出する(ImageFeatures) ② Positional embeddingで位置情報をImageFeaturesに付与する (ImageFeatures₊P) ③ Slot-AttentionでInput(k, v)とSlot(q)からAttentionスコアを取得する。 ④ T回反復してSlotを学習させ、Inputのなかの任意のオブジェクトと相同関係を構 築する。 ※③と④がSlot-Attention module。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 10
3. 手法 3.1 Slot Attention Module • • • Slot-AttentionモジュールはCNNから抽出されたN個の入力特徴ベクトルのセット=Inputを、K個の出力ベクトルのセット=Slotを 用いて物体中心表現を共通次元Dにマッピングする。 共有された学習可能なパラメータµ∈𝑅𝐷𝑠𝑙𝑜𝑡𝑠 を持つガウス分布から初期値をサンプリングすることでスロットを初期化。 InputをKey、SlotをQueryとしてAttentionスコアをとり、その加重平均を取ることでマッピング。 K=4のSlot Copyright (C) Present Square Co., Ltd. All Rights Reserved. 11
3. 手法 3.1 Slot Attention Module 1slotで1オブジェクトを表現するように 特徴量を変化させていく。 • • • Copyright (C) Present Square Co., Ltd. All Rights Reserved. 各反復では、SlotはソフトマックスベースのAttentionメカニズムを介して入 力の一部を説明するために競い合い、特徴量を変化させる。 具体的にはInputとSlotによって得ることができたAttentionスコアを使って 再帰的にSlotの表現を更新する。 入力値を割り当てられたSlotに集約するために、加重平均を使用。 12
3. 手法 3.1 Slot Attention Module • 更にGRUの出力をReLU活性化と残差接続を持 つ多層パーセプトロン(MLP)で変換することで、性 能を向上させる。 • モジュールの入力とSlotの特徴の両方に LayerNormを適用している。これは学習の収束 を早めるために利用されている。 Slot Attention の特性 (1)入力に関するpermutation invariance(入力の順番を変えても出力が同じになる)。 (2)Slotの順序に関するpermutation equivariance(集合を入力して各要素に1対1対応する集合を出力する)。 ⇒これらの特性により、Slotは共通の表現形式を学習し、各Slotが入力内の任意の物体にバインドできる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 13
3. 手法 3.2 Object Discovery • Slot-Attentionは入力表現をベクトルの集合に変換するため、 教師なしオブジェクト発見のためのオートエンコーダーの一部として 使用することができる。 • 各Slotでは画像の領域または一部のみをエンコードしており、それ らをまとめてデコードすることで、元の画像を再構築する形で画像 空間に戻すことができる。 Encoder • • エンコーダは(i)Positional embedding されたCNNと、(ii)Slot-Attentionモジュールの、2つのコンポーネントで構成。 Slot-Attentionの出力はSlotの集合であり、シーンのグループ化(オブジェクトなど)を表している。 Decoder • • • • 各Slotは、2Dグリッドにブロードキャストされ、位置の埋め込みが追加される形で個別にデコードされる。 各グリッドはCNNを用いてデコードされ、W × H × 4のサイズの出力を生成する。 出力チャネルは、RGBカラーチャネルとアルファマスク(正規化されていない)をエンコード。 Softmaxを用いてSlot間のアルファマスクを正規化し、それらをmixture weightとして使用して1つのRGB画像に結合。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 14
3. 手法 3.3 Set Prediction • 入力画像と予測対象の集合が与えられ、それぞれがシーン内の 物体を記述している。 • 課題は、ターゲットの順序が任意であるため、K個の要素のセッ トに対してK!個の等価表現が存在すること。(これはDETR などが抱えていた問題と同様。) • そのため、スロットは訓練中にその内容を入れ替えることで、入 力順序と出力順序の独立性を確立する。 ⇒これによりSlot Attentionは、入力シーンの分散表現を、各オブジェクト別に分類できる集合表現に変えるために使用できる。 Encoder • Object Discoveryと同じアーキテクチャを使用。 Classifier • • 各Slotに対して、Slot間で共有されるパラメーターを使用してMLPを適用する。 予測とラベルの順序は任意であるため、DETR同様ハンガリアンアルゴリズムを使用してそれらを照合している。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 15
4. 実験 比較モデルとデータセット 2つのオブジェクト中心のタスク (教師なしと教師あり)でSlot Attentionモジュールを評価。 比較モデル タスク (教師なし) 物体検出 IODINE/MONet SlotMLP (教師あり) 集合予測 IODINE/MONet SlotMLP テストデータ 未見シーンで構成された ホールドアウトテストデータ データセット CLEVR(マスク付き) Multi-dSprites Tetrominoes CLEVR(マスク付き) ※ディープセット予測ネットワーク(DSPN)は、Slot-Attention以外では順列対称性を尊重する唯一の集合予測モデル ※単純なMLPベースのベースライン(Slot MLP)は、Slot AttentionをMLPに置き換え、 CNNの特徴マップ(サイズを変更して平坦化したもの)からSlot表現にマップするモデル。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 16
4. 実験 4.1 Object Discovery 定量評価 • • • 表から、一般的に2つの最新のベースラインと比較し て良好な結果を示している。IODINEと比較して、 モデルはメモリ消費量と実行時間の両方の点で効 率的。 グラフでは、反復回数を増した場合の方が精度が上がることが示されている。 また訓練時からKの値を増やして、よりシーン内に多くのオブジェクトがある画像につい てテストされているが、それでもセグメンテーション性能は低下しないことが確認された。 (後のSet Predictionは、Kの値を増やすと性能が低下。) 教師なしシーン分解の先行アプローチと比較して、オブジェクトのセグメンテーションの質、学習速度、メモリ効率の両面で良い。 またテスト時には、Slot Attentionをデコーダなしで、未経験シーンからオブジェクト中心の表現を得ることができる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 17
4. 実験 4.1 Object Discovery 定性評価 • セグメンテーションの経過を表した図。 • オブジェクトよりもSlotの数が多い場合、 モデルはSlotを空に保つ(背景のみを キャプチャする)ように学習。 • 単一のSlotだけに背景をキャプチャする のではなく、すべてのSlotに一様な背景 を広げていることがわかる。これは、物体 の分離や再構成の品質を損なうことのな いAttentionメカニズムの成果物である 可能性が高い。 • 1回目の反復ではまだ複数のオブジェクトの一部を1つのSlotにマッピングしているが、2回目の反復ですでに個々のオブジェクトの抽出に 特化することを学習している。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 18
4. 実験 4.2 Set Prediction 定量評価 (左図)全体的に、DSPNのベースラインと同等以上の性能を示している。 (中央図)反復回数を増やすと、一般的に性能が向上する。 (右図)Slot-Attentionは、Slot数を変更することで、テスト時により多くのオブジェクトを扱うことができる。 CLEVR6(K=6)でモデルを学習し、6以上のオブジェクト数でテストを行うと、APが緩やかに低下した。 この集合予測タスクを解くためには、各Slotが異なるオブジェクトに注目する必要があるという考察がなされている。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 19
4. 実験 4.2 Set Prediction 定性評価 • • 2つのCLEVR画像について、各スロットのAttentionマップを可視化。 セグメンテーションマスクを使用せずに、対象物のプロパティを予測するためだけに訓練されているにもかかわらず、自然に対象物をセグメ ント化していることもわかる。 セット構造化されたプロパティ予測タスクのためにオブジェクトの表現を学習し、実装と調整が非常に容易であると同時に、先行する最先端 のアプローチに匹敵する結果を達成したと言える。 Attentionマスクはシーンを自然にセグメンテーションするため、モデルの予測結果をデバッグや解釈する際に有用。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 20
5. まとめ まとめ • • • 「物体中心表現」をもつ潜在表現を獲得し、物体認識のために利用する手法。 低レベルの知覚入力から物体中心の抽象表現を学習する「Slot-Attention」を提案。 教師なしの物体検出と教師ありの物体ラベル予測では従来の手法と比べ、メモリ消費と計算の面でより効率的で、 高い精度。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 21
Appendix 参考文献 • [16] Klaus Greff, Raphaël Lopez Kaufman, Rishabh Kabra, Nick Watters, Christopher Burgess, Daniel Zoran, Loic Matthey, Matthew Botvinick, and Alexander Lerchner. Multi-object representation learning with iterative variational inference. In International Conference on Machine Learning, pages 2424–2433, 2019. • [27] Martin Engelcke, Adam R Kosiorek, Oiwi Parker Jones, and Ingmar Posner. GENESIS: Generative scene inference and sampling with object-centric latent representations. arXiv preprint arXiv:1907.13052, 2019. • [31] Yan Zhang, Jonathon Hare, and Adam Prugel-Bennett. Deep set prediction networks. In Advances in Neural Information Processing Systems, pages 3207–3217, 2019. • [59] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. End-to-end object detection with transformers. arXiv preprint arXiv:2005.12872, 2020. • [61] Adam R Kosiorek, Hyunjik Kim, and Danilo J Rezende. Conditional set generation with transformers. ICML 2020 Object-Oriented Learning Workshop, https://github.com/oolworkshop/oolworkshop. github.io/blob /master/pdf/OOL_31.pdf, 2020. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 22