[DL輪読会]Relational Neural Expectation Maximization: Unsupervised Discovery of Objects and their Interactions

>100 Views

May 11, 18

スライド概要

2018/05/11
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

“Relational Neural Expectation Maximization: DEEP LEARNING JP [DL Papers] Unsupervised Discovery of Objects and Their Interactions (ICLR 2018) ” Hiroshi Sekiguchi, Morikawa Lab http://deeplearning.jp/ 1

2.

書誌情報 • タイトル: “Relational Neural Expectation Maximization: : Unsupervised Discovery of Objects and Their Interactions (ICLR 2018) ” https://arxiv.org/abs/1802.10353 • 著者: Sjoerd van Steenkiste, et.al Swiss AL Lab IDSIA, SUPSI, USI • 概要: – 人間の知覚と同様に、機械が実世界の物体集合の複雑な物理現象を学習しその動きを予 測する能力を獲得 – 知覚データを個別物体にグルーピングすることで複雑な物体の集合を個別物体に区分し 将来の動きを予測 – 個別物体を隠れ確率変数、観測データが動画イメージとして生成モデルを構築 – 教師無しデータでRelational Expectation Maximization法を提案 – 例:バウンシングボール • 選定理由: – 視覚が複数の物体をグルーピング(クラスタリング)を通して分離するという点 2

3.

適用例 • ビデオクリップ:バウンシングボール – https://sites.google.com/view/r-nem-gifs 3

4.

アジェンダ • • • • 背景 これまでの手法 Neural Expectation Maximizationの手法 Relational Expectation Maximization – 手法 – 実験 • まとめ 4

5.

背景 • 人間は日々の活動で、 – 行動後の結果を予測 – 隠れて見えない物体の状態を予測 することができる。⇒ 人間は常識的物理推論で因果関係を把握できるから。 • 常識的物理推論とは:以下を遂行する能力。 – – – – 複数物体の世界から個別の物体を発見 個々の物体を表現し 複数間の物体の関係性を記述し、 複数の物体のダイナミクスと相互作用の関係を推測する • 将来のエージェント: – 実世界の因果関係を理解するために、人間が持つ常識物理推論は必要不可欠な要素 • 常識物理推論の例: – 弾性衝突に準じたバウンシングボールの動き 5

6.

これまで方法 • 方法1:シンボリックな物理エンジンを作成しそのパラメータを推測 ⇒ 本プレゼンの対象外 • 方法2:システム状態を推測するNeural Network(NN)を構築 – 方法2A: 物理シュミレータで教師データを作成、NNのパラメータを教師有り学習 ⇒ 教師データの作成が難題 ⇒ 本プレゼンの対象外 – 方法2B: 教師無し学習でNNを学習 • Recurrent Ladder Tagger: (RTAGGER) ⇒ 本プレゼンの対象外 • Neural Expectation Maximization (N-EM)、 派生(RNN-EM) • Relational Neural Expectation Maximization (R-NEM) 6

7.

Neural Expectation Maximization方法(N-EM/RNN-EM) • 課題:複数のバウンシングボールの動きをある時間分の連続イメージ画像 で学習して、その後のバウンシングボールの動きを推定する – イメージ画像: – 物体k (k=1,..,K)の物体パラメータ: – 物体パラメータ が与えられた時に、ピクセルiで物体kが占有する確率 :ピクセル毎に独立だが、ピクセル毎に確率値(分布)は異なる – Non-Linear Neural Network (φで微分可能): – 隠れ確率変数: ピクセルiにおける物体kの真実の占有状態: ピクセルiが物体kに占有された場合に それ以外0⇒ – が与えられた時のピクセルiの値xiの条件付き確率 を最大 にする を求める。残念ながら解析的な解はないが逐次近似解あり 7

8.

Neural Expectation Maximization方法 (N-EM/RNN-EM) • しかし の周辺化があるので を で最大化する方が楽。 • さらに、Expectation Maximization法から の最大化と同等! • これは、 Expectation Maximization法の二段の逐次最適化Step、 – Expectation-step: θを固定してピクセルiの物体kへの帰属分布を更新: – Maximization-step: を固定して, θを更新: で、 とθの最適値を求める。 • Non-Linear Neural Network する の係数は下記Lossの最小化からBPTT/Adamsで事前に学習 tn tn+1 時間Step RNNは時 間Stepに 渡ってθの 最適化を もたらす 8

9.

Relational Neural Expectation Maximization方法 • N-EM、RNN-EMの弱点: – 異なる物体パラメータ 間の関係性や相互作用の表現が欠落 • 物体パラメータ二者間(θk、θi、k≠i)関係性・相互作用関数を設定: :連結、 – – – – 多層パーセプトロン :物体iのダイナミクスに焦点を当てた表現 :シェアembedding: ペーア の相互作用 :物体iの物体kに対する影響度 :物体iと物体kの相互作用が起こることを事前にAttention • 時間step tの と直前stepの との関係は以下の関係 9

10.

Relational Neural Expectation Maximization方法 • Non-Linear Neural Network の係数と ら事前に学習。係数をfixしてから予測 の係数を、Lossの最小化か オリジナ ル入力x 再構成x= 各物体ψk 毎の確率 ノイズ付 加入力x 10

11.

Relational Neural Expectation Maximization(R-NEM)実験 • 実験:バウンシングボール – – – – – – 入力シークエンス(sq):イメージ動画、64 x64 binary image x 30 time step ボールのタイプは二つ(A,B):重さA:B=1:6、半径1:1.25 ボールの初期位置と初速:ランダム ボールの衝突:ボール間、ボールー壁間、いずれも完全弾性衝突 学習データ50000sq、Validationデータ10000sq、テストデータ10000sq Network fφの形状 -物体パラメータ間 の形状 11

12.

Relational Neural Expectation Maximization(R-NEM)実験 • 4ボールで学習済のNNに、4ボールでテスト オリジナ ル入力x 再構成x= 各物体ψk 毎の確率 ノイズ付 加入力x 12

13.

Relational Neural Expectation Maximization(R-NEM)実験 • 左:学習時ボールの数4個、Test時4個の場合 Total Loss: Binomial Cross Entropy, Relational BCE(相互作用発生物体間)⇒ R-NEMがBest • 中央:学習時ボールの数4個、Test時に6-8個に増加した場合 ⇒ R-NEMがBest • 右:Compositionality Measurement:ψが単一物体を表現する割合⇒80%程度と良好 ARI(Adjusted Rand Index) : ピクセル毎に含まれる物体毎の比率 13

14.

Relational Neural Expectation Maximization(R-NEM)実験 • 課題:イメージ画面の特定位置に覆いが有ってボールの動きが見えなく とも、覆いが無いのと同じ動きの推測が可能。 • 左から5時間step:学習、右から10時間stepが推測 R-NEM 再構成 14

15.

まとめ • シーンから物体に関する情報を見つけて表現する能力が、常識物理推測 に必要不可欠な要素である。 • 特に物体間の関係性や相互作用を記述する能力は、常識物理推測を向上 させることが分かった。 • 物体間の関係性や相互作用を記述した機能を付加したRelational Neural Expectation Maximizationが、バウンシングボールで最高性能を達成した。 15

16.

END 16