[DL輪読会]Visual Grounding of Learned Physical Models

>100 Views

September 16, 20

スライド概要

2020/09/11
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

Visual Grounding of Learned Physical Models Ryo Okada 岡田領 1

2.

書誌情報 Visual Grounding of Learned Physical Models ● ICML 2020 ● Yunzhu Li, Toru Lin, Kexin Yi, Daniel Bear, Daniel Yamins, Jiajun Wu, Josh Tenenbaum, Antonio Torralba ▸ MIT CSAIL ▸ Harvard University ▸ Wu Tsai Neurosciences Institute and Department of Psychology, Stanford University ▸ Department of Computer Science, Stanford University ▸ MIT BCS, CBMM, CSAIL 2

3.

概要 ● ● 人間は物体同士の干渉を視覚的に観察することで ▸ 物体の領域の違いを区別できる ▸ 物体の性質を推論できる ▸ 物体の動きを予測できる 本研究 ▸ 物理性質を推論し,視覚的/動的事前知識から物体の将来予測を行うモデルの提案 ▸ Visually Grounded Physics Learner (VGPL) 3

4.

関連研究 粒子による物体表現 - 未知物体への適応 - 視覚情報との紐付 け方 4

5.

関連研究 物理シミュレータの微分 •前提条件を強く置く必要性 •時間がかかる •局所最適解に陥りやすい •視覚情報は考慮されないことが多い 5

6.

提案手法 6

7.

定式化 7

8.

Visual Prior 物理エンジンから取得した 粒子状態(ground truth) で訓練 8

9.

Dynamic Prior ● Graph NNとSpatial Message Passingを使って粒子状態を embeddingして入力(XとPをconcatして入力) ● Dynamic Particle Interaction Network (DPI Net) を使用 ▸ message passingで得られるembeddingをもとに動的情 報を更新 ▸ モデルは剛体かどうか(Q)によって分けて扱う 9

10.

Dynamic Guided Inference Graph NNと空間と時間的情報を集約する (spatiotemporal message passing)で embedding P, Q, Xを推定するそれぞれのネットワークで 利用 10

11.

実験 ● 評価内容 ▸ 剛体推定結果 ▸ パラメータ推定結果 ▸ 位置調整結果 ▸ 上記3つの結果を利用した物体の予測結果 FluidCube MassRope RigidFall 11

12.

定量評価(剛体推定) ● 入力長が10の時Mass, Rope, Fluidでほぼ1 ● Cubeの結果は悪い(液体と同じ方向に移動するため識別しづらい) 12

13.

定性評価(Position Refinement) ● より粒子が統一的に 13

14.

定量評価(Position Refinement) ● いずれも改善 14

15.

物体性質の推定結果 ● 提案手法が最も良い結果 ● w/o Rigidnessとの比較から剛体性が結果を向上させていることも確認できる 15

16.

定量評価(Future Prediction)とAblation Study ● Ground TruthとのMSE ● 提案モデルが一番良い(特にタイムスパンが長くなったとき) 16

17.

定性評価(Future Prediction) ● 剛性を欠くと剛体が崩れていく ● 提案手法が良い結果に見える 17

18.

まとめ ● 視覚情報から物体の性質を推論して,物体予測に用いるモデル ● Visually Grounded Physics Learner (VGPL) を提案 ▸ 粒子表現を使用して剛体や変形可能物体,液体などの物質に適用 ▸ 物体予測の正確性を実験にて確認 18