【拡散モデル勉強会】diffusion policyとそのnavigation応用

3.2K Views

April 23, 24

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Diffusion Policy と Navigationへの応⽤ Koya Sakamoto, Ishii Lab, Kyoto University http://deeplearning.jp/

2.

発表内容 以下3つの論⽂内容を⼤雑把に話します. • Diffusion Policy: Visuomotor Policy Learning via Action Diffusion, Cheng Chi, Zhenjia Xu, Siyuan Feng, Eric Cousineau, Yilun Du, Benjamin Burchfiel, Russ Tedrake , Shuran Song, RSS 2023 • ViNT: A Foundation Model for Visual Navigation, Dhruv Shah, Ajay Sridhar, Nitish Dashora, Kyle Stachowicz, Kevin Black, Noriaki Hirose, Sergey Levine, CoRL 2023 • NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration, Ajay Sridhar, Dhruv Shah, Catherine Glossop, Sergey Levine, CoRL Workshop 2023 2

3.

Diffusion Policy: Visuomotor Policy Learning via Action Diffusion 3

5.

Navigationへの応⽤ 5

6.

Navigation Tasks (主に) 未知環境において, ある地点からGoal地点まで移動するタスク Goal情報によって様々なタスクが提案されている • Image goal navigation: goal地点のimageを与えて, その地点を探す • Object goal navigation: object categoryを与えて, そのobjectを探す • Point goal navigation: 座標をgoal情報として与えて、その地点に向かう … 6

7.

Navigationへの応⽤⽅法 DiffusionをNavigationに応⽤した研究 • ViNT: A Foundation Model for Visual Navigation – Image to image generation – 現在のobservationから, 次の時間stepでのobservationをdiffusionで⽣成(推定) – 推定された地点に進むべきかtransformer-basedなモデルで判定 • NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration – Diffusion policy: actionを予測 どちらもimage goal navigationのタスク設定でtrain. 7

8.

ViNT: A Foundation Model for Visual Navigation 8

9.

ViNT概要 Navigationの基盤モデルを提案 様々なロボットのnavigationデータで学習 複数のnavigation tasksに少量のfine-tuningだけで適応可能 9

10.

Model Architecture Transformer-based なモデル. 入力: 直近6ステップの観測とgoal image 出力: goalまでの推定距離, action系列 (waypoints) 複数の経路から経路を 選択するのに利用 赤色: samplingされたstart地点, 緑色: samplingされたgoal地点, 青色: 学習データ軌道 経路を出力 10

11.

Model Architecture Transformer-based なモデル. 入力: 直近6ステップの観測とgoal image 出力: goalまでの推定距離, action系列(waypoints) 少量のfine-tuningで, 別のmodalityをGoal tokenにすることも可能 11

12.

Long Horizonのための⼯夫 1. Diffusionによって複数のsubgoal画像を出⼒ 2. 各subgoalsについてViNTで経路と必要timestepを推定 3. Heuristicにコストを計算 4. ⼀番コストが⼩さい経路を選択. 現在の観測から数step後の将来の観測を予測 12

13.

結果 1 Heuristicを考慮して, 未知の環境を効率的に探索できている 13

14.

結果 2: A Single Policy to Drive Any Robot 異なるロボットでも有効 14

15.

結果 3: Generalization to Downstream Tasks 少量のfine-tuningで他のタスクにも応⽤可能 道路の⾞線に従うといったルールも学習可能 15

16.

結果 4: Emergent Behavior Implicitにaffordanceを学習 • ⼈を避ける (social navigation skills獲得) • 通路の中央を⾛る (following hallway) 16

17.

NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration 17

18.

NoMaD概要 Navigationの基盤モデルの⼿法を提案 Diffusion policyを利⽤ - 複雑な⾏動分布を表現 - 軽量のために, 実機に搭載可能 Goal-maskingによって, task agnostic (単にブラブラ探索させる?)な能 ⼒も獲得 18

19.

Model Architecture 大まかなモデル構造はViNTと同様. 異なる点は以下の2つ • Goal Masking Goal情報が与えられなかった際のpolicyを学習するため • Diffusion Policy 行動の複雑な分布をdiffusionを用いて表現 19

20.

Loss Diffusion Policyのための項 Goal地点への距離推定 20

21.

結果 ViNTと同程度のgoal-conditionedな際のnavigationスキルの他に, goal情報を与えない場合でのnavigationのスキルも獲得. 21

22.

まとめ Diffusion policyによって, ⾏動の多峰的な分布を表現可能に. robotのmanipulationタスクで⾼精度 Manipulation以外にも, navigationでもdiffusionが活⽤されている. - image to imageで将来の画像を予測 - Diffusion policyでaction系列を予測 22