【拡散モデル勉強会】diffusion policyとそのnavigation応用

14.3K Views

April 23, 24

#拡散モデル #ロボットナビゲーション #深層学習 #人工知能 #コンピュータビジョン

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.1K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 51.9K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.2K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Diffusion Policy と Navigationへの応⽤ Koya Sakamoto, Ishii Lab, Kyoto University http://deeplearning.jp/

http://deeplearning.jp/

発表内容以下3つの論⽂内容を⼤雑把に話します. • Diffusion Policy: Visuomotor Policy Learning via Action Diffusion, Cheng Chi, Zhenjia Xu, Siyuan Feng, Eric Cousineau, Yilun Du, Benjamin Burchfiel, Russ Tedrake , Shuran Song, RSS 2023 • ViNT: A Foundation Model for Visual Navigation, Dhruv Shah, Ajay Sridhar, Nitish Dashora, Kyle Stachowicz, Kevin Black, Noriaki Hirose, Sergey Levine, CoRL 2023 • NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration, Ajay Sridhar, Dhruv Shah, Catherine Glossop, Sergey Levine, CoRL Workshop 2023 2

Diffusion Policy: Visuomotor Policy Learning via Action Diffusion 3

参考⽂献 DL輪読会⼭根さん資料 (こちら)で説明 4

https://www.slideshare.net/DeepLearningJP2016/dldiffusion-policy-visuomotor-policy-learning-via-action-diffusion

Navigationへの応⽤ 5

Navigation Tasks (主に) 未知環境において, ある地点からGoal地点まで移動するタスク Goal情報によって様々なタスクが提案されている • Image goal navigation: goal地点のimageを与えて, その地点を探す • Object goal navigation: object categoryを与えて, そのobjectを探す • Point goal navigation: 座標をgoal情報として与えて、その地点に向かう … 6

Navigationへの応⽤⽅法 DiffusionをNavigationに応⽤した研究 • ViNT: A Foundation Model for Visual Navigation – Image to image generation – 現在のobservationから, 次の時間stepでのobservationをdiffusionで⽣成(推定) – 推定された地点に進むべきかtransformer-basedなモデルで判定 • NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration – Diffusion policy: actionを予測どちらもimage goal navigationのタスク設定でtrain. 7

ViNT: A Foundation Model for Visual Navigation 8

ViNT概要 Navigationの基盤モデルを提案様々なロボットのnavigationデータで学習複数のnavigation tasksに少量のfine-tuningだけで適応可能 9

10.

Model Architecture Transformer-based なモデル. 入力: 直近6ステップの観測とgoal image 出力: goalまでの推定距離, action系列 (waypoints) 複数の経路から経路を選択するのに利用赤色: samplingされたstart地点, 緑色: samplingされたgoal地点, 青色: 学習データ軌道経路を出力 10

11.

Model Architecture Transformer-based なモデル. 入力: 直近6ステップの観測とgoal image 出力: goalまでの推定距離, action系列(waypoints) 少量のfine-tuningで, 別のmodalityをGoal tokenにすることも可能 11

12.

Long Horizonのための⼯夫 1. Diffusionによって複数のsubgoal画像を出⼒ 2. 各subgoalsについてViNTで経路と必要timestepを推定 3. Heuristicにコストを計算 4. ⼀番コストが⼩さい経路を選択. 現在の観測から数step後の将来の観測を予測 12

13.

結果 1 Heuristicを考慮して, 未知の環境を効率的に探索できている 13

14.

結果 2: A Single Policy to Drive Any Robot 異なるロボットでも有効 14

15.

結果 3: Generalization to Downstream Tasks 少量のfine-tuningで他のタスクにも応⽤可能道路の⾞線に従うといったルールも学習可能 15

16.

結果 4: Emergent Behavior Implicitにaffordanceを学習 • ⼈を避ける (social navigation skills獲得) • 通路の中央を⾛る (following hallway) 16

17.

NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration 17

18.

NoMaD概要 Navigationの基盤モデルの⼿法を提案 Diffusion policyを利⽤ - 複雑な⾏動分布を表現 - 軽量のために, 実機に搭載可能 Goal-maskingによって, task agnostic (単にブラブラ探索させる?)な能⼒も獲得 18

19.

Model Architecture 大まかなモデル構造はViNTと同様. 異なる点は以下の2つ • Goal Masking Goal情報が与えられなかった際のpolicyを学習するため • Diffusion Policy 行動の複雑な分布をdiffusionを用いて表現 19

20.

Loss Diffusion Policyのための項 Goal地点への距離推定 20

21.

結果 ViNTと同程度のgoal-conditionedな際のnavigationスキルの他に, goal情報を与えない場合でのnavigationのスキルも獲得. 21

22.

まとめ Diffusion policyによって, ⾏動の多峰的な分布を表現可能に. robotのmanipulationタスクで⾼精度 Manipulation以外にも, navigationでもdiffusionが活⽤されている. - image to imageで将来の画像を予測 - Diffusion policyでaction系列を予測 22

23.