7.3K Views
April 23, 24
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] Diffusion Policy と Navigationへの応⽤ Koya Sakamoto, Ishii Lab, Kyoto University http://deeplearning.jp/
発表内容 以下3つの論⽂内容を⼤雑把に話します. • Diffusion Policy: Visuomotor Policy Learning via Action Diffusion, Cheng Chi, Zhenjia Xu, Siyuan Feng, Eric Cousineau, Yilun Du, Benjamin Burchfiel, Russ Tedrake , Shuran Song, RSS 2023 • ViNT: A Foundation Model for Visual Navigation, Dhruv Shah, Ajay Sridhar, Nitish Dashora, Kyle Stachowicz, Kevin Black, Noriaki Hirose, Sergey Levine, CoRL 2023 • NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration, Ajay Sridhar, Dhruv Shah, Catherine Glossop, Sergey Levine, CoRL Workshop 2023 2
Diffusion Policy: Visuomotor Policy Learning via Action Diffusion 3
参考⽂献 DL輪読会 ⼭根さん資料 (こちら)で説明 4
Navigationへの応⽤ 5
Navigation Tasks (主に) 未知環境において, ある地点からGoal地点まで移動するタスク Goal情報によって様々なタスクが提案されている • Image goal navigation: goal地点のimageを与えて, その地点を探す • Object goal navigation: object categoryを与えて, そのobjectを探す • Point goal navigation: 座標をgoal情報として与えて、その地点に向かう … 6
Navigationへの応⽤⽅法 DiffusionをNavigationに応⽤した研究 • ViNT: A Foundation Model for Visual Navigation – Image to image generation – 現在のobservationから, 次の時間stepでのobservationをdiffusionで⽣成(推定) – 推定された地点に進むべきかtransformer-basedなモデルで判定 • NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration – Diffusion policy: actionを予測 どちらもimage goal navigationのタスク設定でtrain. 7
ViNT: A Foundation Model for Visual Navigation 8
ViNT概要 Navigationの基盤モデルを提案 様々なロボットのnavigationデータで学習 複数のnavigation tasksに少量のfine-tuningだけで適応可能 9
Model Architecture Transformer-based なモデル. 入力: 直近6ステップの観測とgoal image 出力: goalまでの推定距離, action系列 (waypoints) 複数の経路から経路を 選択するのに利用 赤色: samplingされたstart地点, 緑色: samplingされたgoal地点, 青色: 学習データ軌道 経路を出力 10
Model Architecture Transformer-based なモデル. 入力: 直近6ステップの観測とgoal image 出力: goalまでの推定距離, action系列(waypoints) 少量のfine-tuningで, 別のmodalityをGoal tokenにすることも可能 11
Long Horizonのための⼯夫 1. Diffusionによって複数のsubgoal画像を出⼒ 2. 各subgoalsについてViNTで経路と必要timestepを推定 3. Heuristicにコストを計算 4. ⼀番コストが⼩さい経路を選択. 現在の観測から数step後の将来の観測を予測 12
結果 1 Heuristicを考慮して, 未知の環境を効率的に探索できている 13
結果 2: A Single Policy to Drive Any Robot 異なるロボットでも有効 14
結果 3: Generalization to Downstream Tasks 少量のfine-tuningで他のタスクにも応⽤可能 道路の⾞線に従うといったルールも学習可能 15
結果 4: Emergent Behavior Implicitにaffordanceを学習 • ⼈を避ける (social navigation skills獲得) • 通路の中央を⾛る (following hallway) 16
NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration 17
NoMaD概要 Navigationの基盤モデルの⼿法を提案 Diffusion policyを利⽤ - 複雑な⾏動分布を表現 - 軽量のために, 実機に搭載可能 Goal-maskingによって, task agnostic (単にブラブラ探索させる?)な能 ⼒も獲得 18
Model Architecture 大まかなモデル構造はViNTと同様. 異なる点は以下の2つ • Goal Masking Goal情報が与えられなかった際のpolicyを学習するため • Diffusion Policy 行動の複雑な分布をdiffusionを用いて表現 19
Loss Diffusion Policyのための項 Goal地点への距離推定 20
結果 ViNTと同程度のgoal-conditionedな際のnavigationスキルの他に, goal情報を与えない場合でのnavigationのスキルも獲得. 21
まとめ Diffusion policyによって, ⾏動の多峰的な分布を表現可能に. robotのmanipulationタスクで⾼精度 Manipulation以外にも, navigationでもdiffusionが活⽤されている. - image to imageで将来の画像を予測 - Diffusion policyでaction系列を予測 22
23