[DL輪読会]Regression Planning Networks(NeurlPS2019)

101 Views

November 29, 19

#deep learning #Deep Learning #Regression Planning Networks #NeurIPS2019 #Jumpei Arima #Meiji Univ

スライド概要

2019/11/29
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 85.7K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.5K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 55.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 40K

【拡散モデル勉強会】拡散モデルのサンプラーまとめ

Deep Learning JP 34K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 33.7K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Regression Planning Networks (NeurIPS2019) Jumpei Arima, Meiji Univ. http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • Regression Planning Networks Danfei Xu, Roberto Martín-Martín, De-An Huang, Yuke Zhu, Silvio Savarese, Li Fei-Fei (Stanford University) • NeurIPS2019の論⽂ • arxiv: https://arxiv.org/pdf/1909.13072.pdf • 選定理由： – Li Fei-Feiの研究室が最近ロボット研究に⼒を⼊れ始めていて興味があった 2

https://arxiv.org/pdf/1909.13072.pdf

アジェンダ 1. 背景 2. 概要 3. 提案⼿法 4. 実験・結果 5. まとめ 3

背景 • 近年のモデルベースRLでは，環境モデルの学習によりplanningの精度が向上． – Deep visual foresight for planning robot motion (ICRA2017) – Learning Latent Dynamics for Planning from Pixels (PlaNet) – pick & placeなどのshort-horizonタスクには優れた成果 – ⻑期的な予測はまだ課題が残っている https://deeplearning.jp/learning-latent-dynamics-for-planning-from-pixels/

https://deeplearning.jp/learning-latent-dynamics-for-planning-from-pixels/

背景 • Universal Planning Networks (ICML2018) – ゴールにたどり着くまでを画像からplanningするネットワークを提案。 – ⾏動空間が微分不可能な場合勾配ベースの⼿法は適さない – 学習に⾏動の軌跡が必要 → ⾏動はagent依存なので画像だけから学習したい https://deeplearning.jp/universal-planning-networks/

https://deeplearning.jp/universal-planning-networks/

概要シンボルによる指⽰(e.g. 料理)に対して現在の画像から計画することのできるネットワークRPN(Regression Planning Networks)を提案 key idea: 最終状態から逆順にサブゴールを再帰的に出⼒する各状態の依存関係を考慮することで効率よく学習を⾏う 6

問題設定 • Zero shot task generation with a Hierarchical Policy – 学習データに含まれないgoalでplanningできることを⽬標にする – 階層的なpolicyを学習する(本論⽂で述べるのはhigh level のみ) high level policy : low level policy : • Regression Planning – モデルは現在の観測から， low level⽅策が到達できるサブゴールを出⼒する →現在の観測から⽬標を達成するための前提条件を予測する

提案⼿法 1. ゴールをサブゴールに分割依存関係を学習問題として定式化 2. 前提条件の予測前提条件として満たす必要のあるゴールを予測する 3. サブゴールがlow-level⽅策の到達可能であるかの予測 8

提案⼿法 • ゴールをサブゴールに分割 – サブゴール間の全ての依存関係をチェックしてサブゴールのグラフを作成 – 全てのサブゴールから現在の状態がそのタスクを完了していないものを抽出 – entity特徴量とサブゴールの依存をチェック

10.

提案⼿法 • 前提条件の予測 – 逆順に計画するRPNのkeyとなる部分 – entity特徴量とサブゴールから前提条件(サブゴール)を出⼒ – ノード分類問題で定式化できるここでノードはゴールの述語と物体のペアに対応 • 出⼒の論理状態(True, False)＆前提条件(Null)であるか 10

11.

提案⼿法 • サブゴールがlow-level⽅策が到達可能かどうかを判断するネットワークが必要 – entity特徴量のbinary分類問題として定式化 11

12.

実験＜検証内容＞ • RPNの回帰プランニングとサブゴールへの分割の効果 • 新しいタスクへのzero-shotの⼀般化ができるか • RPNが⾼次元⼊⼒から学習できるか＜実験環境＞ • 2DのGrid World • 3DのKitchen 12

13.

実験 <⽐較対象> • E2E – エキスパートの起動をEnd-to-Endで模倣学習⼊⼒は最終⽬標と現在の観測、出⼒はサブゴール • SS-only – サブゴールの分割のみを⾏う最優先のサブゴールを出⼒する • RP-only – 回帰ネットワークのみサブゴールの分割はsingle networkで表現

14.

実験 <Navigate in MinGrid 2D> • DoorKey – 学習は2つのドアを開けることのみ • RoomGoal – key~doorとdoor~goalをそれぞれ学習 – 評価時はkey~door~goalの⻑期的なタスクを解く • タスクを分割することによってタスク数が増えても成功率があまり下がらない • 回帰することでタスク間を接続することができる

15.

実験 • Kitchen 3D – ⾷材を洗う・調理器具の設置・⽕を付ける・配膳などをして調理する⻑期的なタスク – low-level⽅策は RRTベースの動作計画 – 3つの材料(I=3)から2つの⽫(D=2)を提供することのみを学習する。

16.

実験 • E2Eではそもそも学習が厳しい • RP-onlyが学習データで⾼い成功率 – 回帰プランニングは⻑期のタスクに対して効果的 • SS-onlyは材料の数が増えても成功率があまり下がらない – ⼀般化することに効果的

17.

まとめ • 画像観測に条件づけられた抽象的なシンボル空間上で最終状態から逆側にplanningをするネットワーク(RPN)を提案 • 複数の⾷材から適した調理器具を使い, 複数の料理を調理する⻑期的なプランニングが必要なタスクができるようになった <future work> • 実世界への適⽤

18.

appendix Network Architecture

19.

appendix DoorKey での失敗例 Kitchen 3Dにおける task成功率/subgoalの正解率

20.

appendix Kitchen 3D(I=2, D=1)のサブゴール・依存関係の例