>100 Views
November 29, 19
スライド概要
2019/11/29
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Regression Planning Networks (NeurIPS2019) Jumpei Arima, Meiji Univ. http://deeplearning.jp/ 1
書誌情報 • Regression Planning Networks Danfei Xu, Roberto Martín-Martín, De-An Huang, Yuke Zhu, Silvio Savarese, Li Fei-Fei (Stanford University) • NeurIPS2019の論⽂ • arxiv: https://arxiv.org/pdf/1909.13072.pdf • 選定理由: – Li Fei-Feiの研究室が最近ロボット研究に⼒を⼊れ始めていて興味があった 2
アジェンダ 1. 背景 2. 概要 3. 提案⼿法 4. 実験・結果 5. まとめ 3
背景 • 近年のモデルベースRLでは, 環境モデルの学習によりplanningの精度が向上. – Deep visual foresight for planning robot motion (ICRA2017) – Learning Latent Dynamics for Planning from Pixels (PlaNet) – pick & placeなどのshort-horizonタスクには優れた成果 – ⻑期的な予測はまだ課題が残っている https://deeplearning.jp/learning-latent-dynamics-for-planning-from-pixels/
背景 • Universal Planning Networks (ICML2018) – ゴールにたどり着くまでを画像からplanningするネットワークを提案。 – ⾏動空間が微分不可能な場合勾配ベースの⼿法は適さない – 学習に⾏動の軌跡が必要 → ⾏動はagent依存なので画像だけから学習したい https://deeplearning.jp/universal-planning-networks/
概要 シンボルによる指⽰(e.g. 料理)に対して現在の画像から計画することの できるネットワークRPN(Regression Planning Networks)を提案 key idea: 最終状態から逆順にサブゴールを再帰的に出⼒する 各状態の依存関係を考慮することで効率よく学習を⾏う 6
問題設定 • Zero shot task generation with a Hierarchical Policy – 学習データに含まれないgoalでplanningできることを⽬標にする – 階層的なpolicyを学習する(本論⽂で述べるのはhigh level のみ) high level policy : low level policy : • Regression Planning – モデルは現在の観測から, low level⽅策が到達できるサブゴールを 出⼒する →現在の観測から⽬標を達成するための前提条件を予測する
提案⼿法 1. ゴールをサブゴールに分割 依存関係を学習問題として定式化 2. 前提条件の予測 前提条件として満たす必要のあるゴールを予測する 3. サブゴールがlow-level⽅策の到達可能であるかの予測 8
提案⼿法 • ゴールをサブゴールに分割 – サブゴール間の全ての依存関係を チェックしてサブゴールのグラフを作成 – 全てのサブゴールから現在の状態が そのタスクを完了していないものを抽出 – entity特徴量とサブゴールの依存をチェック
提案⼿法 • 前提条件の予測 – 逆順に計画するRPNのkeyとなる部分 – entity特徴量とサブゴールから前提条件(サブゴール)を出⼒ – ノード分類問題で定式化できる ここでノードは ゴールの述語と物体のペアに対応 • 出⼒の論理状態(True, False)& 前提条件(Null)であるか 10
提案⼿法 • サブゴールがlow-level⽅策が到達可能かどうかを判断するネットワー クが必要 – entity特徴量のbinary分類問題として定式化 11
実験 <検証内容> • RPNの回帰プランニングとサブゴールへの分割の効果 • 新しいタスクへのzero-shotの⼀般化ができるか • RPNが⾼次元⼊⼒から学習できるか <実験環境> • 2DのGrid World • 3DのKitchen 12
実験 <⽐較対象> • E2E – エキスパートの起動をEnd-to-Endで模倣学習 ⼊⼒は最終⽬標と現在の観測、出⼒はサブゴール • SS-only – サブゴールの分割のみを⾏う 最優先のサブゴールを出⼒する • RP-only – 回帰ネットワークのみ サブゴールの分割はsingle networkで表現
実験 <Navigate in MinGrid 2D> • DoorKey – 学習は2つのドアを開けることのみ • RoomGoal – key~doorとdoor~goalをそれぞれ学習 – 評価時はkey~door~goalの⻑期的なタスクを解く • タスクを分割することに よってタスク数が増えても 成功率があまり下がらない • 回帰することでタスク間を 接続することができる
実験 • Kitchen 3D – ⾷材を洗う・調理器具の設置・⽕を付ける・配膳などをして調理する⻑期的 なタスク – low-level⽅策は RRTベースの動作計画 – 3つの材料(I=3)から2つの⽫(D=2)を提供することのみを学習する。
実験 • E2Eではそもそも学習が厳しい • RP-onlyが学習データで⾼い成功率 – 回帰プランニングは⻑期のタスクに対して効果的 • SS-onlyは材料の数が増えても成功率があまり下がらない – ⼀般化することに効果的
まとめ • 画像観測に条件づけられた抽象的なシンボル空間上で 最終状態から逆側にplanningをするネットワーク(RPN)を提案 • 複数の⾷材から適した調理器具を使い, 複数の料理を調理する⻑期的なプランニングが必要なタスクが できるようになった <future work> • 実世界への適⽤
appendix Network Architecture
appendix DoorKey での失敗例 Kitchen 3Dにおける task成功率/subgoalの正解率
appendix Kitchen 3D(I=2, D=1)のサブゴール・依存関係の例