[DL輪読会]ViNG: Learning Open-World Navigation with Visual Goals

324 Views

January 08, 21

スライド概要

2021/01/08
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] ViNG: Learning Open-World Navigation with Visual Goals Jumpei Arima http://deeplearning.jp/ 1

2.

書誌情報 • タイトル:ViNG: Learning Open-World Navigation with Visual Goals • 著者 : Dhruv Shah, Benjamin Eysenbach, Gregory Kahn, Nicholas Rhinehart, Sergey Levine – UC Berkeley, Carnegie Mellon University • arxiv : https://arxiv.org/abs/2012.09812 • project page : https://sites.google.com/view/ving-robot • 概要 – Open-Worldでoffline dataから学習できるVisual Navigationシステム(VinG)を提案 – BADGR(2020/4にDL輪読会で発表した内容*)と比べてGPS情報なしで より長距離のナビゲーションが可能になった *https://www.slideshare.net/DeepLearningJP2016/dlbadgr-an-autonomous-selfsupervised-learningbased-navigation-system 2

3.

Introduction • 実世界でのNavigation研究 – 1980年後半頃から研究が盛んになる – 2000年代にSLAM、Planningの技術が確立してくる • 現在の自動運転のベース • LiDARなどの空間構造のセンサ情報から自己位置を推定し、planningを行う • 幾何学的情報から障害物を判断できる前提がある。 – 高い草は実際は通れる。 – 同じ地面でも芝の上は通ってほしくない。 など、車道以外の実世界での課題は多い • 2016年頃から、深層学習ベースの手法が多く研究されるようになる。 – RL, ILで simulation上や、屋内環境などの短距離のnavigation性能が上がってきている – 一方長距離のナビゲーションの学習はほぼできていない。 3

4.

Related Works • Planning手法と学習を組み合わせることで、長期的なナビゲーション タスクに対処する手法がここ数年出てきた。 – 短期的なナビゲーションを学習ベースで対応 – 長期的なナビゲーションはnon-metricなトポロジカルグラフを planningすることで対応 →マップ作成とEnd2Endでの学習を回避することができた。 – 正確なシミュレータを必要とする – grip worldなど簡易的な行動空間 – オンラインデータを必要とする学習アルゴリズム 4

5.

問題設定 • ビジュアルナビゲーション – – – – – – 画像によるゴール指定 Open-World環境 自己教師あり シミュレーションなし オンラインデータなし 空間情報なし • アプリケーション – 配達 – 警備 5

6.

Proposed Method • 2つの画像間の – Traversability function(T ): ナビゲーションの走破可能性 – Relative pose predictor(P ): 相対位置 をDNNでモデル化し学習する。 • T を用いてトポロジカルマップを生成しPlanningしてwaypointを生成 • WaypointからP を用いてコントロール 6

7.

Proposed Method • Traversability fuction(T )の学習 観測間が走破可能かを予測 1. 教師あり学習 • • 観測間のステップ数を予測 データ収集方策に依存するため、過大評価 する可能性がある 2. TD学習 • • 本研究の実験ではあまり効果なし 理論的には最短経路距離に収束する ※Key idea (Negative Mining) • 分布シフトに対応するため 異なる軌跡からとった観測をデータ セットに追加して学習 Traversability fuction(T ) • Mobilenet encoder + FC*3 • ステップ数d(1,2,…,dmax) – dmax=50 • 交差エントロピーloss 7

8.

Proposed Method • Relative pose predictor(P )の学習 観測間の相対位置を予測 – 教師あり学習 • オドメトリ情報から自動でラベル付け – Traversability functionと違い negative miningをしない (D+のデータのみを用いる) Relative pose predictor(P ) • Mobilenet encoder + FC*3 • (Δx, Δy, Δθ ) を予測 • L2 loss 8

9.

Proposed Method • Deploying ViNG 1. 観測データから学習したT を使って トポロジカルグラフを生成 ※Key idea (Graph pruning) データ数に応じて二次関数的にノードが増 加するのでT を使って疎にする →走破可能なエッジは追加されない 2. 現在の観測とゴール観測をグラフに追加 しDijkstra法でPlanning 3. waypointの相対位置をP を使って算出 4. 相対位置に向かってPD制御で移動 9

10.

Experiments 提案手法(ViNG)の性能を示すため以下の3つを検証する 1. ViNGが他のofflineデータから学習する他の Goal-conditioned Visual Navigation手法に比べて性能がどうか? 2. ViNGが未知環境に対応できるか。 また、どのくらいで適応できるようになるか? 3. ViNGの他のControllerと比べて性能がどうか? 10

11.

Experiments 比較手法 • SPTM: – Semi-Parametric Topological Memory for Navigation(ICLR2018) – 密なトポロジカルグラフと観測から行動の出力するController – 教師あり学習 • off-SoRB: – Search on the Replay Buffer: Bridging Planning and RL(NeurIPS2019)のoffline RLに拡張バージョン – RL • State Estimator – naïve base line – 観測から位置を教師あり学習で予測 • Random 11

12.

Experiments • Dataset – 約40時間の走行データ – 実験時はデータ収集時から10ヶ月経っているので 外観が異なる – simのデータはなし。全て実世界 12

13.

Experiments • ViNGの性能評価(datasetと同じ環境) • dataset時と季節が違うがViNGは距離が長くても高い成功率 • State Estimateは障害物を考慮しないので障害物があるとぶつかる • off-SoRBはトポロジカルの精度が低いので長い距離では精度が落ちる – offlineデータからQ関数を学習するのは困難 – 長い距離では、教師あり学習のSPTMの方が優れている 13

14.

Experiments • ViNGの未知環境での適応力 – datasetと違う環境4箇所で、1時間のデータ収集しFinetune • 1時間のデータ収集で適応可能 • Targetデータだけでは精度は下がる 14

15.

Experiments • Online手法の比較 – online情報を必要とする手法と比較 するためsim(unity)で実験 – ViNGとSoRBは同等の性能が出るが 200時間のonlineデータが必要でかつ 環境ごとに集める必要がある – PPOは200時間のオンラインデータが 必要だが、30m以降精度が落ちる (長距離は困難) 15

16.

Experiments • Application 16

17.

Conclusion • 実世界でのgoal-directed visual navigationシステムViNGを提案。 – オフラインデータから自己教師で学習 – 空間情報がなし、シミュレーションなし – 分布シフトに対応するためのnegativeサンプリングの導入 – トポロジカル上のplanningでGPSなしで長距離navigationを可能になった – 本手法は、staticなオフラインデータが前提だが 実世界は、大きく観測値の分布が変化する(動的障害物、照明の変化、…) – 分布シフトによりロバストに対応可能な表現を組み込むことが今後重要になっ てくる 17

18.

感想 • 問題設定が上手 – Open-Worldで画像上のダイナミクスを学習するのは現状難しいので、より低次元のイベントを予測する ことで対応する • “Model-Based Visual Planning with Self-Supervised Functional Distances” (https://arxiv.org/abs/2012.15373v1)とか関係してきそう – 一方オフラインデータから学習するというモチベーションがぶれていない • End2Endで学習する手法から、Deep以前のロボティクスの技術(planning, filteringなど)との融合 により実現している研究が多くなってきた印象。 – いかに優秀なアルゴリズムを微分可能なモジュールと組み合わせるか • 学習ベースのnavigation研究ではHabitat Challengeの問題設定で行われることが多い*が、それの standard手法であるPPOの性能がreal world・長距離でなかなか性能が出ていないのは面白い結果 • 画像のデータから学習でき実際動くのはすごいが、データ収集1hも必要となると従来手法の方が まだ安定性など見ると良いと思ってしまう 18 *https://docs.google.com/presentation/d/1ptnk1YfCnbvkgWcuhfvwnsmt0k8BwZwD8p40N5LkPMg/edit?usp=sharing