[DL輪読会]BADGR: An Autonomous Self-Supervised Learning-Based Navigation System

>100 Views

April 03, 20

スライド概要

2020/04/03
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] BADGR: An Autonomous Self-Supervised Learning-Based Navigation System Jumpei Arima http://deeplearning.jp/ 1

2.

書誌情報 • BADGR: An Autonomous Self-Supervised Learning-Based Navigation System • author : Gregory Kahn, Pieter Abbeel, Sergey Levine – Berkeley AI Research (BAIR), University of California, Berkeley • arxiv : https://arxiv.org/abs/2002.05700 • project page : https://sites.google.com/view/badgr • code : https://github.com/gkahn13/badgr 2

3.

Introduction • 従来の手法 – S. ThrunらのProbabilistic Roboticsをベースとした手法 • SLAM, Path Planning – Waymo, Skydioなどのベースとなる技術 <課題> • texturelessなシーンでの性能が低下する • 高価なセンサが必要(主にLiDAR) • 経験から学習する機構がない 3

4.

Related Works • 学習ベースによるナビゲーションの関連研究 研究 技術 目的 input [Zhu 17] RL(A3C) target driven navigation RGB image [Anderson 18] IL(DAGGER) visual language navigation RGB image [Pfiffer 16] IL(Behavior Cloning) mapless navigation 2D-LiDAR [Tai 17] RL(DDPG) sim2real 2D-LiDAR [Zhang 17] RL(DQN) successor features, transfer learning Depth image [Fan 18] RL(PPO) multi agent collision avoidance 2D-LiDAR [Tai 18] IL(GAIL) socially compliant navigation Depth image [Chen 17], [Everett 18], [Chen 19] RL(A3C) multi agent collision avoidance motion prediction [Wijmans 19] RL(PPO) point goal navigation RGBD image [Kahn 18], [Kahn 18] RL(Model based) collision avoidance RGB image 4

5.

Related Works • 学習ベースによるナビゲーションの関連研究の課題 – inputにLiDARや人の行動予測結果を与える • 意味情報などの幾何情報以外に対応できない – シミュレーション上で学習 • sim2realへの対応が必要 • on-policyベースが多くが時間がかかる – 実機のデータを使う • デモンストレーションに依存 • サンプル効率 – 上位システムの認識結果を利用 • 自己改善機能がない 5

6.

Proposed Method • BADGR(Berkeley Autonomous Driving Ground Robot) – ナビゲーションの問題は幾何学的問題として解かれてきた – 幾何学情報のみでは、現実世界では限界がある – ナビゲーションに必要な物理的なaffordanceを経験から獲得 • end-to-end-learning • self-supervised • off-policy • real-world • no simulation • no human supervision 6

7.

Proposed Method • 学習 – (観測、行動)のデータ収集 – 自己教師でラベル付けて データセットに追加 – 予測モデルの学習 • テスト – タスクに応じて報酬を設計 – 予測モデルを用いて報酬を最大化する 行動列を算出 – 行動列の最初を実行 7

8.

Proposed Method • データ収集 – off-policyアルゴリズムを用いて学習する – データ収集時の方策 • time-correlated random walk • よりテスト時に近いような行動列 – リセット • 衝突判断はLiDARとIMUを利用し自動化 • リセット方策は単純に後退と回転 • データ収集後4Hzでサブサンプリング – 課題点 • 転倒した場合は人が治す必要がある 8

9.

Proposed Method • self-supervised データラベリング – 衝突 • 都市環境ではLiDARの値 • オフロード環境ではIMU値が急落したとき – 地面の凹凸 • IMU値の角速度成分の大きさが閾値以上になった場合 – 位置 • wheel encoderとIMUを統合して算出 9

10.

Proposed Method • 予測モデルの学習 – ネットワーク構造はCAPsとほぼ同じ – 入力:画像、行動列 – 出力:各イベント(衝突、位置、凹凸)の予測値 – 交差エントロピー誤差、平均二乗誤差を最小化 10

11.

Proposed Method • プランニング – Hステップの行動列、N個から報酬関数を最適化 • random-shootingやcross entropyによる最適化より良い – PDDMと同様のプランニングを行う • 実行中の行動列を中心に時間ステップ間に相関をもつようにする – より自然な行動系列を生成 • 報酬加重平均を用いて実行する行動列を決定 https://www.slideshare.net/DeepLearningJP2016/dldeep-dynamics-models-for-learning-dexterous-manipulation 11

12.

Proposed Method • 報酬関数 – タスクに依存するが本研究では以下のように決定 – 衝突しないように・ゴール向くように・凹凸を避けるような設計 – 衝突を極力避けたいので、 衝突が予測されるは強制的にコストが最大となるようになっている 12

13.

Experiments • 実験内容 – 環境:都市環境とオフロード環境 – タスク:ナビゲーションタスク • 衝突・スタックせず目標位置へ向かう • 舗装された道をできるだけ通る – ナビゲーション性能に加え 追加学習の効果、zero-shotでの未知環境への一般化性能を評価 13

14.

Experiments • ロボットプラットフォーム – Clearpath Jackal – センサ:カメラ*2 2D-LiDAR(提案手法の実行時には用いない) 6DoF IMU, GPS, wheel encoder, compass – Nvidia Jetson TX2 – 事前に与える情報は目標位置のGPS座標のみ • 比較手法 – SLAM+P : 局所的にマッピングし、幾何学ベースの経路計画(従来手法) – naïve : 目標位置にただ向かう方策(baseline) • データ収集 – 都市環境で34時間、オフロード環境で8時間 • 720,000データ (BADGR < CV < RL) 14

15.

Experiments • 都市環境 – SLAM+Pは舗装道は通らない • 3D-LiDAR使って凹凸認識できるが、 砂利道と草地の区別は難しい • 物理的な特性で評価するのが良い 15

16.

Experiments • オフロード環境 – SLAM+Pは草を障害物と判断し、スタックすることが多い • 成功した場合でもそれが予測モデル的には衝突確率が高いと判断されるpathが多い – BADGRは成功率が早いだけでなく、1.2倍到達時間が早い 16

17.

Experiments • self-improving(追加学習による性能改善) – – – – zero-shotではほぼ衝突する 3時間の追加データで学習した、finetunedモデルで成功率向上 target domainだけのモデルより良い 以前の経験データと合わせることで、学習効率が上がる 17

18.

Experiments • 未知環境における一般化性能 – 42時間の複数での環境データで学習したモデルを未知環境で評価 – 森林、オフロード、都市環境の3つの未知環境でナビゲーション成功 18

19.

Conclusion • 現実世界での経験から自律的にナビゲーションを学習する BADGRを提案 • より多くのデータを収集することで自己改善可能で、 未知環境にも一般化することができることを示した • 実世界での自律的に自己改善型のロボット学習するシステムにとって 有望な一歩 <future works> • onlineに未知環境に適応 • リセット問題 • 動的環境 – データ取得時のpolicyとの他agentの相互作用を考慮する必要がある 19

20.

感想 • globalな経路計画は扱ってない(ナビゲーションの範囲が狭い) – 今後、階層型RL・Goal Imagined系とかを絡めてきそう • 衝突回避、凹凸回避、ナビゲートのマルチタスクを扱っているが、 センサや報酬を設計すれば拡張性がある – 複数センサを統合的に扱う予測モデルがあると良いかも • プランニングに使ってる時間相関型のサンプリング手法が 従来の手法(DWA・State Lattice Plannerなどの軌道生成)に比べて どこらへんが優れているか気になる 20

21.

References • Gregory Kahn, Pieter Abbeel, and Sergey Levine. BADGR: An Autonomous Self-Supervised Learning-Based Navigation System. – • Gregory Kahn, Adam Villaflor, Bosen Ding, Pieter Abbeel, and Sergey Levine. Self-supervised deep reinforcement learning with generalized computation graphs for robot navigation. In ICRA, 2018. – • https://arxiv.org/abs/1809.08835 Jingwei Zhang, Jost Tobias Springenberg, Joschka Boedecker and Wolfram Burgard. Deep Reinforcement Learning with Successor Features for Navigation across Similar Environments. In IROS 2017. – • https://arxiv.org/abs/1711.07280 Changan Chen, Yuejiang Liu, Sven Kreiss and Alexandre Alahi. Crowd-Robot Interaction: Crowd-aware Robot Navigation with Attention-based Deep Reinforcement Learning. In ICRA 2019. – • https://arxiv.org/abs/1909.11652 Peter Anderson, Qi Wu, Damien Teney, Jake Bruce, Mark Johnson, Niko Sunderhauf , Ian Reid, Stephen Gould and Anton van den Hengel. Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments. In CVPR 2018. – • https://arxiv.org/abs/1810.07167 Anusha Nagabandi, Kurt Konoglie, Sergey Levine, and Vikash Kumar. Deep Dynamics Models for Learning Dexterous Manipulation. In CoRL, 2019. – • https://arxiv.org/abs/1709.10489 Gregory Kahn, Adam Villaflor, Pieter Abbeel, and Sergey Levine. Composable Action-Conditioned Predictors: Flexible Off-Policy Learning for Robot Navigation. In CoRL, 2018. – • https://arxiv.org/abs/2002.05700 https://arxiv.org/abs/1612.05533 Lei Tai, Giuseppe Paolo and Ming Liu. Virtual-to-real Deep Reinforcement Learning: Continuous Control of Mobile Robots for Mapless Navigation. In IROS 2017. – https://arxiv.org/abs/1703.00420 21

22.

References • Lei Tai, Jingwei Zhang, Ming Liuand Wolfram Burgard. Socially Compliant Navigation through Raw Depth Inputs with Generative Adversarial Imitation Learning. In ICRA 2018. – • Yuke Zhu, Roozbeh Mottaghi, Eric Kolve, Joseph J. Lim, Abhinav Gupta, Li Fei-Fei and Ali Farhadi. Target-driven Visual Navigation in Indoor Scenes using Deep Reinforcement Learning. In ICRA 2017. – • https://arxiv.org/abs/1911.00357 S. Thrun, W. Burgard, and D. Fox. Probabilistic Robotics. MIT Press, 2008. WAYMO – • https://arxiv.org/abs/1805.01956 Erik Wijmans, Abhishek Kadian, Ari Morcos, Stefan Lee, Irfan Essa, Devi Parikh, Manolis Savva and Dhruv Batra. DD-PPO: LEARNING NEAR-PERFECT POINTGOAL NAVIGATORS FROM 2.5 BILLION FRAMES. ICLR 2020. – • • https://arxiv.org/abs/1703.08862 Michael Everett, Yu Fan Chen, and Jonathan P. How. Motion Planning Among Dynamic, Decision-Making Agents with Deep Reinforcement Learning. In IROS 2018. – • https://arxiv.org/abs/1808.03841 Yu Fan Chen, Michael Everett, Miao Liu, and Jonathan P. How. Socially Aware Motion Planning with Deep Reinforcement Learning. In IROS 2017. – • https://arxiv.org/pdf/1612.05533.pdf Tingxiang Fan, Pinxin Long, Wenxi Liu and Jia Pan. Fully Distributed Multi-Robot Collision Avoidance via Deep Reinforcement Learning for Safe and Efficient Navigation in Complex Scenarios. – • https://arxiv.org/abs/1609.07910 Jingwei Zhang, Jost Tobias Springenberg, Joschka Boedecker, Wolfram Burgard. Deep Reinforcement Learning with Successor Features for Navigation across Similar Environments. In IROS 2017. – • https://arxiv.org/abs/1609.05143 Mark Pfeiffer, Michael Schaeuble, Juan Nieto, Roland Siegwart and Cesar Cadena. From Perception to Decision: A Data-driven Approach to End-to-end Motion Planning for Autonomous Ground Robots. In ICRA 2017. – • https://arxiv.org/abs/1710.02543 https://waymo.com/ Skydio – https://www.skydio.com/ 22

23.

appendix <githubのコード動かしてみた感想> • 学習は30分くらいで終わった (GTX1080 *1) • 出力を見る感じGPSはやっぱり結構アバウト • アクションがうねるのは連続値制御ではよくある挙動な気がする https://github.com/Jumpei-Arima/badgr (dockerfile追加してあります)