[DL輪読会]Learning to Navigate in Cities Without a Map

>100 Views

April 06, 18

スライド概要

2018/04/06
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] ”Learning to Navigate in Cities Without Maps” (arXiv) Yusuke Iwasawa, Matsuo Lab http://deeplearning.jp/

2.

書誌情報 • ArXiv 2018/3/31 • Deep Mind • 概要 – ナビゲーションを行うDL+強化学習ベースの手法を提案 – 現実的で大規模なデータセットで性能を評価 – 複数の都市間での転移を可能にするアーキテクチャを提案 • 選定理由: – 環境のモデル、大事(地図なしでナビゲーションするためには環境のモデルを 内部でもつ必要がある) – 日経ロボティックスに以前記事が出ていて興味を持っていた – 凄そう • 概要動画:https://sites.google.com/view/streetlearn 2

3.

本研究で扱う問題設定 • 目的:ランダムなスタート地点から目的地へ到達 – ゴールは見たことある設定/見たことない設定の双方で検証あり • 入力:Google Street Viewの画像とゴール位置 – 60 °をクロップ、RGB、84×84ピクセル • 行動:5つの行動 – Slow Rotate left or right: 22.5° – Fast Rotate left or right: 67.5° – Move fowrard: ただし、前に進めない場合はnoop 3

4.

貢献1:現実的なデータセット [Mirowski et al., 2016] This Work [Zhu et al., 2017] [Mirowski etal., 2016] “Learning to Navigate in Complex Environments”, ICLR2017 [Zhu et al., 2017] “Target driven visual navigation in indoor scenes using deep reinforcement learning”, IROS2017 4

5.

貢献2:強化学習ベース [Brahmbhatt et al., 2017] [Brahmbhatt et al., 2017] “DeepNav: Learning to Navigate Large Cities”, CVPR2017 This Work 5

6.

貢献3:Without Explicit Maps [Parisotto et al., 2018] This Work [Parisotto et al., 2018] “Neural Map: Structured Memory For Deep Reinforcement Learning”, ICLR2018 6

7.

貢献4:都市間での転移 場所不変なモジュールと、場所特化のモジュールを分離 7

8.

モデルの工夫 貢献 モデルの工夫 現実的なデータ Convを利用 強化学習ベース Auxiliary Taskを利用 Without Explicit Maps RNN (LSTM)に頑張らせる V π RNN θt RNN Conv 都市間の転移 場所依存の機能を分離 ※基本はA3Cベース(IMPLA [Espeholt et al., 2018]) gt Xt at-1, rt-1 8 [Espeholt et al., 2018] “IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures”, arXiv

9.

Appendix: IMPLA [Espeholt et al., 2018] 9

10.

モデルの工夫 ※ 全体はA3Cベース 貢献 モデルの工夫 現実的なデータ Convを利用 強化学習ベース Auxiliary Taskを利用 Without Explicit Maps RNN (LSTM)に頑張らせる 都市間の転移 場所依存の機能を分離 V π RNN θt RNN Conv ※基本はA3Cベース(IMPLA [Espeholt et al., 2018]) gt Xt at-1, rt-1 10

11.

モデルの工夫 ※ 全体はA3Cベース 貢献 モデルの工夫 現実的なデータ Convを利用 強化学習ベース Auxiliary Taskを利用 Without Explicit Maps RNN (LSTM)に頑張らせる 都市間の転移 場所依存の機能を分離 V π RNN θt RNN Conv ※基本はA3Cベース(IMPLA [Espeholt et al., 2018]) gt Xt at-1, rt-1 より詳細には、2層の畳み込み+1層の全結合、 ReLU Activations([Minh et al, 2016]と同じ) 11

12.

モデルの工夫 ※ 全体はA3Cベース 貢献 モデルの工夫 現実的なデータ Convを利用 強化学習ベース Auxiliary Taskを利用 Without Explicit Maps RNN (LSTM)に頑張らせる 都市間の転移 場所依存の機能を分離 V π RNN θt RNN Conv ※基本はA3Cベース(IMPLA [Espeholt et al., 2018]) gt Xt at-1, rt-1 より詳細には、エージェントが向いている 向きの予測(北が0°) 12

13.

モデルの工夫 ※ 全体はA3Cベース 貢献 モデルの工夫 現実的なデータ Convを利用 強化学習ベース Auxiliary Taskを利用 Without Explicit Maps RNN (LSTM)に頑張らせる 都市間の転移 場所依存の機能を分離 V π LST M θt LST M Conv ※基本はA3Cベース(IMPLA [Espeholt et al., 2018]) gt Xt at-1, rt-1 別れている理由は後述 13

14.

モデルの工夫 ※ 全体はA3Cベース 貢献 モデルの工夫 現実的なデータ Convを利用 強化学習ベース Auxiliary Taskを利用 Without Explicit Maps RNN (LSTM)に頑張らせる 都市間の転移 場所依存の機能を分離 V π LST M θt LST M Conv ※基本はA3Cベース(IMPLA [Espeholt et al., 2018]) gt Xt at-1, rt-1 Gaol LSTM:場所依存、256 (LSTM)-64 (FC)、Tanh、Dropout (p=0.5) Policy LSTM:場所非依存、256 (LSTM) 14

15.

その他の工夫 Goal Representations • ランドマークからのの距離 • 利点スケーラブル • 緯度経度、Binを予想と比 較 • 精度は同程度 Curriculum Learning • 学習時の初期位置のゴール からの距離の最大値を徐々 に大きくする • 500mから開始 • グラフ全てをカバーする まで徐々に大きく • NY:3.5km • London:5.0km • Manhattanx:5.0km Reward Shaping ゴールからの距離 • 200m以内に入ったときに 距離に応じた報酬 • デフォルトはオフ(と書い てあったような気がする) 15

16.

学習の詳細 • エントロピー正則化付き、RMSprop – 学習率は0.001 – アニーリング(詳細はAppendix C.1) • IMPALA [Espeholt et al., 2018] – A3Cと同程度の性能 – CityNav: 256 actors, バッチサイズ=256 – MultiCityNav: 512 actors , バッチサイズ=512 – 系列長は50 16

17.

Experiments 1. GoalNav vs. CityNav 2. Generalization for Unseen Goal 3. Transferability 4. Ablation Study 17

18.

GaolNav vs. CityNav 1. GoalNav vs. CityNav 1. 2. 3. 4. Oracleは最短経路 Heuristicはランダム CityNavの方が安定かつ精度良い Skipありが単一都市では良い New York 2. Generalization for Unseen Goal 3. Transferability 4. Ablation Study London 18

19.

Generalization for Unseen Goal 1. GoalNav vs. CityNav 2. Generalization for Unseen Goal 1. 25%の区画を訓練時ゴールに指定しない (上図黒部分) Coarse: 1km×1km, Medium: 0.5km×0.5km, Fine: 0.25km×0.25km 2. 大きく削ると精度劣化 3. ゴールまで半分の位置への 到達は変化少ない (T1/2) 3. Transferability 4. Ablation Study 19

20.

Transferability 1. GoalNav vs. CityNav 2. Generalization for Unseen Goal 3. Transferability – TargetはWall Street、 訓練はそれ以外の3~5区画 – (a) Target Only, (b) Jointly All, (c) Transfer (Train w/o target -> target)) 1. cは学習都市増やすと精度上がる 2. 5区画使った場合はbとcがcomparable (と主張しているが…?) 3. 転移する時はSkipしないほうが精度高 (Policy LSTMの入力がそろうから) 4. Ablation Study 20

21.

4. Ablation Study Reward Shaping Goal Representations • 距離によるShapingは効く • 特に400mくらいから • 200mだとカリキュラム 無しは上手く行ってない • ランダムを入れるのも試し たが邪魔 • 緯度経度やBinの方が制度 は良い(が絶対座標必要) • ランドマークは数減らして もそんなに精度落ちない Network構造 + 補助タスク • 補助タスクはほぼ必須 • 構造についてはよく読んで ない 21

22.

Appendix: City-LSTMのデコード 22

23.

“Leaning to Navigate in Cities Without a Map”, arXiv Piotr Mirowski, Matthew Koichi Grimes, Mateusz Malinowski, Karl Moritz Hermann, Keith Anderson, Denis Teplyashin, Karen Simonyan, Koray Kavukcuoglu, Andrew Zisserman, Raia Hadsell (DeepMind) • 余裕あったら 23

24.

おわり 24