>100 Views
July 06, 18
スライド概要
2018/07/06
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Vector-based navigation using grid-like representations in artificial agents (Nature 557) Shohei Taniguchi, Matsuo Lab http://deeplearning.jp/ 1
書誌情報 • Nature, 557:429-433, 2018 • Andrea Banino, Caswell Barry, Benigno Uria, Charles Blundell, Timothy Lillicrap, Piotr Mirowski, Alexander Pritzel, Martin J. Chadwick, Thomas Degris, Joseph Modayil, Greg Wayne, Hubert Soyer, Fabio Viola, Brian Zhang, Ross Goroshin, Neil Rabinowitz, Razvan Pascanu, Charlie Beattie, Stig Petersen, Amir Sadik, Stephen Gaffney, Helen King, Koray Kavukcuoglu, Demis Hassabis, Raia Hadsell & Dharshan Kumaran • DeepMind & University College London 2
概要 • Deep neural networkは物体認識から囲碁まで様々な分野で成功して いるが、深層強化学習を用いた探索のタスクではまだまだ課題が多く、 人間に匹敵する結果を残せていない • 哺乳類の空間的な行動は嗅内皮質にある格子細胞 (grid cell) によって 支えられていると言われている • 論文内では自己位置推定タスクにおいてRNN内にgrid cellによく似た 表現が学習されていることを発見し、この表現を探索タスクに用いる ことで、様々な環境において他の手法を大きく上回る結果を残し、神 経科学におけるgrid cellのベクトルベース探索の有効性を裏付けたと 主張 3
背景知識 哺乳類の空間記憶 ① 場所細胞 (place cell) • • 1971年にJohn O‘Keefe博士は、海馬の神経細胞には特定の場所にいるときだけ活性化す るものがあることをネズミを用いた実験から示した この場所細胞によって空間の認知地図が作られているという説を提唱 ② 格子細胞 (grid cell) • • 2005年にMoser夫妻は海馬に隣接する嗅内皮質に空 間内の格子状の点で活性化する神経細胞の存在を発 見 それぞれのgrid cellは異なるスケールをもち、その組 み合わせによってplace cellに自己位置情報が与えら れるという仮説を提唱 詳しくないので間違っていたら訂正してください 4
アジェンダ 1. 教師ありでの自己位置推定タスクにおけるRNN内の特徴表現の検証 2. ⒈ で得られた格子状の特徴表現を強化学習での探索タスクに適用 3. より難しいタスクでの有効性の検証 5
アジェンダ 1. 教師ありでの自己位置推定タスクにおけるRNN内の特徴表現の検証 2. ⒈ で得られた格子状の特徴表現を強化学習での探索タスクに適用 3. より難しいタスクでの有効性の検証 6
実験1 自己位置推定タスクでの検証 手法 • 単純な2次元環境での自己位置推定タス クで検証 • 入力:速さと角速度 • 出力:自己位置と頭方位 • 全結合層にはドロップアウトを適用 • RMSPropで最適化 • LSTMのセル状態と隠れ状態の初期値は 自己位置と頭方位の初期値の線形変換を 与える(ここも学習の対象) 7
実験1 自己位置推定タスクでの検証 結果 • 全結合層の512ユニットのうち六 角格子状のパターンで活性化す るものが129見つかった • 格子のスケールはユニットに よって異なり、3クラスタの混合 ガウス分布として評価できた • 特定の方位に反応するユニット (頭方位細胞)も見つかった 8
アジェンダ 1. 教師ありでの自己位置推定タスクにおけるRNN内の特徴表現の検証 2. ⒈ で得られた格子状の特徴表現を強化学習での探索タスクに適用 3. より難しいタスクでの有効性の検証 9
実験2 強化学習での探索タスクへの適用 • grid cellによる表現は空間上のユーク リッド距離を測る上で有用であることが 知られている • これを強化学習での探索タスクに用いる ことで、ゴールへ直接向かうベクトルを 得ながらの探索 (vector-based navigation) が可能になることを示す 実験環境 • DeepMind Lab. 10
実験2 強化学習での探索タスクへの適用 モデル 1. Vision Module – 画像の入力から自己位置・頭方位を学習 2. Grid Network – – 実験1とほぼ同じ 実際の動物が得られる情報に近づけるため、 入力の速度にノイズを加えている 入力に⒈ の出力が5%の確率で加わる – • 移動中の動物は環境要因を不完全にしか捉えら れないため 3. Actor Critic Network – – A3Cベース 入力に⒉ の全結合層とゴール位置に対応す る全結合層のベクトルを加える • ゴール到達前は0でマスキング 11
実験2 強化学習での探索タスクへの適用 結果 • 実験1同様に全結合層に 格子状の表現が得られ、 自己位置推定において良 い結果が得られた • 探索においても、ゴール に直接向かうようなルー トを学習することに成功 し、高いスコアを得られ た 12
アジェンダ 1. 教師ありでの自己位置推定タスクにおけるRNN内の特徴表現の検証 2. ⒈ で得られた格子状の特徴表現を強化学習での探索タスクに適用 3. より難しいタスクでの有効性の検証 13
より難しいタスクでの検証 ① 複数の部屋がある環境 – ドアなし/あり – 実験2と比べて難しい • 視界が開けていない • 経路が複雑になる – ここでもGrid cell agentは、 他のモデルを圧倒するスコア を見せた 14
より難しいタスクでの検証 ② ショートカット – 訓練時には閉じていた最短経路に通 じるドアがテスト時に開く – ショートカットによって最短経路を 取れる – 訓練時にはGrid cell agentとPlace cell agentにほとんど差が出なかっ たが、テスト時にはGrid cell agent がよりショートカットを有効に使い、 高いスコアを出している – Vector-baseな探索を学習できてい ることが示されている 15
まとめ • 従来のSLAMの技術では正確で完璧な環境の地図を構築し、その上に ゴールの位置や特徴を外部的に与えてやる必要があった • 提案手法では、自己位置推定タスクにおいて得られる格子状の表現を 深層強化学習と組み合わせることで、ゴールに向かうベクトルを得な がら複雑な制御方策をend-to-endで学習することを可能にし、ベクト ルベースの探索の有効性を示した • この結果はベクトルベースの探索におけるgrid cellの理論的なモデル を実証的に示していると言える 16
感想 • 環境のモデリングに脳科学的な知見を取り入れた手法として解釈でき る気がする – 脳ではgrid cellが環境の空間座標系のモデルとなっている • World modelsしかり、こういう方向性の論文はhuman-likeな知能へ の構成論的なアプローチとしてもとても興味深い 17
参考文献 • Andrea Banino et al., Vector-based navigation using grid-like representations in artificial agents, Nature 557:429-433, 2018 • https://deepmind.com/blog/grid-cells/ 18
Appendix 比較モデル 19
Appendix ハイパーパラメータ 20