176 Views
November 13, 20
スライド概要
2020/10/30
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Learning quadrupedal locomotion over challenging terrain K ohei N is himura http://deeplearning.jp/ 1
書誌情報 • タイトル – Learning quadrupedal locomotion over challenging terrain • 著者 – J o o n h o L ee, J e m i n H w a n g b o , L o re n z W el l h au s en , V l ad l en Koltun, M a r c o Hutter • 所属 – Ro b o t i c S y s t e m s L ab , R o b o t i c s & Artificial In t el l i g ence L ab , Intelligent S y s t e ms Lab • 出版 – Science Robotics • リンク – 論文: h t t p s : / / r o b o t i c s . s c i e n c e m a g . o r g / c o n t e n t / 5 / 4 7 / e a b c 5 9 8 6 – コード: なし • ※注釈がない場合は、本論文からの引用 2
概要 • 概要 – 多様で複雑な自然環境下で歩行できる4 足 歩 行 の ロ ボ ッ ト の 制 御 方 策 の 学習方 法を提案した。 – 複数のロボットに対して全く同じ方策で異なる環境にチューニングすることな く適用し、歩行できることを確認した。 – 制御時の入力情報には各関節の状態とIMU のみを利用し、vis io n や衝突センサ など複雑なシステムを必要とせずに歩行を実現した。 – 方策の学習にはS i m 2 R e a l を用いて、z e r o - s h o t の学習とした。 3
結果の概要 • 実世界の様々な環境で失敗なく異動が実現できている – h ttp s ://r o b otics.s cien cemag.o r g/co nten t/5/4 7/eab c59 8 6/tab -f igu res data 4
目次 • • • • • 背景 先行研究 提案手法 結果 まとめ 5
背景 • 多脚ロボットは障害物があったり、様々な環境下で動作できるロボッ トとして注目を浴びている • 汎化性能、チューニングしやすさ、効率性を考慮した研究は少ない https://www.bostondynamics.com/spot-mini http://biomimetics.mit.edu https://www.anybotics.com/anymal/ 6
先行研究 • 多様な環境での4 足歩行の制御 – 接地や滑りなどの状態を明示的に推定する。 – 泥、雪、植生などのモデル化されていない環境において不安定になることがあ る。 • RLによる制御方策の獲得 – 室内の平坦な表面や適度にテクスチャのある表面など、実験室の環境や条件に 限定されており、多様性が十分に評価されてこなかった。 7
問題設定 • 4 足のロボットで歩行をさせる • 制御入力は進行方向と移動方向のみ 目標速度は入力としない。 8
提案手法の概要 • 手法の概要図 9
提案手法の肝 • 論点 – 環境に対する汎化性能が高い制御方策をどうやって獲得するか • 打ち手 1. 制御アーキテクチャ • Sim2Realのアプローチを取りやすい制御アーキテクチャ 2. 方策学習 • Sim2Realの強みを活かした蒸留の利⽤ 3. カリキュラム学習 • 学習時の環境のパラメータを⾃動で更新する 10
1 . 制御アーキテクチャ • 機体の状態(速度と姿勢)と、各関節状態を用いて制御するアーキテ ク チャをとることで、Si m 2Real の転移をしやすい問題設定にして いる – カメラや接触センサなどの情報を利用しないため、センサ空間で実世界とシ ミュレータの差を埋める必要がない。 11
(補足) H o r i z o n F r a m e 制御を安定化させるため、H or i zon F r a m e を用いている. • 概要 – 座標系のxy平面は常にz軸(地磁気方向)と垂直である座標系 • 効用 – 本体の姿勢などによる影響を受けないため、制御の安定性や姿勢の復元に貢献 する。 https://iit-dlslab.github.io/papers/barasuol13icra.pdf 12
(補足) F o o t T r a j e c t o r y G e n e r a t o r • 13
2 . 方策学習 • 概要 – シミュレータ内の環境情報をリッチに取得できる環境での強化学習で親方策を 学習させる – 実機制御に用いる方策は親方策からの蒸留によって獲得する 14
2 .の詳細 親方策の学習 シミュレータ内でリッチな環境情報を入力に強化学習する • 学習アルゴリズム – TRP O • 入力情報 – encoder • ! " (リッチな情報) – M LP • #"(ロボットの状態), $"(潜在表現) • NN構造 – M L P ( e n c o d e r ) + M LP 15
2 .の詳細 親方策の学習 • T R P O の報酬関数 • 報酬関数の内容とお気持ち – !"#: 機体の座標系方向の速度に対する報酬 • 速いほど良い – !$# : 各関節の回転速度に対する報酬 • 速いほど良い – !%: 機体の移動方向に対する報酬 • 機体の⽅向が安定しているほど良い – !%&: 機体のb o d y と地盤の衝突に対する報酬 • 衝突しない⽅が良い – ! ' : 理想軌道に対する報酬 • 理想軌道がスムーズな⽅が良い – !( : 関節トルクに対する報酬 • トルクが少ない⽅が良い 16
2 .の詳細 子方策の学習 親方策を用いてE n c o d e r の教師あり学習を行う • E n c o d e r 学習アルゴリズム – 誤差関数 • 入力情報 – encoder • ℎ" – MLP(親方策と同じ) • NNの構造 – T C N ( E n c o d e r ) + M LP 17
(補足) TCN • 時系列情報を表現するネットワーク https://arxiv.org/abs/1803.01271 18
3 . カリキュラム学習 • RL学習を用いて、歩行性能が高く、汎 化性 能も高い方策を学習するためには 、簡単で も難しくもない環境で学習す ることが重要 であると主張した。 • 粒子フィルタを用いて学習環境を更新しつ つ制御方策を学習する学習する手法を提案 した。 • 学習環境の地盤形状のパラメータを粒子 フィルタで用いて更新する 19
3 .詳細 アルゴリズムの詳細 • 推定したい値は、!%" ,$ • 観測確率は – 0. 5, 0 . 9 は、ハイパーパラメータ • 地盤形状の望ましさ&' (! " , ))は、 • ここで、追従可能度合い&+(!", )) と評価関数, は、 20
(補足) アルゴリズムフロー • 21
(補足) 学習時間 • 22
実験設定 • 概要 – 屋外・屋内の環境で人の制御信号(進行方向と回転方向)に従ってロボットを歩 行させる – ロボットは複数の世代のA N Y malを用いる • 評価指標: cost of transport – 制御の効率性を評価する指標 – !: 関節のトルク – #̇: 関節速度 – $%: 総重量 – ' : 移動速度 23
ベースライン • アクチェエータのモデリングによって、経路 生成・非線形最適化によって制御信号を出力 する https://www.research-collection.ethz.ch/bitstream/handle/20.500.11850/221541/bellicoso-ral.pdf?sequence=8&isAllowed=y 24
実験設定 • 屋外の環境 屋内の環境 25
実験結果 定量評価 • ベースラインよりも効率よく移動できていることが示された 26
実験結果 • 失敗の少なさ、速度の安定性、姿勢の誤差のすべてでB as e lin e を上 回った 27
A b l a t ion s t u d y 1. TC N の入力ステップ数 2. 方策の蒸留 3. カリキュラム学習 28
A b l a tio n1. T C N の入力ステップ数 • 入力ステップ数を増やせば増やすほど性能が向上する。 – 実機適用時のステップ数は1 0 0 – 1 0 0 よりも大きい値との比較はなかった。 29
A b l a tio n2. 方策の蒸留 • 方策の蒸留を用いることで性能が向上することを確認した。 30
A b l a tio n3. カリキュラム学習 • カリキュラム学習によって性能が向上することを確認した。 31
環境への適応性についての実験 • 潜在表現からリッチな環境情報をD e c o d e して、地盤形状と足周辺の 状態の不確実度が、現実挙動と合致しているようにみえる • 枕木(?)に衝突することで、状態の不確実度が変化している。 – 赤丸: 足周辺の土形状、青丸: 足の先端の位置、赤の三角: 状態の不確実度 32
まとめ • Sim 2 R e alを用いて、4 足歩行ロボットの制御方策を学習し、実機で も汎化性能を確認した。 • visionなど外部センサを利用せずに制御を行った。 33
所感 • Sim 2 R e alでうまくいく問題設定・アーキテクチャの設計が素晴らし いと思う • B o s t o n D ynam i cs のs p o t は、おそらく学習を使わずに動くコント ローラをつくりあげている • RLのタスクとして、他のタスクと比べて4 足歩行がどの程度難し いも のなのかいまいちわからず.. 34
参考文献 • L ear ni ng quadr uped al l ocom ot i on over chal l engi ng t er r ai n – h ttp s ://r o b o tics .sciencemag .or g /co n tent/ 5 /47 /eabc5 98 6/tab -f ig ur esdata • A n em pi r i cal eval uat i on of gener i c convol ut i onal and r ecur r ent networks for sequence modeling – h ttp s ://ar x iv .or g /ab s/ 18 03 .0 12 71 • A Reactive Controller Framework for Quadrupedal Locomotion on C hal l engi ng Ter r ai n – h t t p s : / / i i t - d l s l a b . g i t h u b . i o / p a p e r s / b a r a s u o l 1 3i c r a . p d f • D ynam i c l ocom ot i on t hr ough onl i ne nonl i near m ot i on opt i m i zat i on f or quadr upedal r obot s – https://www.researchcollection.eth z.ch /b itstr eam/h and le/20.5 00.11 850 /22 1541 /b ellicos or a l . p d f ? s e q u e n c e = 8 & i s A l l ow e d =y 35