[DL輪読会]“A Framework for Data-Driven Robotics”

>100 Views

November 22, 19

スライド概要

2019/11/22
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] “A Framework for Data-Driven Robotics” 吉田 岳人 DL輪読会2019/11/21発表 http://deeplearning.jp/ 1

2.

書誌情報 • • • • 著者名 – Serkan Cabi, Sergio G´omez Colmenarejo, Alexander Novikov, Ksenia Konyushkova, Scott Reed, Rae Jeong, Konrad ˙ Zołna, Yusuf Aytar, David Budden, Mel Vecerik, Oleg Sushkov, David Barker, Jonathan Scholz, Misha Denil, Nando de Freitas, Ziyu Wang 著者所属 – DeepMind 公開日 – 20190926 ステータス – おそらく学会未発表 2

3.

概要 • • • • 対象とするタスク – 報酬を記述することが難しいロボットアームのタスク システムの入力 – 人が遠隔操作によって作成したデモ軌道 – 報酬のアノテーション システム概要 – 様々なタスクの検証のために、過去の方策が生成した全軌道 手法 – 蓄積した軌道と、報酬のアノテーションから、報酬関数を学習 – 学習した報酬関数を蓄積された全ての軌道に適用してオフラインのバッチ強化学習 結果 – タスクや生成した方策に依存せずに蓄積された全軌道を活用して、 – 物体を積み上げる、布を操作する、といった複雑なタスクを解決する方策が学習できた 3

4.

獲得した方策の例 剛体を積み上げるタスク 柔軟物を持ち上げるタスク 4

5.

他のロボット制御を獲得する手法との特徴の比較 • • • 実機強化学習は – 報酬設計と、報酬を計算するための状態推定が必要 Sim2Realは – シミュレータでRLするための報酬設計が必要 – シミュレータ作成のためのロボットと環境のモデリングが必要 – ドメインギャップの存在 QT-Opt (実機強化学習)は、オフラインでバッチRLをする点は似ているが、本研究は他のタスクの軌道を 活用できる点で異なる 5

6.

手法(報酬関数の学習) • • 報酬のアノテーション(右動画) – エピソードごとに各フレームx_tの値を0~1で評価 報酬関数の損失 – アノテーションされた各フレームの報酬値の絶対値は信用ならない – 大小関係と成功・失敗の判定を保持できるヒンジ損失を用いる • 大小関係:フレームx_qのアノテーションの値s(x_q)が、 同一エピソードの他のフレームx_tの値s(x_t)より大きい場合、報酬 r(x_q)もr(x_t)となるようにする • 成功・失敗:フレームxの値s(x)がある閾値τ_s以上で成功の場合、報酬値も成功となる閾値 τ_r1以上になるようにする 6

7.

手法(強化学習) • 学習アルゴリズム – ロボットアームを制御するため連続行動空間に対応できる必要性 – オフラインで蓄積された軌道に対して学習するため方策オフである必要性 →D4PG • 方策・Qネットワークの構造 – どちらもRNN • 物体の状態を陰に推定するため 7

8.

手法(実行) • • 学習した方策を用いてタスクを実行して、さらに蓄積されたデータに対して、アノテーションする このサイクルを報酬の出力が満足いくものになるまで(大抵2~3サイクル)繰り返す 8

9.

実験セットアップ • ハードウェアセットアップ – 行動空間 • ロボットアームの手先位置・速度 • グリッパーの開閉 • データセット 9

10.

結果 • • ランダムな動きや他のタスクのデータがないと性能が低下する 確率分布で表された価値関数の有無は性能に大きく影響する • • 布持ち上げタスクは74%の成功率だった また、定性的に、学習後の方策の軌道は、人が遠隔操作した軌道やデモをBCした方策の軌道より、 早くタスクを解くことができていることがわかった 10

11.

まとめ&感想 • まとめ – 汎用的な報酬のアノテーション方法を提案 – 報酬関数の学習により、対象タスク以外の軌道を活用し、方策の性能を向上 – 対象物の状態の推定等を行うための外部のセンサや機構を要さないため、柔軟物に容易に適用可 能 • 感想 – 実機でデータ集めるの大変そう – 報酬をアノテーションを用いて学習することと、他のタスクに用いた軌道を活用することが補完 しあっていて綺麗な構成だと思った 11