[DL輪読会]Active Domain Randomization

312 Views

May 17, 19

#deep learning #domain randomization #ADR #active domain randomization #UDR

スライド概要

2019/05/17
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.8K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.2K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 50K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 47.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.2K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Active Domain Randomization DeepX 吉田岳人 DL輪読会2019/05/17 http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • 著者 – Bhairav Mehta, Manfred Diaz, Florian Golemo, Christopher J. Pal, Liam Paull – モントリオール大学の修士の学生 • ステータス – Arxive, Preprint • 投稿日 – 2019/04/09 2

概要 • 思想： – Domainを一様にサンプリングするDomain Randomization(UDR)より、 – 難しいDomainにフォーカスしてサンプリングするDR（ADR）の方が、 – Domainに対する汎化性能が高い • 手法： – Domainをサンプリングする方策を用意して強化学習する • サンプリングされたDomainに置いてタスクを解くためにも強化学習する（２種類のRLを回す） • 結果： – ADRで訓練したタスク方策の性能はUDRと比べて分散が小さかった – ADRで得られたサンプリング方策はより難しいDomainを選ぶことができていた 3

背景：Domain Randomization • Domain Randomization(DR)は、機械学習モデルをRandomizeしたDomainで訓練し、汎化させ、Target Domainにzero-shotで転移する手法 – 強化学習の文脈では、 • RandomizeしたDomain= RandomizeしたDomain、 • Target Domain=実機、 • として、Sim2Realすることが多い • 通常のDR考えうるDomain群から一様にサンプリングしてモデルを学習する • UDRは、Target Domainのみで訓練することに比べて、過剰に難しい条件で訓練してしまい、結果として、性能が低くなってしまう問題点がある →重要なDomainに絞って訓練したい 4

手法： • 参照環境を用意（シミュレータのデフォルト値） • シミュレータのパラメータをサンプリングするサンプリング方策μ – SVPG＋A2Cで学習 – 報酬は、 • ここで、サンプリングされた環境ならy=1 , 参照環境ならy=0 • サンプリングされたタスクを解くタスク方策πを用意 – DDPGで学習 – 報酬はタスクの報酬そのまま • 識別器Dは、参照環境かどうかを0/1で出力 – (s,a,s’)の組を軌道分入力して、軌道分の出力を平均する ※Dとサンプリング方策μはMaxMaxの関係 – 用意に局所解に陥るのでSVPGを使ってると思われる 5

参考：Stein Variational Policy Gradient • 複数の方策が、収益を最大化しつつ、互いに異なるパラメータ空間に分布するよう学習する手法 • 右辺第一項は近い方策の勾配も利用してExploitation, 第二項はなるべく他の方策から離れるExploration – 第二項のKernelには∇𝜃𝑗 𝑘(𝜃𝑗 , 𝜃𝑖 ) = − ∇𝜃𝑖 𝑘(𝜃𝑗 , 𝜃𝑖 )となるものを使用 • KernelにはRBF kernelを用いる 6

実験：LunarLander • 垂直・水平方向のエンジンを使って着陸するタスク • パラメータ：エンジンの出力 – エンジンの出力が小さいほど難しい 7

結果：LunarLander • タスク方策の性能 – サンプリング方策により、より難しい左したの領域に着目している（右(b)） • サンプリング方策の挙動 – サンプリング方策がより難しい、エンジンの出力が小さい領域に着目しているのがわかる（右下(b)） • タスク方策が解ける領域は軌道が似通ってくるため、識別できなくなり、サンプリング方策の報酬が下がり、サンプリングされなくなる（本当か？） 8

実験：Pusher-3DOF • パックをゴール位置まで押すタスク • パラメータ：パックの摩擦・減衰係数 – 小さいほど滑りやすく難しい 9

10.

結果： Pusher-3DOF • タスク方策の性能 – UDRより摩擦・減衰に対してロバストなタスク方策が得られた(右 (a)) • 学習していない領域に対してUDRよりいい結果が得られた – UDRでは破滅的忘却が生じている（下）ピンク、紫、水色の順で難しい黒枠で囲った部分が学習に用いた箇所 • サンプリング方策の挙動 – サンプリング方策により、より難しい左したの領域に着目している（右(b)） 10

11.

実験：４軸ロボットアームのリーチング • パラメータ： – 各軸の最大トルクとゲイン • どちらも小さい方が重力に負けるので難しい • 結果 – Sim内（右） – Sim2Real（下） 11

12.

結論と感想 • 結論 – ADRで訓練したタスク方策の性能はUDRと比べて分散が小さかった – ADRで得られたサンプリング方策はより難しいDomainを選ぶことができていた • 感想 – タスクが解けると、軌道が似てくる、という説明が曖昧 – 行なっている実験がどれも、パラメータのどの領域が難しいのかわかる設定だったので、あまり旨味を感じられなかった – 難しいタスクを中心に訓練すると性能が上がるというのを実験して示しているのは有用 12