>100 Views
December 10, 21
スライド概要
2021/12/10
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Adversarial Skill Chaining for Long-Horizon Robot Manipulation via Terminal State Regularization (CoRL 2021) Presenter: Mitsuhiko Nakamoto, The University of Tokyo http://deeplearning.jp/
書誌情報 Adversarial Skill Chaining for Long-Horizon Robot Manipulation via Terminal State Regularization https://clvrai.github.io/skill-chaining/ Author: Youngwoon Lee, Joseph J. Lim, Anima Anandkumar, Yuke Zhu (USC, NVIDA, Caltech, UT Austin) Conference: CoRL 2021 概要: 複数のskillを繋げてlong-horizon manipulation taskを解くRL手法を提案
背景と課題 - 強化学習では、単一のpolicyでlong-horizon taskを解くのは難しい - 複数のsubtaskに分解して解くアプローチが主流 - それぞれの subtask policy を学習 → subtask policy を順番に実行 (skill chaining) skill chainingは、πi の終端状態分布と πi+1 の初期状態分布が乖離していると上手くいかない
先行研究: Policy Sequencing - 赤: terminal states / 緑: initial states - (a) πi−1 の終端状態分布と πi の初期状態分布が乖離していると上手くいかない - (b) πi の対応可能な初期状態分布を広げると、その分終端状態も広がってしまう
提案手法: Terminal State Regularization - sub policy πi−1 を学習する際に、終端状態が πi の初期状態分布に近づくような制約を加える
提案手法の流れ 事前準備: - Long-horizon task を subtask ℳi に分解 - 各 subtask ℳi に対して、expert demonstations Die を用意 - Die = {τ1e, …, τNe }, τje = (s0, a0, …, sTj−1, aTj−1, sTj) Step 1. Learning Subtask Policies - 各 subtask ℳi に対して、それ解く方策 πθi を学習(デモデータから模倣学習) Step 2. Skill Chaining with Terminal State Regularization - 1だけだと、sub policy 間の終端/初期状態分布の乖離が生じて上手くskill chainingできない - 各 sub policy πθi を Terminal State Regularization を用いてfine-tuning
Step 1. Learning Subtask Policies with GAIL i πθ - Subtaskの方策 を環境からの報酬のみで学習するのは効率が悪い - 本研究では、Generative Adversarial Imitation Learning (GAIL) を用いて効率化 - GAILでは、方策 πθi の軌道を expert demonstrations Die と区別されないように学習 - πθi の学習に使用する報酬は以下: R (st, at, st+1; ϕ) = i i λ1RENV (st, at, st+1) 通常の環境からの報酬 + i λ2RGAIL (st, at; ϕ) GAILのdiscriminatorを用いた報酬 i i RGAIL s , a ; ϕ = 1 − 0.25 ⋅ f (t t ) [ ϕ (st, at) − 1] 2
Step 2. Terminal State Regularization - sub policy πi−1 の終端状態が πi の初期状態分布に近づくような制約を加えて fine-tuning - πi−1の終端状態とπiの初期状態を分別する discriminator を学習 - βi−1 : πi−1 を用いて subtaski−1 を成功させた軌道の終端状態の集合 - Ii : πi を用いて subtaski を成功させた軌道の初期状態の集合 - discriminator Dωi (st) は 以下の損失関数を最小化して学習
Step 2. Terminal State Regularization - - discriminator Dωi+1 (st) は、入力 st が πi+1 の初期状態に似ていれば大きい値を出力する - πi の終端状態が πi+1 の初期状態分布に近づくような正則化項 (terminal state regularization) πi を以下の報酬でfine-tuning R (st, at, st+1; ϕ, ω) = i i λ1RENV (st, at, st+1) + i λ2RGAIL (st, at; ϕ) タスクを成功させるための報酬 + i λ3RTSR (st+1; ω) terminal state regularization
実験環境: Furniture Assembly TABLE LACK: CHAIR INGOLF: table leg x 4 seat supports x 2, chair seat x 1, front legs x 1 - それぞれ4つのsubtaskに分解 - GAIL用のdemonstrationは、各subtaskにつき200個用意
Baselines BC, PPO, GAIL, GAIL + PPO: 単一の方策で学習 SPiRL: Hierarchical Skill-based learning [Pertsch+ 2020] Policy Sequencing: [Clegg+ 2018] T-STAR (Proposed)
実験結果 - 200 testing episodes におけるタスクの平均達成率 (1つのsubtaskを完了したら達成率+0.25) - BC, GAIL, SPiRL, PPOは一つのsubtaskを完了することすらできなかった - GAIL + PPOは1つの部品を組み立てることには成功したが、それ以上はできなかった
実験結果 - Policy Sequencingでは達成率が 0.63 & 0.77 であるのに対して、提案手法は 0.90 & 0.89 - policy間の終端状態と初期状態を近づけたことによってパフォーマンスが向上
実験結果: TABLE LACK T-STAR (Proposed) Policy Sequencing GAIL+PPO https://clvrai.github.io/skill-chaining/ BC
実験結果: CHAIR̲INGOLF T-STAR (Proposed) Policy Sequencing GAIL+PPO https://clvrai.github.io/skill-chaining/ BC
実験結果: Qualitative Results - 3つ目のsub policyの終端状態をPCAで2次元に圧縮して可視化 (青: Proposed / 赤: Policy Sequencing) - Policy Sequencing (赤) は学習を進めるにつれ、終端状態の分布が広がっている - 提案手法 (青) は終端状態の分布がまとまっている
まとめ - 複数のskillを繋げてlong-horizon manipulation taskを解くRL手法を提案 - Terminal State Regularization を用いて policy 間の終端状態と初期状態を近づけた - Furniture assemblyのタスクで高いパフォーマンスを発揮