>100 Views
April 30, 21
スライド概要
2021/04/30
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP Policy Information Capacity: [DL Papers] Information-Theoretic Measure for Task Complexity in Deep Reinforcement Learning Hiroki Furuta http://deeplearning.jp/
書誌情報 • タイトル: Policy Information Capacity: Information-Theoretic Measure for Task Complexity in Deep Reinforcement Learning • 著者・所属: Hiroki Furuta1, Tatsuya Matsushima1, Tadashi Kozuno2, Yutaka Matsuo1, Sergey Levine3, Ofir Nachum3, Shixiang Shane Gu3 Ø 1The University of Tokyo, 2University of Alberta, 3Google Brain • URL: https://arxiv.org/abs/2103.12726 • 概要: 強化学習のベンチマーク環境は、異なる⾏動、観測、遷移、報酬を持 ち、それぞれ異なるアルゴリズムで解かれるため、難易度の⽐較ができな かった。⽅策のパラメータと報酬/最適変数の間の相互情報量(PIC/POIC) を測定することで、環境の難易度を定量評価しうることを⽰した。 2
強化学習におけるタスクの難易度 • 近年の強化学習研究の進展はシミュレータ環境の発達によって可能と なった e.g.) OpenAI Gym [Brockman et al. 2016; Todorov et al. 2012], DM Control [Tassa et al. 2018] • しかし、これらの環境の分析はそれぞれ異なる⾏動、観測、遷移、報 酬を持っているため、しばしば無視されてきた 3
強化学習におけるタスクの難易度 • 先⾏研究は単純な有限MDPや線形関数近似など場合の強化学習のアルゴリズムに 着⽬することが多かった Ø サンプル複雑度 [Kearns & Singh 2002; Strehl et al. 2009; Dann & Brunskill 2015] Ø リグレット下界 [Jaksch et al. 2010; Azar et al. 2017; Jin et al. 2018; 2020] • いくつかの研究はMDPの性質を扱っているが、NNなどの複雑な関数近似器には 対応していない Ø diameter of MDP [Jaksch et al. 2010], Bellman rank [Jiang et al. 2017], environmental norm [Maillard et al. 2014], etc... • 複雑な環境やNNで動作する、実⽤的でアルゴリズムに依存しない定量的な指標 を提案 Ø Random Weight Guessing [Oller et al. 2020] が先⾏研究として最も近いが、それはリターンの分 散を可視化するなどして定性的な評価を⾏うプロトコルの提案にとどまっている 4
Intuition: Locomotion v.s. Manipulation ? < Locomotion [from Heess et al. 2017] Manipulation [from OpenAI 2021] • RLでManipulationを学習することはLocomotionを学ぶより難しい(こと が多い) • 仮説: ⾏動と”重要な”将来の状態の間がより強く”繋がって”いるとき、簡単 なタスクであると⾔える 5
Intuition: Empowerment Empowerment [Klyubin et al. 2005; Tishby & Polani 2011; Mohamed & Rezende 2015] • エージェントの⾏動と将来の状態の間の相互情報量に基づく 相互情報量 の最大化 = 高い: エージェントの 行動で多様な 将来の状 態に遷移しうる + 低い: エージェントの行動 が与えられたときに将来 の状態が予測可能 • 直感的には、より⾼いempowermentはエージェントがその⾏動で将来の状 態をより⾃由に操作できることを表す 6
Policy Information Capacity (PIC) エピソードの累積報酬R と⽅策のパラメータΘ の間の相互情報量 • p(θ) : ⽅策のパラメータの事前分布(ただしネットワークアーキテク チャを含む) • 報酬がどの程度操作可能かをパラメータのサンプリングを通して測る • PIC はReward Empowermentとして解釈できる 7
Policy-Optimal Information Capacity (POIC) エピソードの最適性変数O と⽅策のパラメータΘ の間の相互情報量 • • 最適性変数O ∈ {0, 1} は軌道の最適性を表す [Levine 2018] • POIC はOptimality Empowermentとして解釈できる 8
PICの推定 • どのようにPICを推定するか→パラメータと累積報酬のモンテカルロ サンプリング 報酬の分布はB個のBinを用いて、離散化して近 似する 9
POICの推定 • どのようにPOICを推定するか→モンテカルロサンプリング • メリット: POICは離散のベルヌーイ分布を⽤いるのでPICの離散化による近似を 避けられる • 定義から、報酬最⼤化に関するバイアスを⼊れられる • デメリット: ηの選び⽅が任意(MIが最⼤となるように選んだ) 10
⼈⼯的なMDPでのPIC と POIC • エピソード⻑Tが⻑くなるほど難しくなるトイ環境を考える (1)MDPが難しくなるとPICとPOICは下がるか? • 正規化スコアとPIC/POICをサンプリングして計算 • 正規化スコアが下がるとPIC/POICも下がる 11
⼈⼯的なMDPでのPIC と POIC (2) p(θ) のパラメータがESなどで学習された場合、PICやPOICはど のように変わるか? • 最初から⾼いPOICの事前分布(μ = 0; 茶⾊)は低いものよりも早く学習できる • POICが⾼いパラメータ領域では学習が加速され、低い領域では遅くなる 12
どのようにOracleのタスクの難易度を知るか? • 総当たりのタスク複雑度: Algorithm-based normalized scoreを計算 • 様々なRLアルゴリズムが含まれる⼤きな集合を⽤意し、それらを学習させ て正規化された平均性能を求める • Classic Control: 23 algos (PPO, ES, DQN / PPO, ES, SAC, DDPG) • MuJoCo: 17 algos (SAC, MPO, AWR + Leaderboard Score in TD3 / AWR paper) • DM Control: 11 algos (SAC, MPO, AWR + Leaderboard Score in RAD paper) 13
PIC and POIC in Popular Benchmark Environments • POIC/PIC/報酬の分散[Oller et al. 2020] とAlgorithm-based normalized scoreの間の相 関係数を計算 • POICが最も相関(R=0.807; p=0.001)するがPICは相関しなかった 14
PIC and POIC in Popular Benchmark Environments • PICはRandom-Sampling-based normalized scoreの間に弱い相関を⾒せる (R=0.401) • Random-Sampling-based normalized scoreは先⾏研究で考えられていたが、ア ルゴリズムの進展を無視したものである[Oller et al. 2020] 15
PIC and POIC for Tuning Reward Shaping • PICとPOICは報酬関数のチューニングに⽤いることができる • 2 つのゴール到達タスク Ø 4 種類の報酬関数: Ø 4 つの異なるハイパラ: • e.g.) α ∈ {1, 0.5, 2, 5}, (β, γ) ∈ {(0.01, 0.01), … ,(0.1, 0.1)}, ε ∈ {0.05, 0.01, 0.1, 0.15} 16
PIC and POIC for Tuning Transition Noise in MDP • 初期状態分布 p(s1) = Uniform(-u , u )と 1次元のダイナミクスノイ int int ズのハイパラを調整Uniform(-u , u ) dyn dyn • POICが正規化スコアと最も強く相関(R=0.860) • またPIC/POICを⽅策のネットワークの良さを評価するのにも使える 17
Limitation and Future Work Limitation • 最も重⼤なのは事前分布p(θ) に⼤きく依存していること • 学習を進めていくと傾向が変わる環境(マニピュレーションなど)では PIC/POICとが全体のタスク難易度を表さない場合がある Future directions • 学習中にPIC/POICを推定し、 p(θ) を学習して適応させる • Atariなど⼤きなNNが必要な画像⼊⼒の環境にスケールさせる • ブートストラップとISを⽤いてサンプル効率が⾼い近似⼿法を春めいする 18
まとめ 1. Empowermentに着想を得た⼿法: Policy Information Capacity (PIC) and Policy-Optimal Information Capacity (POIC)は単純で 扱いやすい環境の難易度指標である 2. POICがalgorithm-based normalized scoreと最も強い正の相関を⽰ した(報酬最⼤化のバイアスのため) 3. PICとPOICのどちらも実験のパラメータ(報酬関数、環境のノイズ、 ⽅策のネットワークなど)を調整するのに活⽤可能である PIC/POICによって情報理論的観点からRL環境の性質を分析することが 可能となった 19