>100 Views
December 25, 25
スライド概要
AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!
方策ベース強化学習 TRPO, PPO 工学部B3 野村隆晃 0
アジェンダ ◼ Trust Region Policy Optimization ◼ Proximal Policy Optimization 1
アジェンダ ◼ Trust Region Policy Optimization ◼ Proximal Policy Optimization 2
記号の導入 方策、状態価値関数、アドバンテージなどの方策ベース強化学習のおさらい 3
方策の変更 方策π, π の収益に対する恒等式が成立する Advantageに対して、前頁の定義式と期待値の定義より次の結果が得られる 方策πについて、任意の状態sにおいてAdvantageが非負であれば、update後の方策 πの収益が増 加する。ただし訪問密度ρに関しての方策 πへの依存が数値的に複雑ため、代理関数Lを別途定義 代理関数と収益は初期方策と微分係数が一致するため、方策をこまめに更新していけば一致 4
TRPO Policyの更新に対して以下の式が成立する。つまり代理関数と更新前後のPolicyのKL情報量より 収益は増加するので、右辺を反復的に更新していけば収益は反復するごとに単調に増加する! 名前の由来であるTrust Regionは今の方策から離れすぎる(KL距離が大きい)と報酬の下限が抑 えられなくなることに由来 5
TRPOの基本的なアルゴリズム Arg maxの計算ができるば、反復的に方策更新することで収益が単調に増加する 6
Arg maxの計算 Advantageを定義式より状態価値関数Qに置き換えて、KL距離に関しては目的関数から信頼領域を用 いた制約条件にして最適化を書き換え(q: 経験分布、δ: 信頼領域) 元の問題 Single Path: Trajectoryをsample Vine: 経験分布に同様に学習 Single Path Vine 7
アジェンダ ◼ Trust Region Policy Optimization ◼ Proximal Policy Optimization 8
Proximal Policy Optimization Trust Region Policy Optimizationとは最大化する代理関数が異なる。TRPOの短所として制約条 件などの実装が面倒くさいので、Clippingで更新を抑制 TRPO 9
アルゴリズム 代理関数に加えてCriticの損失と探索を促すEntropy項を追加 10