【ゼロから作るDeep Learning④】TRPO・PPO

143 Views

December 25, 25

#強化学習 #方策ベース #TRPO #PPO #機械学習

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 30.5K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 23.4K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 22.5K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 19.4K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

京都大学人工知能研究会KaiRA 13.7K

【物体検出】MaskFormer

京都大学人工知能研究会KaiRA 13K

各ページのテキスト

方策ベース強化学習 TRPO, PPO 工学部B3 野村隆晃 0

アジェンダ ◼ Trust Region Policy Optimization ◼ Proximal Policy Optimization 1

アジェンダ ◼ Trust Region Policy Optimization ◼ Proximal Policy Optimization 2

記号の導入方策、状態価値関数、アドバンテージなどの方策ベース強化学習のおさらい 3

方策の変更方策π, π ෥の収益に対する恒等式が成立する Advantageに対して、前頁の定義式と期待値の定義より次の結果が得られる方策πについて、任意の状態sにおいてAdvantageが非負であれば、update後の方策෥ πの収益が増加する。ただし訪問密度ρに関しての方策෥ πへの依存が数値的に複雑ため、代理関数Lを別途定義代理関数と収益は初期方策と微分係数が一致するため、方策をこまめに更新していけば一致 4

TRPO Policyの更新に対して以下の式が成立する。つまり代理関数と更新前後のPolicyのKL情報量より収益は増加するので、右辺を反復的に更新していけば収益は反復するごとに単調に増加する！名前の由来であるTrust Regionは今の方策から離れすぎる(KL距離が大きい)と報酬の下限が抑えられなくなることに由来 5

TRPOの基本的なアルゴリズム Arg maxの計算ができるば、反復的に方策更新することで収益が単調に増加する 6

Arg maxの計算 Advantageを定義式より状態価値関数Qに置き換えて、KL距離に関しては目的関数から信頼領域を用いた制約条件にして最適化を書き換え(q: 経験分布、δ: 信頼領域) 元の問題 Single Path: Trajectoryをsample Vine: 経験分布に同様に学習 Single Path Vine 7

アジェンダ ◼ Trust Region Policy Optimization ◼ Proximal Policy Optimization 8

10.

Proximal Policy Optimization Trust Region Policy Optimizationとは最大化する代理関数が異なる。TRPOの短所として制約条件などの実装が面倒くさいので、Clippingで更新を抑制 TRPO 9

11.

アルゴリズム代理関数に加えてCriticの損失と探索を促すEntropy項を追加 10