737 Views
March 27, 25
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] A Foundation of Reinforcement Learning for Stochastic Continuous Dynamics: Temporal Difference Method Haruki Settai Reinforcement Learning for Stochastic Continuous Dynamics Haruki Settai The University of Tokyo http://deeplearning.jp/ 1
目次 1. 強化学習 2. ODE / SDE に従う系での強化学習 3. 提案手法 di erential TD ff 2
従来の強化学習 MDP 𝒮 𝒜 𝒮 𝒜 𝒜 𝒮 𝒮 𝒜 𝒮 状態空間: 行動空間: 報酬関数r: × → ℝ | | 遷移関数: P : × → [0,1] 割引率: γ ∈ [0,1) ( , , r, P, γ)
従来の強化学習 MDP ff 𝒜 𝒮 ( , , r, P, γ) Controlled Di usion Process dXt = μ(Xt, At)dt + σ(Xt, At)dBt (Ω, ℱ, ℙ, {Ft}t≥0)
従来の強化学習 MDP , r, P, γ) dXt = μ(Xt, At)dt + σ(Xt, At)dBt (Ω, ℱ, ℙ, {Ft}t≥0) ⇨ 普通に従来の強化学習を適用して終わり? ff 𝒜 𝒮 ( , Controlled Di usion Process
従来の強化学習 MDP ( , , r, P, γ) Controlled Di usion Process dXt = μ(Xt, At)dt + σ(Xt, At)dBt (Ω, ℱ, ℙ, {Ft}t≥0) 𝒜 ⇨ 解けはするけど連続という事前情報は使えてない ff 𝒮 ⇨ 普通に従来の強化学習を適用して終わり?
従来の強化学習 4 S2 3 S4 1 S7 1 1 4 S1 S6 2 2 S3 2 S5 7
従来の強化学習 4 S2 3 S4 1 S7 1 4 S1 2 0 S6 ? 2 V S3 1 2 S5 8
従来の強化学習 2.5 V 4 S2 3 S4 1 S7 1 1 4 S1 2 ? 2.9 V S3 S6 2 V 2 S5 9
従来の強化学習 2.5 V 4 S2 3 S4 1 S7 1 1 4 S1 2 ? 2.9 V S3 S6 2 V 2 S5 10
従来の強化学習 2.5 V 4 S2 ベルマン方程式 3 S4 1 S7 1 1 4 S1 2 ? 2.9 V V S3 11 2 S5 S6 2
従来の強化学習 ベルマン方程式 更新式(仮) 更新式 Temporal Di erence ff 12
強化学習における時間の連続性 13
強化学習における時間の連続性 14
強化学習における時間の連続性 15
ODE / SDE 上での強化学習 時間に連続な遷移確率を使えばOK 16
微分方程式を用いて価値関数をさらに展開
微分方程式を用いて価値関数をさらに展開 1次の項 2次の項 1次の項 18 2次の項
微分方程式を用いて価値関数をさらに展開 Bellman 方程式 HJB方程式 19
従来の強化学習 ベルマン方程式 更新式(仮) 更新式 Temporal Di erence ff 20
微分方程式を用いて価値関数をさらに展開 Bellman 方程式 HJB方程式 従来の強化学習ではベルマン方程式の右辺の期待値をサンプルで置き換えていた
HJB方程式 Bellman 方程式 HJB方程式 HJBも期待値をサンプルで置き換えればOK ? 22
HJB方程式 Bellman 方程式 HJB方程式 HJBも期待値をサンプルで置き換えればOK ? 23 微分方程式の係数が必要
HJB方程式 HJB方程式 HJBも期待値をサンプルで置き換えればOK ? 24 微分方程式の係数が必要 サンプルの式 サンプルの式
HJB方程式 25
di erential TD ff 26
di erential TD ff 27
di erential TD 価値関数の入力に関する1, 2階の微分のリプシッツ連続性を仮定し 割引率を適切に設定すると収束が言えるが適切な設定は簡単にはわからない ⇨ ff 28
di erential TD ff 29