【DL輪読会】A Foundation of Reinforcement Learning for StochasticContinuous Dynamics:Temporal Difference Method

737 Views

March 27, 25

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] A Foundation of Reinforcement Learning for Stochastic Continuous Dynamics: Temporal Difference Method Haruki Settai Reinforcement Learning for Stochastic Continuous Dynamics Haruki Settai The University of Tokyo http://deeplearning.jp/ 1

2.

目次 1. 強化学習 2. ODE / SDE に従う系での強化学習 3. 提案手法 di erential TD ff 2

3.

従来の強化学習 MDP 𝒮 𝒜 𝒮 𝒜 𝒜 𝒮 𝒮 𝒜 𝒮 状態空間: 行動空間: 報酬関数r: × → ℝ | | 遷移関数: P : × → [0,1] 割引率: γ ∈ [0,1) ( , , r, P, γ)

4.

従来の強化学習 MDP ff 𝒜 𝒮 ( , , r, P, γ) Controlled Di usion Process dXt = μ(Xt, At)dt + σ(Xt, At)dBt (Ω, ℱ, ℙ, {Ft}t≥0)

5.

従来の強化学習 MDP , r, P, γ) dXt = μ(Xt, At)dt + σ(Xt, At)dBt (Ω, ℱ, ℙ, {Ft}t≥0) ⇨ 普通に従来の強化学習を適用して終わり? ff 𝒜 𝒮 ( , Controlled Di usion Process

6.

従来の強化学習 MDP ( , , r, P, γ) Controlled Di usion Process dXt = μ(Xt, At)dt + σ(Xt, At)dBt (Ω, ℱ, ℙ, {Ft}t≥0) 𝒜 ⇨ 解けはするけど連続という事前情報は使えてない ff 𝒮 ⇨ 普通に従来の強化学習を適用して終わり?

7.

従来の強化学習 4 S2 3 S4 1 S7 1 1 4 S1 S6 2 2 S3 2 S5 7

8.

従来の強化学習 4 S2 3 S4 1 S7 1 4 S1 2 0 S6 ? 2 V S3 1 2 S5 8

9.

従来の強化学習 2.5 V 4 S2 3 S4 1 S7 1 1 4 S1 2 ? 2.9 V S3 S6 2 V 2 S5 9

10.

従来の強化学習 2.5 V 4 S2 3 S4 1 S7 1 1 4 S1 2 ? 2.9 V S3 S6 2 V 2 S5 10

11.

従来の強化学習 2.5 V 4 S2 ベルマン方程式 3 S4 1 S7 1 1 4 S1 2 ? 2.9 V V S3 11 2 S5 S6 2

12.

従来の強化学習 ベルマン方程式 更新式(仮) 更新式 Temporal Di erence ff 12

13.

強化学習における時間の連続性 13

14.

強化学習における時間の連続性 14

15.

強化学習における時間の連続性 15

16.

ODE / SDE 上での強化学習 時間に連続な遷移確率を使えばOK 16

17.

微分方程式を用いて価値関数をさらに展開

18.

微分方程式を用いて価値関数をさらに展開 1次の項 2次の項 1次の項 18 2次の項

19.

微分方程式を用いて価値関数をさらに展開 Bellman 方程式 HJB方程式 19

20.

従来の強化学習 ベルマン方程式 更新式(仮) 更新式 Temporal Di erence ff 20

21.

微分方程式を用いて価値関数をさらに展開 Bellman 方程式 HJB方程式 従来の強化学習ではベルマン方程式の右辺の期待値をサンプルで置き換えていた

22.

HJB方程式 Bellman 方程式 HJB方程式 HJBも期待値をサンプルで置き換えればOK ? 22

23.

HJB方程式 Bellman 方程式 HJB方程式 HJBも期待値をサンプルで置き換えればOK ? 23 微分方程式の係数が必要

24.

HJB方程式 HJB方程式 HJBも期待値をサンプルで置き換えればOK ? 24 微分方程式の係数が必要 サンプルの式 サンプルの式

25.

HJB方程式 25

26.

di erential TD ff 26

27.

di erential TD ff 27

28.

di erential TD 価値関数の入力に関する1, 2階の微分のリプシッツ連続性を仮定し 割引率を適切に設定すると収束が言えるが適切な設定は簡単にはわからない ⇨ ff 28

29.

di erential TD ff 29