【DL輪読会】A Foundation of Reinforcement Learning for StochasticContinuous Dynamics:Temporal Difference Method

6.3K Views

March 27, 25

#強化学習 #連続時間力学系 #確率微分方程式 #Temporal Difference #HJB方程式

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 86.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.8K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 57.4K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 40.6K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 35.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 35.3K

各ページのテキスト

DEEP LEARNING JP [DL Papers] A Foundation of Reinforcement Learning for Stochastic Continuous Dynamics: Temporal Difference Method Haruki Settai Reinforcement Learning for Stochastic Continuous Dynamics Haruki Settai The University of Tokyo http://deeplearning.jp/ 1

http://deeplearning.jp/

目次 1. 強化学習 2. ODE / SDE に従う系での強化学習 3. 提案手法 di erential TD ff 2

従来の強化学習 MDP 𝒮 𝒜 𝒮 𝒜 𝒜 𝒮 𝒮 𝒜 𝒮 状態空間: 行動空間: 報酬関数r: × → ℝ | | 遷移関数: P : × → [0,1] 割引率: γ ∈ [0,1) ( , , r, P, γ)

従来の強化学習 MDP ff 𝒜 𝒮 ( , , r, P, γ) Controlled Di usion Process dXt = μ(Xt, At)dt + σ(Xt, At)dBt (Ω, ℱ, ℙ, {Ft}t≥0)

従来の強化学習 MDP , r, P, γ) dXt = μ(Xt, At)dt + σ(Xt, At)dBt (Ω, ℱ, ℙ, {Ft}t≥0) ⇨ 普通に従来の強化学習を適用して終わり? ff 𝒜 𝒮 ( , Controlled Di usion Process

従来の強化学習 MDP ( , , r, P, γ) Controlled Di usion Process dXt = μ(Xt, At)dt + σ(Xt, At)dBt (Ω, ℱ, ℙ, {Ft}t≥0) 𝒜 ⇨ 解けはするけど連続という事前情報は使えてない ff 𝒮 ⇨ 普通に従来の強化学習を適用して終わり?

従来の強化学習 4 S2 3 S4 1 S7 1 1 4 S1 S6 2 2 S3 2 S5 7

従来の強化学習 4 S2 3 S4 1 S7 1 4 S1 2 0 S6 ? 2 V S3 1 2 S5 8

従来の強化学習 2.5 V 4 S2 3 S4 1 S7 1 1 4 S1 2 ? 2.9 V S3 S6 2 V 2 S5 9

10.

従来の強化学習 2.5 V 4 S2 3 S4 1 S7 1 1 4 S1 2 ? 2.9 V S3 S6 2 V 2 S5 10

11.

従来の強化学習 2.5 V 4 S2 ベルマン方程式 3 S4 1 S7 1 1 4 S1 2 ? 2.9 V V S3 11 2 S5 S6 2

12.

従来の強化学習ベルマン方程式更新式(仮) 更新式 Temporal Di erence ff 12

13.

強化学習における時間の連続性 13

14.