【ゼロから作るDeep Learning④】5.4~5.6

>100 Views

November 06, 25

スライド概要

profile-image

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

2025年後期輪読会#6 ゼロから作るDeepLearning⑤5.4~5.6 モンテカルロ法による方策制御 京都大学工学部 情報学科 B3 宮前明生 0

2.

アジェンダ ◼ モンテカルロ法による方策制御 ◼ 方策オフ型のモンテカルロ法 1

3.

アジェンダ ◼ モンテカルロ法による方策制御 ◼ 方策オフ型のモンテカルロ法 2

4.

モンテカルロ法による方策制御:方策評価から方策制御の変更点 • 前節では、状態価値関数𝑉𝑛 (𝑠)を評価する方策評価を行った • 次は、行動価値関数𝑄𝑛 (𝑠, 𝑎)を「評価」し、greedy化することで方策を「改善」することを繰 り返す方策制御を行う • 「改善」フェーズでは、行動価値関数𝑄𝑛 (𝑠, 𝑎)が最大の行動を選ぶ、行動価値関数𝑄𝑛 (𝑠, 𝑎)は状 態価値関数𝑉𝑛 (𝑠)で表現できる • 𝑄𝑛 (𝑠, 𝑎)を直接モンテカルロ法で求める 3

5.

モンテカルロ法による方策制御:方策評価から方策制御の変更点 実装の変更点① 𝑉𝑛 (𝑠)から𝑄𝑛 (𝑠, 𝑎)を更新するように変更 実装の変更点② 方策はgreedy化することで決定( 𝑄𝑛 (𝑠, 𝑎)が最大 になる方策に決定) 4

6.

モンテカルロ法による方策制御:方策制御の2つの修正点 修正点①ε-greedy法 𝑄𝑛 (𝑠, 𝑎)が最大の行動を必ず選ぶgreedy法から、 3 4 1 4 𝑄𝑛 (𝑠, 𝑎)が最大の行動は1 − 𝜀、その他の行動は 𝜀でランダムに決定するε-greedy法に変更 修正点②固定値𝛼方式 サンプルデータの均一な重みの平均を求める標本平均から、 重みが指数関数的に増加する指数移動平均に変更(新しいデータを重視) これは、1.5.1の非定常問題におけるバンディットアルゴリズムと同じ 5

7.

モンテカルロ法による方策制御:方策制御の2つの修正点 修正点①ε-greedy法 3 4 1 4 最大の行動は1 − 𝜀、その他の行動は 𝜀 修正点②固定値𝛼方式 更新式 6

8.

モンテカルロ法による方策制御:方策制御の2つの修正点 修正後のモンテカルロ法による方策制御の結果 7

9.

アジェンダ ◼ モンテカルロ法による方策制御 ◼ 方策オフ型のモンテカルロ法 8

10.

方策オフ型のモンテカルロ法:方策オフ型と方策オン型 方策の評価と改善を行うターゲット方策(探索)と 実際の行動を行う挙動方策(活用)が つながっているか(オン)・はなれているか(オフ) 今までの方策制御はターゲット方策と挙動方策の区別がなく同一の方策𝜋(𝑎)を扱う方策オン型 これからはターゲット方策𝑏(𝑎)と挙動方策𝜋(𝑎)を区別して扱う方策オフ型 9

11.

方策オフ型のモンテカルロ法:重点サンプリング ターゲット方策𝑏(𝑎)でサンプリングを行うが、 結果としては挙動方策𝜋(𝑎)と同じ期待値が求めたい 𝜌 𝑥 = 𝑏(𝑥)/𝜋(𝑥)としてモンテカルロ法で表すと 𝑏 𝑥 と𝜋(𝑥)の分布が近い程、期待値の分散が小さくなる 10

12.

方策オフ型のモンテカルロ法:実装 1回の試行の到達時間を𝑇とすると、 重点モンテカルロ法による𝜌𝑡 の求め方はマルコフ性から 重点モンテカルロ法による行動評価関数𝑄𝑛 (𝑠, 𝑎)の求め方は(固定値𝛼方式) 11

13.

方策オフ型のモンテカルロ法:実装 • ターゲット方策𝑏(𝑎)を追加 • 𝑏(𝑎)はgreedy法 • 𝜋(𝑎)はε-greedy法 ターゲット方策𝑏(𝑎)で探索を行うが、挙動方策 𝜋(𝑎)のときの行動評価関数𝑄𝑛 (𝑠, 𝑎)の期待値が 求まる • 重み𝜌𝑡 を追加 12

14.

方策オフ型のモンテカルロ法:実装 方策オフ型のモンテカルロ法の結果 13

15.

方策オフ型のモンテカルロ法:実装 発表で訂正したコード 元のコード 14