【ゼロから作るDeep Learning④】5.4~5.6

>100 Views

November 06, 25

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 30.1K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 22.9K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 21.2K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 18.4K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

京都大学人工知能研究会KaiRA 13K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.5節）

京都大学人工知能研究会KaiRA 12.1K

各ページのテキスト

2025年後期輪読会#6 ゼロから作るDeepLearning⑤5.4~5.6 モンテカルロ法による方策制御京都大学工学部情報学科 B3 宮前明生 0

アジェンダ ◼ モンテカルロ法による方策制御 ◼ 方策オフ型のモンテカルロ法 1

アジェンダ ◼ モンテカルロ法による方策制御 ◼ 方策オフ型のモンテカルロ法 2

モンテカルロ法による方策制御：方策評価から方策制御の変更点 • 前節では、状態価値関数𝑉𝑛 (𝑠)を評価する方策評価を行った • 次は、行動価値関数𝑄𝑛 (𝑠, 𝑎)を「評価」し、greedy化することで方策を「改善」することを繰り返す方策制御を行う • 「改善」フェーズでは、行動価値関数𝑄𝑛 (𝑠, 𝑎)が最大の行動を選ぶ、行動価値関数𝑄𝑛 (𝑠, 𝑎)は状態価値関数𝑉𝑛 (𝑠)で表現できる • 𝑄𝑛 (𝑠, 𝑎)を直接モンテカルロ法で求める 3

モンテカルロ法による方策制御：方策評価から方策制御の変更点実装の変更点① 𝑉𝑛 (𝑠)から𝑄𝑛 (𝑠, 𝑎)を更新するように変更実装の変更点② 方策はgreedy化することで決定（ 𝑄𝑛 (𝑠, 𝑎)が最大になる方策に決定） 4

モンテカルロ法による方策制御：方策制御の2つの修正点修正点①ε-greedy法 𝑄𝑛 (𝑠, 𝑎)が最大の行動を必ず選ぶgreedy法から、 3 4 1 4 𝑄𝑛 (𝑠, 𝑎)が最大の行動は1 − 𝜀、その他の行動は 𝜀でランダムに決定するε-greedy法に変更修正点②固定値𝛼方式サンプルデータの均一な重みの平均を求める標本平均から、重みが指数関数的に増加する指数移動平均に変更（新しいデータを重視）これは、1.5.1の非定常問題におけるバンディットアルゴリズムと同じ 5

モンテカルロ法による方策制御：方策制御の2つの修正点修正点①ε-greedy法 3 4 1 4 最大の行動は1 − 𝜀、その他の行動は 𝜀 修正点②固定値𝛼方式更新式 6

モンテカルロ法による方策制御：方策制御の2つの修正点修正後のモンテカルロ法による方策制御の結果 7

アジェンダ ◼ モンテカルロ法による方策制御 ◼ 方策オフ型のモンテカルロ法 8

10.

方策オフ型のモンテカルロ法：方策オフ型と方策オン型方策の評価と改善を行うターゲット方策（探索）と実際の行動を行う挙動方策（活用）がつながっているか（オン）・はなれているか（オフ）今までの方策制御はターゲット方策と挙動方策の区別がなく同一の方策𝜋(𝑎)を扱う方策オン型これからはターゲット方策𝑏(𝑎)と挙動方策𝜋(𝑎)を区別して扱う方策オフ型 9

11.

方策オフ型のモンテカルロ法：重点サンプリングターゲット方策𝑏(𝑎)でサンプリングを行うが、結果としては挙動方策𝜋(𝑎)と同じ期待値が求めたい 𝜌 𝑥 = 𝑏(𝑥)/𝜋(𝑥)としてモンテカルロ法で表すと 𝑏 𝑥 と𝜋(𝑥)の分布が近い程、期待値の分散が小さくなる 10

12.

方策オフ型のモンテカルロ法：実装 1回の試行の到達時間を𝑇とすると、重点モンテカルロ法による𝜌𝑡 の求め方はマルコフ性から重点モンテカルロ法による行動評価関数𝑄𝑛 (𝑠, 𝑎)の求め方は（固定値𝛼方式） 11

13.

方策オフ型のモンテカルロ法：実装 • ターゲット方策𝑏(𝑎)を追加 • 𝑏(𝑎)はgreedy法 • 𝜋(𝑎)はε-greedy法ターゲット方策𝑏(𝑎)で探索を行うが、挙動方策 𝜋(𝑎)のときの行動評価関数𝑄𝑛 (𝑠, 𝑎)の期待値が求まる • 重み𝜌𝑡 を追加 12

14.

方策オフ型のモンテカルロ法：実装方策オフ型のモンテカルロ法の結果 13

15.

方策オフ型のモンテカルロ法：実装発表で訂正したコード元のコード 14