>100 Views
November 06, 25
スライド概要
AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!
2025年後期輪読会#6 ゼロから作るDeepLearning⑤5.4~5.6 モンテカルロ法による方策制御 京都大学工学部 情報学科 B3 宮前明生 0
アジェンダ ◼ モンテカルロ法による方策制御 ◼ 方策オフ型のモンテカルロ法 1
アジェンダ ◼ モンテカルロ法による方策制御 ◼ 方策オフ型のモンテカルロ法 2
モンテカルロ法による方策制御:方策評価から方策制御の変更点 • 前節では、状態価値関数𝑉𝑛 (𝑠)を評価する方策評価を行った • 次は、行動価値関数𝑄𝑛 (𝑠, 𝑎)を「評価」し、greedy化することで方策を「改善」することを繰 り返す方策制御を行う • 「改善」フェーズでは、行動価値関数𝑄𝑛 (𝑠, 𝑎)が最大の行動を選ぶ、行動価値関数𝑄𝑛 (𝑠, 𝑎)は状 態価値関数𝑉𝑛 (𝑠)で表現できる • 𝑄𝑛 (𝑠, 𝑎)を直接モンテカルロ法で求める 3
モンテカルロ法による方策制御:方策評価から方策制御の変更点 実装の変更点① 𝑉𝑛 (𝑠)から𝑄𝑛 (𝑠, 𝑎)を更新するように変更 実装の変更点② 方策はgreedy化することで決定( 𝑄𝑛 (𝑠, 𝑎)が最大 になる方策に決定) 4
モンテカルロ法による方策制御:方策制御の2つの修正点 修正点①ε-greedy法 𝑄𝑛 (𝑠, 𝑎)が最大の行動を必ず選ぶgreedy法から、 3 4 1 4 𝑄𝑛 (𝑠, 𝑎)が最大の行動は1 − 𝜀、その他の行動は 𝜀でランダムに決定するε-greedy法に変更 修正点②固定値𝛼方式 サンプルデータの均一な重みの平均を求める標本平均から、 重みが指数関数的に増加する指数移動平均に変更(新しいデータを重視) これは、1.5.1の非定常問題におけるバンディットアルゴリズムと同じ 5
モンテカルロ法による方策制御:方策制御の2つの修正点 修正点①ε-greedy法 3 4 1 4 最大の行動は1 − 𝜀、その他の行動は 𝜀 修正点②固定値𝛼方式 更新式 6
モンテカルロ法による方策制御:方策制御の2つの修正点 修正後のモンテカルロ法による方策制御の結果 7
アジェンダ ◼ モンテカルロ法による方策制御 ◼ 方策オフ型のモンテカルロ法 8
方策オフ型のモンテカルロ法:方策オフ型と方策オン型 方策の評価と改善を行うターゲット方策(探索)と 実際の行動を行う挙動方策(活用)が つながっているか(オン)・はなれているか(オフ) 今までの方策制御はターゲット方策と挙動方策の区別がなく同一の方策𝜋(𝑎)を扱う方策オン型 これからはターゲット方策𝑏(𝑎)と挙動方策𝜋(𝑎)を区別して扱う方策オフ型 9
方策オフ型のモンテカルロ法:重点サンプリング ターゲット方策𝑏(𝑎)でサンプリングを行うが、 結果としては挙動方策𝜋(𝑎)と同じ期待値が求めたい 𝜌 𝑥 = 𝑏(𝑥)/𝜋(𝑥)としてモンテカルロ法で表すと 𝑏 𝑥 と𝜋(𝑥)の分布が近い程、期待値の分散が小さくなる 10
方策オフ型のモンテカルロ法:実装 1回の試行の到達時間を𝑇とすると、 重点モンテカルロ法による𝜌𝑡 の求め方はマルコフ性から 重点モンテカルロ法による行動評価関数𝑄𝑛 (𝑠, 𝑎)の求め方は(固定値𝛼方式) 11
方策オフ型のモンテカルロ法:実装 • ターゲット方策𝑏(𝑎)を追加 • 𝑏(𝑎)はgreedy法 • 𝜋(𝑎)はε-greedy法 ターゲット方策𝑏(𝑎)で探索を行うが、挙動方策 𝜋(𝑎)のときの行動評価関数𝑄𝑛 (𝑠, 𝑎)の期待値が 求まる • 重み𝜌𝑡 を追加 12
方策オフ型のモンテカルロ法:実装 方策オフ型のモンテカルロ法の結果 13
方策オフ型のモンテカルロ法:実装 発表で訂正したコード 元のコード 14