【ゼロから作るDeep Learning④】Rainbow

>100 Views

January 08, 26

スライド概要

profile-image

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

2025年度後期輪読会#12(2026/1/8) Rainbow 京都大学工学部理工化学科B2 岡本和優 0

2.

アジェンダ ◼ DQNの拡張 ◼ Rainbow 1

3.

アジェンダ ◼ DQNの拡張 ◼ Rainbow 2

4.

DQNの拡張と改善 DQNの拡張ぜんぶ乗せバージョンがRainbow DQNが提案されて以降、様々な改善手法が提案されてきた • Double DQN • 優先度付き経験再生 • Dueling DQN • カテゴリカルDQN • マルチステップ学習 • Noisy Network しかしこれらが組み合わされたときにどうなるかは謎 ぜんぶ使っちゃえばいいじゃん:Rainbow 3

5.

Double DQN(スライド再利用) メインのネットワークとターゲットネットワークをうまく使い分け メインのネットワークとターゲットネットワークで表現されるQ関数をそれぞれ𝑄𝜃 , 𝑄𝜃′ としたとき、通常DQNのQ関数の更新で用いるターゲットは 𝑅𝑡 + 𝛾 max 𝑄𝜃′ (𝑆𝑡+1 , 𝑎) 𝑎 だが、Doble DQNでは 𝑅𝑡 + 𝛾 max 𝑄𝜃′ (𝑆𝑡 , argmaxa 𝑄𝜃 (𝑆𝑡+1 , 𝑎)) 𝑎 を用いて、行動の選択と評価を分離させている。 これによってQ関数の過大評価を解消することができる ※過大評価とは? 推定中のQ関数を使う場合は誤差が含まれるので、 max 𝑄 (𝑠, 𝑎) の期待値は真の値より大 𝑎 きくなる。行動の選択と評価を分けることで、誤差が含まれていても、過大評価される確 率は小さくなる(行動でも過大評価されて、評価でも過大評価されることは少ないから) 4

6.

優先度付き経験再生(スライド再利用) 学ぶべきことが大きい経験データを優先的に選択する 通常のDQNではランダムに経験データを用いて使用するが、優先度に応じて選ぶこともできる。 自然に考えると、ターゲットと更新するQ関数の差分の絶対値を用いて、 𝛿𝑡 = 𝑅𝑡 + 𝛾 max 𝑄𝜃′ (𝑆𝑡+1 , 𝑎) − 𝑄𝜃 (𝑆𝑡 , 𝐴𝑡 ) 𝑎 を基準として優先度を決めることができる。ターゲットとの差分が大きいほど、学ぶべきことが 多いデータだと言えるからだ。 バッファに保存する際に𝛿𝑡 を計算しておいて、取り出す際には 𝛿𝑖 𝑝𝑖 = 𝑁 σ𝑘=0 𝛿𝑘 にしたがって経験データを選び出せばよい 5

7.

Dueling DQN(スライド再利用) アドバンテージ関数を導入することで、すべての行動を試さなくてもよくなった アドバンテージ関数 𝐴(𝑠, 𝑎)をQ関数と価値関数の差分として定義し、 ネットワークにA (𝑠, 𝑎)と価値関数𝑉(𝑠)を学習させ、そこから𝑄(𝑠, 𝑎)を求めるようにする。 これによりどんな行動をしても結果が変わらない状況に対して、他の行動を試さなくても𝑄(𝑠, 𝑎) の近似性能を上げることができる 6

8.

カテゴリカルDQN 収益をカテゴリカル分布としてモデル化 収益の期待値であるQ関数ではなく、収益の分布𝑍π (𝑠, 𝑎)を学習対象とする 分布版のベルマン方程式はΤ𝑍 𝑠, 𝑎 = 𝑅 𝑠, 𝑎 + γ𝑍 s′, a′ (分布を割引率で縮小→報酬の値だけ平行移動、で更新する) その後、割引率で縮小した分、カテゴリカル分布のピンが変わるので元に戻す 学習の際の損失関数はKLダイバージェンス or クロスエントロピー 7

9.

マルチステップ学習 ターゲットに使う報酬をn-stepまで拡張する 通常のターゲットで用いられるのは即時報酬R t これをnステップの累積報酬に切り替える n−1 Q(st , at ) = ෍ 𝛾 k R t+k+1 + 𝛾 n Q(St+n , a’) k=0 nステップ先までの報酬を使う分学習が安定 長期的な報酬を考慮させることが可能になった 8

10.

Noisy Networks ε-greedy法の変わりに、出力自体に揺らぎを持たせる ε-greedy法だとεの値によって最終的な結果に大きな差が出てしまう 線形層の重みとバイアスを、正規分布の平均と分散で表し、ノイズを加える y = (𝜇w + 𝜎 w ⊙ 𝜖 w )x + 𝜇b + 𝜎 b ⊙ 𝜖 b μとσが学習するパラメータ。εは標準席分布に従った乱数 9

11.

アジェンダ ◼ DQNの拡張 ◼ Rainbow 10

12.

Rainbowの手法 今まで紹介したDQNの拡張を全部組み合わせる • 損失関数はマルチステップ学習・Double DQNを組み込んだターゲット分布とのKL情報量 • カテゴリカルDQNの報酬をnステップの割引報酬和に変更、 行動選択はオンラインネットワークで行う • 優先度付き経験再生はターゲットと予測のKL情報量の大きさに基づいて優先度付け • Noisy Networksを導入するので、ε-greedyは切っておく 11

13.

Rainbowの結果 多くのゲームで人間を上回る結果を達成 Atariのゲーム57種類で実験を行った それぞれ2億フレーム(5000万ステップ)で訓練 優先度付き経験再生、マルチステップ学習を削除したときの影響が大きい 12

14.

まとめ DQNの改善を全部詰め込んだバージョンがRainbow RainbowはDQNの主要な改善手法を統合したもの • Double DQN • 優先度付き経験再生 • Dueling DQN • カテゴリカルDQN • マルチステップ学習 • Noisy Network Atariのゲームで人間を上回る成果を達成。通常のDQNよりも高性能 優先度付き経験再生とマルチステップ学習の有無が大きく効いている 13