【ゼロから作るDeep Learning④】DDPG

>100 Views

December 25, 25

スライド概要

profile-image

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

2025年後期輪読会 #10 (12/25) DDPG 京都大学 理学部 数理科学系 B3 千葉 一世 0

2.

背景 2015年にDQN(Deep Q Network)が発表され、ニューラルネットワークによって、 画像のような複雑な高次元状態空間でも学習が上手くいくようになった。 しかし、行動空間については離散的なもの(Ex. 十字キーの上下左右のみなど)に制限されており、 スティック操作・ロボットアームなど連続値を扱えるような手法の開発が進められた。 • 連続値を離散化する場合、離散値の個数に対して指数的に組合せが増大してしまう。 • DQNの過程でmaxを計算する必要があり、連続値では出来ない。 単にDQNを連続行動空間に適用することは上記の問題点があり上手くいかなかったため、 方策にもニューラルネットワークを用いるActor-Critic方式を用いたDDPGが開発された。 1

3.

DDPG DDPG(Deep Deterministic Policy Gradient): DPG(Deterministic Policy Gradient):決定論的な方策を用いたActor-Criticの手法をベースに DQNの知見からニューラルネットワーク学習が上手く収束するように改良した手法。 Actorには名前の通り決定的な方策を用いる。 平均と分散を予測したりなど、 行動選択の確率分布を与えるのではなく 状態に対する最適な行動を直接予測する。 Actor-Criticの学習 • DPGアルゴリズムをベースとして、以下のような工夫を加えた 学習の工夫 • 探索ノイズ • • • • 経験再生(Experience Replay) Soft Target Updates Batch正則化 Action Input 2

4.

DDPGの詳細 Actor-Criticの学習 DPGアルゴリズム: 決定論的な方策によるActor-Critic方式の学習方法 連続な行動空間でも適用できる。 Actorの学習 期待報酬 𝐽 が𝑄(𝑠, 𝜇(𝑠))であわらされるため、連鎖率より以下のように勾配が求まる。 この勾配を用いて、𝐽を最大化するように学習を進める。 Criticの学習 基本はDQNでの手法と同じだが、連続行動の最大値を求めることは困難であるため、 ActorがQ関数を最大化するように学習されていることから、𝜇(𝑠)を最大値を取る行動とみなす。 3

5.

DDPGの詳細 Actorの学習工夫 探索ノイズ:決定論的な方策に対して探索を行うために毎行動選択時にノイズを加える手法。 論文では、オルンシュタイン・ウーレンベック過程という時間的に相関のある 慣性を持つノイズを利用しているが、正規分布などでも代用は可能。 慣性を持たせるのは、「右・左・右・左」のようにランダムにノイズを加えても キャンセルされてしまうため、ある程度の時間は同じ方向ににずらす必要がある。 4

6.

DDPGの詳細 Actor-Critic全体の学習工夫 経験再生:過去のデータを保存しておき、保存されたデータからランダムに取り出して 学習に用いることで、データの相関を減らす働きをする。 Soft Target Updates:Q関数を学習する際に、TDターゲットを一定期間固定するTarget Network を改良した手法で、固定期間は一定でいきなり更新するのではなく、 緩やかに更新していく手法。 Target Networkでは、100回に一回などにパラメータをそのまま更新するのに対して、 以下のようにハイパーパラメータ𝜏 = 0.001 を用いて毎回少しずつ更新していく。 Target Networkのような急激な変化が無く学習がより安定する。 (Target Networkすらしないと多くの場合学習が発散してしまう。) 5

7.

Batch正規化:アームの位置や速度など物理データの入力の際に、項目ごとにスケールが異なり、 環境によっても異なることによって、学習が困難になる事を防ぐために ミニバッチ内で正規化を行うBatch正規化を用いた。 これによって、様々なタスクで一貫して学習をすることが出来た。 Action Input:Q関数の構造として、行動を最初から入れるのではなく、途中から入力する。 これにより、状態の情報を整理した後に行動を合わせて処理できるようになった。 6

8.

DDPG 最終的な学習アルゴリズム 7

9.

実験結果 実験としては、アームの位置・速度などの低次元なデータを入力とする場合と 画像データのみを入力とする場合の二つを行った。 実験1 MuJoCoによるシュミレーション実験 DPG(B正規化) DPG(TN) DPG(B正規化, TN) DPG(TN, 画像のみ) • 単純なタスクでは、低次元データを用いるのと同等の性能を画像入力だけから実現できた。 • Atariなどでは、画像のみでDQNの20倍ほど早く学習が出来た 8