【ゼロから作るDeep Learning④】DDPG

157 Views

December 25, 25

#強化学習 #DDPG #Actor-Critic #深層学習 #連続行動空間

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 30.5K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 23.4K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 22.5K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 19.4K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

京都大学人工知能研究会KaiRA 13.7K

【物体検出】MaskFormer

京都大学人工知能研究会KaiRA 13K

各ページのテキスト

2025年後期輪読会 #10 (12/25) DDPG 京都大学理学部数理科学系 B3 千葉一世 0

背景 2015年にDQN(Deep Q Network)が発表され、ニューラルネットワークによって、画像のような複雑な高次元状態空間でも学習が上手くいくようになった。しかし、行動空間については離散的なもの(Ex. 十字キーの上下左右のみなど)に制限されており、スティック操作・ロボットアームなど連続値を扱えるような手法の開発が進められた。 • 連続値を離散化する場合、離散値の個数に対して指数的に組合せが増大してしまう。 • DQNの過程でmaxを計算する必要があり、連続値では出来ない。単にDQNを連続行動空間に適用することは上記の問題点があり上手くいかなかったため、方策にもニューラルネットワークを用いるActor-Critic方式を用いたDDPGが開発された。 1

https://arxiv.org/pdf/1312.5602

DDPG DDPG(Deep Deterministic Policy Gradient)： DPG(Deterministic Policy Gradient):決定論的な方策を用いたActor-Criticの手法をベースに DQNの知見からニューラルネットワーク学習が上手く収束するように改良した手法。 Actorには名前の通り決定的な方策を用いる。平均と分散を予測したりなど、行動選択の確率分布を与えるのではなく状態に対する最適な行動を直接予測する。 Actor-Criticの学習 • DPGアルゴリズムをベースとして、以下のような工夫を加えた学習の工夫 • 探索ノイズ • • • • 経験再生(Experience Replay) Soft Target Updates Batch正則化 Action Input 2

DDPGの詳細 Actor-Criticの学習 DPGアルゴリズム: 決定論的な方策によるActor-Critic方式の学習方法連続な行動空間でも適用できる。 Actorの学習期待報酬 𝐽 が𝑄(𝑠, 𝜇(𝑠))であわらされるため、連鎖率より以下のように勾配が求まる。この勾配を用いて、𝐽を最大化するように学習を進める。 Criticの学習基本はDQNでの手法と同じだが、連続行動の最大値を求めることは困難であるため、 ActorがQ関数を最大化するように学習されていることから、𝜇(𝑠)を最大値を取る行動とみなす。 3

DDPGの詳細 Actorの学習工夫探索ノイズ：決定論的な方策に対して探索を行うために毎行動選択時にノイズを加える手法。論文では、オルンシュタイン・ウーレンベック過程という時間的に相関のある慣性を持つノイズを利用しているが、正規分布などでも代用は可能。慣性を持たせるのは、「右・左・右・左」のようにランダムにノイズを加えてもキャンセルされてしまうため、ある程度の時間は同じ方向ににずらす必要がある。 4

https://ja.wikipedia.org/wiki/オルンシュタイン＝ウーレンベック過程

DDPGの詳細 Actor-Critic全体の学習工夫経験再生：過去のデータを保存しておき、保存されたデータからランダムに取り出して学習に用いることで、データの相関を減らす働きをする。 Soft Target Updates：Q関数を学習する際に、TDターゲットを一定期間固定するTarget Network を改良した手法で、固定期間は一定でいきなり更新するのではなく、緩やかに更新していく手法。 Target Networkでは、100回に一回などにパラメータをそのまま更新するのに対して、以下のようにハイパーパラメータ𝜏 = 0.001 を用いて毎回少しずつ更新していく。 Target Networkのような急激な変化が無く学習がより安定する。 (Target Networkすらしないと多くの場合学習が発散してしまう。) 5

Batch正規化：アームの位置や速度など物理データの入力の際に、項目ごとにスケールが異なり、環境によっても異なることによって、学習が困難になる事を防ぐためにミニバッチ内で正規化を行うBatch正規化を用いた。これによって、様々なタスクで一貫して学習をすることが出来た。 Action Input：Q関数の構造として、行動を最初から入れるのではなく、途中から入力する。これにより、状態の情報を整理した後に行動を合わせて処理できるようになった。 6

DDPG 最終的な学習アルゴリズム 7

実験結果実験としては、アームの位置・速度などの低次元なデータを入力とする場合と画像データのみを入力とする場合の二つを行った。実験1 MuJoCoによるシュミレーション実験 DPG(B正規化) DPG(TN) DPG(B正規化, TN) DPG(TN, 画像のみ) • 単純なタスクでは、低次元データを用いるのと同等の性能を画像入力だけから実現できた。 • Atariなどでは、画像のみでDQNの20倍ほど早く学習が出来た 8

10.