[DL輪読会]SeqGan Sequence Generative Adversarial Nets with Policy Gradient

>100 Views

September 30, 16

#SeqGAN #Generative Adversarial Nets #Policy Gradient #Machine Learning #Reinforcement Learning

スライド概要

2016/9/30
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 87.3K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.9K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 58.4K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.4K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 37.9K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 37.3K

各ページのテキスト

SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient Lantao Yu† , Weinan Zhang† , Jun Wang‡ , Yong Yu† †Shanghai Jiao Tong University, ‡University College London {yulantao,wnzhang,yyu}@apex.sjtu.edu.cn, j.wang@cs.ucl.ac.uk 2016/9/30 発表者：金子貴輝

内容 • • • • GANのDからGへの勾配伝播が離散系列では消えてしまうので， Gを微修正の効く確率的なモデルに置き換え，方策勾配で伝える GにはLSTMも使用する Qはパラメータ近似せず，毎回MC-searchで平均して求める内部的にRLを使うのは先行研究有り – VRNNのエンコーダがguide，デコーダが真の方策と， VAEをguided policy searchだと捉え直せる • 実験は合成データと実データの２つ – 学習曲線が特徴的 2

GANの苦手分野 • GANはGeneratorとDiscriminatorの２つで学習する • GANの式 – 𝑎𝑟𝑔𝑚𝑖𝑛' Ε) * log 𝐷/ (𝐺' 𝑧 ) 𝑠. 𝑡. 𝜙 = 𝑎𝑟𝑔𝑚𝑖𝑛/ Ε)∗ : log 𝐷/ 𝑥 + Ε)= : log(1 − 𝐷/ 𝑥 ) • 生成する値を通して誤差逆伝播する – 離散値の生成モデルは苦手離散系列の生成モデルのために，Generatorと微分の仕方を変える 3

方策勾配法と他の勾配法との違い • 方策勾配法では分布を微分する • 代わりに，期待値の中身は微分しない • スカラーで伝播する(行動価値など) 𝛻' 𝑝' 𝑥 = 𝛻' log 𝑝' 𝑥 𝑝' 𝑥 4

SeqGANのアルゴリズム • Discriminatorの学習はそのまま(左) • Generatorを強化学習に置き換える(右) – 𝑎𝑟𝑔𝑚𝑖𝑛' Ε) * log 𝐷/ (𝐺' 𝑧 )から 𝑎𝑟𝑔𝑚𝑖𝑛' Ε) * ΕC~E= * 𝐷/ (𝑦)へ – 離散系列を順にサンプリングしていく – 行動価値QはMC-searchで平均して求める 5

実験 • ランダムLSTMからの人工データ • 中国漢詩,オバマ演説,Nothingham(midi楽譜) 6

学習曲線 • 人工データでの負の対数尤度の推移 – MLEでの学習(pre-train)が終わった後，RLでの学習がNLLを大きく改善している 7

学習曲線 8

系列の生成にRLを使う先行研究 • 拡張したguided policy searchの式がVAEの系列モデルを包含する – guideが入力を観測できるエンコーダ – 学習するpolicyがデコーダ • reparameterization trickを使うので強化学習の枠組みで考えても同じアルゴリズムになる 9