>100 Views
September 30, 16
スライド概要
2016/9/30
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient Lantao Yu† , Weinan Zhang† , Jun Wang‡ , Yong Yu† †Shanghai Jiao Tong University, ‡University College London {yulantao,wnzhang,yyu}@apex.sjtu.edu.cn, [email protected] 2016/9/30 発表者:金子貴輝
内容 • • • • GANのDからGへの勾配伝播が離散系列では消えてしまうので, Gを微修正の効く確率的なモデルに置き換え,方策勾配で伝える GにはLSTMも使用する Qはパラメータ近似せず,毎回MC-searchで平均して求める 内部的にRLを使うのは先行研究有り – VRNNのエンコーダがguide,デコーダが真の方策と, VAEをguided policy searchだと捉え直せる • 実験は合成データと実データの2つ – 学習曲線が特徴的 2
GANの苦手分野 • GANはGeneratorとDiscriminatorの2つで学習する • GANの式 – 𝑎𝑟𝑔𝑚𝑖𝑛' Ε) * log 𝐷/ (𝐺' 𝑧 ) 𝑠. 𝑡. 𝜙 = 𝑎𝑟𝑔𝑚𝑖𝑛/ Ε)∗ : log 𝐷/ 𝑥 + Ε)= : log(1 − 𝐷/ 𝑥 ) • 生成する値を通して誤差逆伝播する – 離散値の生成モデルは苦手 離散系列の生成モデルのために,Generatorと微分の仕方を変える 3
方策勾配法と他の勾配法との違い • 方策勾配法では分布を微分する • 代わりに,期待値の中身は微分しない • スカラーで伝播する(行動価値など) 𝛻' 𝑝' 𝑥 = 𝛻' log 𝑝' 𝑥 𝑝' 𝑥 4
SeqGANのアルゴリズム • Discriminatorの学習はそのまま(左) • Generatorを強化学習に置き換える(右) – 𝑎𝑟𝑔𝑚𝑖𝑛' Ε) * log 𝐷/ (𝐺' 𝑧 )から 𝑎𝑟𝑔𝑚𝑖𝑛' Ε) * ΕC~E= * 𝐷/ (𝑦)へ – 離散系列を順にサンプリングしていく – 行動価値QはMC-searchで平均して求める 5
実験 • ランダムLSTMからの人工データ • 中国漢詩,オバマ演説,Nothingham(midi楽譜) 6
学習曲線 • 人工データでの負の対数尤度の推移 – MLEでの学習(pre-train)が終わった後,RLでの学習がNLLを 大きく改善している 7
学習曲線 8
系列の生成にRLを使う先行研究 • 拡張したguided policy searchの式がVAEの系列 モデルを包含する – guideが入力を観測できるエンコーダ – 学習するpolicyがデコーダ • reparameterization trickを使うので強化学習の 枠組みで考えても同じアルゴリズムになる 9