[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction

>100 Views

August 03, 17

スライド概要

2017/8/4
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] “Reward Augmented Maximum Likelihood for Neural Structured Prediction “ (NIPS2016) And Non-MLE Sequence Modeling Jouji Toyama, Matsuo Lab http://deeplearning.jp/

2.

書誌情報 • Author – Mohammad Norouzi – Google Brain • Conference – NIPS 2016 • 選定理由 – シンプルな手法が好き • 脱☆尤度最大化! – な話をします 2017/8/8 2

3.

系列モデリング • 最近ではDeep Learningを用いた系列モデリングが 流行りです – 本日はRNNについて話します 2017/8/8 3

4.

RNNの通常の学習 • 多くの場合,RNNを学習させる時は正解系列の尤度 最大化を行う – 訓練時には正解データが常にRNNの入力にあたえられる (Teacher Forcing) – 生成時には,RNNの出力を次の時刻の入力に与える – 安定した学習が可能 Train Generation 2017/8/8 4

5.

尤度最大化の問題点 • Exposure Bias – 訓練時にRNNは常に正解を入力に与えられるが,生成時に は自身が予測した値が次の入力として与えられるという問題 点 • Beam-searchやモデルアンサンブルが必要な理由 – 学習時に訓練しているモデル!" #$ #%$ , ')から生成された系 列を用いて学習すれば上の問題は解決可能 • 系列の報酬の最適化をしていない – 例えば翻訳であればBLEUやMETEORを最適化したい • 報酬関数自体を学習したいという話も – Adversarial Training – 尤度最大化は正解の出力以外に等しくペナルティを与える • “見る”→”see”のペアに対して”look”という出力と”listen”とい う出力では等しいペナルティは不適切 2017/8/8 5

6.

DAD • 次のタイムステップの入力は、ground truthかsampleを 確率的に用いる。 • 二つの問題 – 1. サンプリングが用いられたところの誤差の伝播はできなくなる。 – 2.XENTは入力の選ばれ方にかかわらず常にground truthによっ てとられる。 • ex) “I took a long walk” という正解に対し、 “I took a walk”と 生成していると、DADはつぎの予測の正解を”walk”としてしまい、 結果“I took a walk walk”という文を生成する。 2017/8/8 6

7.

E2E • 次のタイムステップの入力として、確率が高いwordをk個 取ってきて、その確率値をもったスパースベクトルを用い る。 – 勾配計算可能。 • DADとE2Eは両者とも学習初期はground truthのみを用 いる。 2017/8/8 7

8.

MIXER • モデル自身の出力によって生成された系列のBLEU値 を、方策勾配法によって最適化する。 • 学習の初期は尤度最大化によって学習し、だんだん方 策勾配法を適用していく。 – XentとReinforceを組み合わせるからMIXER – めっちゃ引用されてる論文 2017/8/8 8

9.

(方策勾配法) ∞ ∇θ J = ∇θ Eπθ [∑ γ τ rτ ] τ =0 ∞ ⎡ ⎤ = ∇θ Es0 ~ ρ ,s '~ p ⎢ ∏ π θ ( at , st ) ∑ γ τ rτ ⎥ τ =0 ⎣ t=0 ⎦ ∞ ⎡ ⎤ = Es0 ~ ρ ,s '~ p ⎢∇θ ∏ π θ ( at , st ) ∑ γ τ rτ ⎥ τ =0 ⎣ t=0 ⎦ ⎡ ⎤ ∇θ ∏ π θ ( at , st ) ∞ t=0 = Es~ ρ ⎢ ∏ π θ ( at , st ) γ τ rτ ⎥ ∑ ⎢ t=0 ⎥ π θ ( at , st ) τ =0 ∏ ⎢⎣ ⎥⎦ t=0 ∞ ⎡ ⎤ = Es~ ρ ⎢ ∏ π θ (at | st )∑ ∇θ log(π θ (at | st ))∑ γ τ rτ ⎥ τ =0 t=0 ⎣ t=0 ⎦ ∞ = Eπθ [∑ ∇θ log(π θ (at | st ))∑ γ τ rτ ] t=0 τ =t given by Hatsugai 2017/8/8 9

10.

方策勾配法によって尤度最大化の諸問題は解決? • 方策勾配法は勾配の分散が大きい – 特に学習初期はモデルがめちゃくちゃな値を出すので Language Modelingではほぼ学習不可能 – Actor-Criticで分散を小さくする試み • An actor-critic algorithm for sequence prediction – 他にもReward Shapingとか細々したテクニックを大いに活用 • 複雑な系列モデリングに方策勾配法を用いる時は,尤 度最大化によるファインチューニングもしくは損失関 数に尤度を加えるといった工夫が必要. – なんかもっといい方法ないのかなぁ – そこで今回の論文 2017/8/8 10

11.

Reward Augmented Maximum Likelihood (RAML) • エントロピー正則の元での強化学習の目的関数を近似 的に最適化する – 報酬の最適化を行える • サンプリングは学習するモデル!" からではなく、 exponentiated payoff distributionという定常分布 から行う – 強化学習における非定常分布のサンプリングによる学習の不 安定さを解消 • ファインチューニングなど一切必要なし – exposure biasはある程度解消されると思われる • (論文中にexposure biasに関する言及はない) • 単一の式を最適化するのでシンプル – 個人的に一番好きなところ 2017/8/8 11

12.
[beta]
エントロピー正則での強化学習の目的関数
*+, '; ., / =

9

RL objective
9

1 {−.ℍ !" − 1 !" 5 6 7 5, 5 ∗ }

>,: ∗ ∈?

:∈<

ℍ !" ・・・エントロピー
7 5, 5 ∗ ・・・報酬関数

Exponentiated payoff distribution
@ 5 5∗: . =

1
exp{7(5, 5 ∗ )/.}
∗
C(5 , .)

where C 5 , . =
∗

9

1

>,: ∗ ∈?

J :,: ∗
9
∑:∈< exp{
K

}

Re-expressed RL objective
1
/L, ( !" 5 6) || @(5|5 ∗ ; .)) = *+, '; . + OPQRS
.

2017/8/8

12

13.

(証明) 2017/8/8 13

14.
[beta]
RAMLの目的関数
RL objective
9

1

>,: ∗ ∈?

/L, ( !" 5 6) || @(5|5 ∗ ; .)) =

1
*+, '; . + OPQRS
.

彡(゚)(゚)「これだとpT y x) (非定常)からのサンプリングが必要だなぁ・・・」
彡(^)(^)「せや!KLの中身ひっくり返してq(y|y ∗ ; τ)からサンプリングすればええんや!」

RA9 ML ob9jective

*+XY, '; ., / = 1 {− 1 @(5|5 ∗ , .) ZP[!" 5 6)}
>,: ∗ ∈?

Re-expressed RAML objective

9

1

:∈<

>,: ∗ ∈?

/L, ( @ 5 5 ∗ ; . || !" 5 6)) = *+XY, '; . + OPQRS

where @ 5 5 ∗ : . =

\

](: ∗ ,K) 9

OPQRS = −

exp{7(5, 5 ∗ )/.},

1

>,: ∗ ∈?

ℍ @(5|5 ∗ , .

2017/8/8

14

15.
[beta]
尤度最大化とRAMLの関係
RAML objective
9

9

>,: ∗ ∈?

:∈<

*+XY, '; ., / = 1 {− 1 @(5|5 ∗ , .) ZP[!" 5 6)}
1
exp{7(5, 5 ∗ )/.}
∗
C(5 , .)
τ → 0の時@ 5 5 ∗ : . は常に59 ∗ をサンプリングし,*+XY, 
@ 5 5∗: . =

*Y, '; / = 1 − ZP[!" 5 ∗ 6)
>,: ∗ ∈?

と一致する

2017/8/8

15

16.
[beta]
*+XY, の最適化

9

9

>,: ∗ ∈?

:∈<

*+XY, '; ., / = 1 {− 1 @(5|5 ∗ , .) ZP[!" 5 6)}
`" *+XY, '; . = ab 5 5 ∗ ; . [−`" ZP[!" 5 6 ]

q(y|y ∗ ; τ)から系列yをサンプリングし、
それについてq(y|y ∗ ; τ)重み付き尤度最大化(通常のRNNの学習方法)
では、どうやってq y y ∗ ; τ からサンプリングする???

2017/8/8

16

17.

Edit Distance(編集距離) • ”挿入”,”削除”,”置換”によって一方の系列をもう一 方の系列と同一になるように変形するのに必要な手順 の最小回数. – “I have a pen” – “You and I have two apples” – 編集距離は”You”, “and”の挿入と”a”→”two”, “pen”→“apples”の置換で4 – “置換”だけを行うときハミング距離と一致 2017/8/8 17

18.

Exponentiated payoff distributionからのサンプリング @ 5 5∗: . = 1 exp{7(5, 5 ∗ )/.} ∗ C(5 , .) • 5 ∗ を編集して大量の5を生成し,Edit Distanceを負 の報酬としてサンプリングする. – Edit Distanceを報酬にせずにより良い報酬(例えば翻訳で あればBLEU)を使っても良い.が,この論文では実験で Edit Distanceのみ報酬関数として用いている. 編集距離に応じたサンプル確率(系列長20) 2017/8/8 18

19.

実験1:Speech recognition 2017/8/8 19

20.

実験2:Machine Translation 2017/8/8 20

21.

/L, (!" 5 6) || @(5|5 ∗ ; .))と/L, (@(5|5 ∗ ; .)|| !" 5 6)) • *+XY, と*+, の違いについてのお話 – 結論:*+XY, は*+, をTaylor展開の1次項まで近似 • 準備 – 以後!" 5 6) = !, @(5|5 ∗; .) = qとする – Bregman Divergence Bregman Divergence /e f∥b = h ! − (h @ + ! − @ i `h @ ) Fは狭義凸,微分可能な関数 より一般的な距離尺度 e.g. F = ℍのときKL 2017/8/8 21

22.

Taylor展開 pとqの中間地点 fkb fkb におけるh( )をp及びqでの2次までのTaylor展開で表す l l このとき,Taylorの定理から !+@ !+@ h =h ! + −! 2 2 !+@ −@ =h @ + 2 を満たす i 1 !+@ n ! + −! 2 2 i 1 !+@ n @ + −@ 2 2 p = 1 − r ! + r@ nP7 0 ≤ r ≤ q = 1 − t @ + t@ nP7 0 ≤ t ≤ \ , l \ , l i i oe p oe q !+@ −! 2 !+@ −@ 2 が存在する. (n ! はh(!)の微分でoはヘシアン) 2017/8/8 22

23.

/L, (!" 5 6) || @(5|5 ∗ ; .))と/L, (@(5|5 ∗ ; .)|| !" 5 6)) 1 p+q u F p + F q − 2F = F p − F q − (! − @) f q + ! − @ u Hy b ! − @ 4 2 1 u = F q − F p − (@ − !) f p + @ − ! u Hy a @ − ! 4 1 = D y ! ∥ q − ! − @ u Hy b ! − @ 4 1 = D y @ ∥ p − @ − ! u Hy a @ − ! 4 Dy @ ∥ p = /y ! ∥ @ + 1 ! − @ u (Hy a − oe (q) ! − @ 4 Taylor二次以降の項 F(p) = −τℍ(p)でDy p ∥ q = τD}~ (p ∥ q)となるので, D}~ (pT y x) || q(y|y ∗ ; τ))とD}~ (q(y|y ∗ ; τ)|| pT y x))で 同様の議論になる つまり /L, (@(5|5 ∗ ; .)|| !" 5 6))は/L, (!" 5 6) || @(5|5 ∗ ; .))を Taylor展開の1次項まで近似 2017/8/8 23

24.

余談 前述の式をもう少し弄ると上の式が出てくる。 Ä Å と5~n ∗ は 右辺の右側のサンプリング部分5~n ∗ K K 少なくとも!よりは分散が小さい系列を出すはず(pとqの間だから)で, これを考慮すればもうチョイいい目的関数作れるかもねって話をしています n ∗ : QP7ÇpZÉÑÖÜ Ö6!PQÖQSÉpZ P!Ö7pSP7 R 7 , ! = n∗( ) @ = n∗ . . 2017/8/8 24

25.

最近の非尤度最大化系列モデリング Method Pretraining Exposure Bias Reward Optimization MLE No Yes No MIXER[1] Yes No Yes Yes ML+PG AC[2] Yes No Yes Yes ML+PG SeqGAN[3] Yes No Yes No ML+PG textGAN[4] Yes No Yes No ML+MMD RAML No  Yes Yes RAML WGAN-GP[5] No No Yes No GAN BGAN[6] No Yes No RAML No Reward Given - Generator Optimization ML 2017/8/8 25

26.

References • • • • • • • [1] Ranzato, Sequence Level Training with Recurrent Neural Network [2] Bahdanau, An Actor-Critic Algorithm for Sequence Prediction [3] Yu, SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient [4] Zhang, Adversarial Feature Matching for Text Generation [5] Gulrajani, Improved Training of Wasserstein GANs [6] Hjelm, Boundary-Seeking Generative Adversarial Networks [7] Bengio, Scheduled sampling for sequence prediction with recurrent neural networks 2017/8/8 26