[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction

>100 Views

August 03, 17

#Deep Learning #RAML #Sequence Modeling #NIPS2016 #Google Brain

スライド概要

2017/8/4
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 86.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.8K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 57.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 40.5K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 35.3K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 34.9K

各ページのテキスト

DEEP LEARNING JP [DL Papers] “Reward Augmented Maximum Likelihood for Neural Structured Prediction “ (NIPS2016) And Non-MLE Sequence Modeling Jouji Toyama, Matsuo Lab http://deeplearning.jp/

http://deeplearning.jp/

書誌情報 • Author – Mohammad Norouzi – Google Brain • Conference – NIPS 2016 • 選定理由 – シンプルな手法が好き • 脱☆尤度最大化！ – な話をします 2017/8/8 2

系列モデリング • 最近ではDeep Learningを用いた系列モデリングが流行りです – 本日はRNNについて話します 2017/8/8 3

RNNの通常の学習 • 多くの場合，RNNを学習させる時は正解系列の尤度最大化を行う – 訓練時には正解データが常にRNNの入力にあたえられる (Teacher Forcing) – 生成時には，RNNの出力を次の時刻の入力に与える – 安定した学習が可能 Train Generation 2017/8/8 4

尤度最大化の問題点 • Exposure Bias – 訓練時にRNNは常に正解を入力に与えられるが，生成時には自身が予測した値が次の入力として与えられるという問題点 • Beam-searchやモデルアンサンブルが必要な理由 – 学習時に訓練しているモデル!" #$ #%$ , ')から生成された系列を用いて学習すれば上の問題は解決可能 • 系列の報酬の最適化をしていない – 例えば翻訳であればBLEUやMETEORを最適化したい • 報酬関数自体を学習したいという話も – Adversarial Training – 尤度最大化は正解の出力以外に等しくペナルティを与える • “見る”→”see”のペアに対して”look”という出力と”listen”という出力では等しいペナルティは不適切 2017/8/8 5

DAD • 次のタイムステップの入力は、ground truthかsampleを確率的に用いる。 • 二つの問題 – １. サンプリングが用いられたところの誤差の伝播はできなくなる。 – ２.XENTは入力の選ばれ方にかかわらず常にground truthによってとられる。 • ex) “I took a long walk” という正解に対し、 “I took a walk”と生成していると、DADはつぎの予測の正解を”walk”としてしまい、結果“I took a walk walk”という文を生成する。 2017/8/8 6

E2E • 次のタイムステップの入力として、確率が高いwordをk個取ってきて、その確率値をもったスパースベクトルを用いる。 – 勾配計算可能。 • DADとE2Eは両者とも学習初期はground truthのみを用いる。 2017/8/8 7

MIXER • モデル自身の出力によって生成された系列のBLEU値を、方策勾配法によって最適化する。 • 学習の初期は尤度最大化によって学習し、だんだん方策勾配法を適用していく。 – XentとReinforceを組み合わせるからMIXER – めっちゃ引用されてる論文 2017/8/8 8

（方策勾配法） ∞ ∇θ J = ∇θ Eπθ [∑ γ τ rτ ] τ =0 ∞ ⎡ ⎤ = ∇θ Es0 ~ ρ ,s '~ p ⎢ ∏ π θ ( at , st ) ∑ γ τ rτ ⎥ τ =0 ⎣ t=0 ⎦ ∞ ⎡ ⎤ = Es0 ~ ρ ,s '~ p ⎢∇θ ∏ π θ ( at , st ) ∑ γ τ rτ ⎥ τ =0 ⎣ t=0 ⎦ ⎡ ⎤ ∇θ ∏ π θ ( at , st ) ∞ t=0 = Es~ ρ ⎢ ∏ π θ ( at , st ) γ τ rτ ⎥ ∑ ⎢ t=0 ⎥ π θ ( at , st ) τ =0 ∏ ⎢⎣ ⎥⎦ t=0 ∞ ⎡ ⎤ = Es~ ρ ⎢ ∏ π θ (at | st )∑ ∇θ log(π θ (at | st ))∑ γ τ rτ ⎥ τ =0 t=0 ⎣ t=0 ⎦ ∞ = Eπθ [∑ ∇θ log(π θ (at | st ))∑ γ τ rτ ] t=0 τ =t given by Hatsugai 2017/8/8 9

10.

方策勾配法によって尤度最大化の諸問題は解決？ • 方策勾配法は勾配の分散が大きい – 特に学習初期はモデルがめちゃくちゃな値を出すので Language Modelingではほぼ学習不可能 – Actor-Criticで分散を小さくする試み • An actor-critic algorithm for sequence prediction – 他にもReward Shapingとか細々したテクニックを大いに活用 • 複雑な系列モデリングに方策勾配法を用いる時は，尤度最大化によるファインチューニングもしくは損失関数に尤度を加えるといった工夫が必要． – なんかもっといい方法ないのかなぁ – そこで今回の論文 2017/8/8 10

11.

Reward Augmented Maximum Likelihood (RAML) • エントロピー正則の元での強化学習の目的関数を近似的に最適化する – 報酬の最適化を行える • サンプリングは学習するモデル!" からではなく、 exponentiated payoff distributionという定常分布から行う – 強化学習における非定常分布のサンプリングによる学習の不安定さを解消 • ファインチューニングなど一切必要なし – exposure biasはある程度解消されると思われる • （論文中にexposure biasに関する言及はない） • 単一の式を最適化するのでシンプル – 個人的に一番好きなところ 2017/8/8 11

12.

[beta]

エントロピー正則での強化学習の目的関数
*+, '; ., / =

9

RL objective
9

1 {−.ℍ !" − 1 !" 5 6 7 5, 5 ∗ }

>,: ∗ ∈?

:∈<

ℍ !" ・・・エントロピー
7 5, 5 ∗ ・・・報酬関数

Exponentiated payoff distribution
@ 5 5∗: . =

1
exp{7(5, 5 ∗ )/.}
∗
C(5 , .)

where C 5 , . =
∗

9

1

>,: ∗ ∈?

J :,: ∗
9
∑:∈< exp{
K

}

Re-expressed RL objective
1
/L, ( !" 5 6) || @(5|5 ∗ ; .)) = *+, '; . + OPQRS
.

2017/8/8

12

13.

（証明） 2017/8/8 13

14.

[beta]

RAMLの目的関数
RL objective
9

1

>,: ∗ ∈?

/L, ( !" 5 6) || @(5|5 ∗ ; .)) =

1
*+, '; . + OPQRS
.

彡(ﾟ)(ﾟ)「これだとpT y x) （非定常）からのサンプリングが必要だなぁ・・・」
彡(^)(^)「せや！KLの中身ひっくり返してq(y|y ∗ ; τ)からサンプリングすればええんや！」

RA9 ML ob9jective

*+XY, '; ., / = 1 {− 1 @(5|5 ∗ , .) ZP[!" 5 6)}
>,: ∗ ∈?

Re-expressed RAML objective

9

1

:∈<

>,: ∗ ∈?

/L, ( @ 5 5 ∗ ; . || !" 5 6)) = *+XY, '; . + OPQRS

where @ 5 5 ∗ : . =

\

](: ∗ ,K) 9

OPQRS = −

exp{7(5, 5 ∗ )/.},

1

>,: ∗ ∈?

ℍ @(5|5 ∗ , .

2017/8/8

14

15.

[beta]

尤度最大化とRAMLの関係
RAML objective
9

9

>,: ∗ ∈?

:∈<

*+XY, '; ., / = 1 {− 1 @(5|5 ∗ , .) ZP[!" 5 6)}
1
exp{7(5, 5 ∗ )/.}
∗
C(5 , .)
τ → 0の時@ 5 5 ∗ : . は常に59 ∗ をサンプリングし，*+XY, 
@ 5 5∗: . =

*Y, '; / = 1 − ZP[!" 5 ∗ 6)
>,: ∗ ∈?

と一致する

2017/8/8

15

16.

[beta]

*+XY, の最適化

9

9

>,: ∗ ∈?

:∈<

*+XY, '; ., / = 1 {− 1 @(5|5 ∗ , .) ZP[!" 5 6)}
`" *+XY, '; . = ab 5 5 ∗ ; . [−`" ZP[!" 5 6 ]

q(y|y ∗ ; τ)から系列yをサンプリングし、
それについてq(y|y ∗ ; τ)重み付き尤度最大化（通常のRNNの学習方法）
では、どうやってq y y ∗ ; τ からサンプリングする？？？

2017/8/8

16

17.

Edit Distance（編集距離） • ”挿入”，”削除”，”置換”によって一方の系列をもう一方の系列と同一になるように変形するのに必要な手順の最小回数． – “I have a pen” – “You and I have two apples” – 編集距離は”You”, “and”の挿入と”a”→”two”, “pen”→“apples”の置換で４ – “置換”だけを行うときハミング距離と一致 2017/8/8 17

18.

Exponentiated payoff distributionからのサンプリング @ 5 5∗: . = 1 exp{7(5, 5 ∗ )/.} ∗ C(5 , .) • 5 ∗ を編集して大量の5を生成し，Edit Distanceを負の報酬としてサンプリングする． – Edit Distanceを報酬にせずにより良い報酬（例えば翻訳であればBLEU）を使っても良い．が，この論文では実験で Edit Distanceのみ報酬関数として用いている．編集距離に応じたサンプル確率（系列長20） 2017/8/8 18

19.

実験１：Speech recognition 2017/8/8 19

20.

実験２：Machine Translation 2017/8/8 20

21.

/L, (!" 5 6) || @(5|5 ∗ ; .))と/L, (@(5|5 ∗ ; .)|| !" 5 6)) • *+XY, と*+, の違いについてのお話 – 結論：*+XY, は*+, をTaylor展開の１次項まで近似 • 準備 – 以後!" 5 6) = !, @(5|5 ∗; .) = qとする – Bregman Divergence Bregman Divergence /e f∥b = h ! − (h @ + ! − @ i `h @ ) Fは狭義凸，微分可能な関数より一般的な距離尺度 e.g. F = ℍのときKL 2017/8/8 21

22.

Taylor展開 pとqの中間地点 fkb fkb におけるh( )をp及びqでの２次までのTaylor展開で表す l l このとき，Taylorの定理から !+@ !+@ h =h ! + −! 2 2 !+@ −@ =h @ + 2 を満たす i 1 !+@ n ! + −! 2 2 i 1 !+@ n @ + −@ 2 2 p = 1 − r ! + r@ nP7 0 ≤ r ≤ q = 1 − t @ + t@ nP7 0 ≤ t ≤ \ , l \ , l i i oe p oe q !+@ −! 2 !+@ −@ 2 が存在する． (n ! はh(!)の微分でoはヘシアン） 2017/8/8 22

23.

/L, (!" 5 6) || @(5|5 ∗ ; .))と/L, (@(5|5 ∗ ; .)|| !" 5 6)) 1 p+q u F p + F q − 2F = F p − F q − (! − @) f q + ! − @ u Hy b ! − @ 4 2 1 u = F q − F p − (@ − !) f p + @ − ! u Hy a @ − ! 4 1 = D y ! ∥ q − ! − @ u Hy b ! − @ 4 1 = D y @ ∥ p − @ − ! u Hy a @ − ! 4 Dy @ ∥ p = /y ! ∥ @ + 1 ! − @ u (Hy a − oe (q) ! − @ 4 Taylor二次以降の項 F(p) = −τℍ(p)でDy p ∥ q = τD}~ (p ∥ q)となるので， D}~ (pT y x) || q(y|y ∗ ; τ))とD}~ (q(y|y ∗ ; τ)|| pT y x))で同様の議論になるつまり /L, (@(5|5 ∗ ; .)|| !" 5 6))は/L, (!" 5 6) || @(5|5 ∗ ; .))を Taylor展開の１次項まで近似 2017/8/8 23

24.

余談前述の式をもう少し弄ると上の式が出てくる。 Ä Å と5~n ∗ は右辺の右側のサンプリング部分5~n ∗ K K 少なくとも!よりは分散が小さい系列を出すはず(pとqの間だから)で，これを考慮すればもうチョイいい目的関数作れるかもねって話をしています n ∗ : QP7ÇpZÉÑÖÜ Ö6!PQÖQSÉpZ P!Ö7pSP7 R 7 , ! = n∗( ) @ = n∗ . . 2017/8/8 24

25.

最近の非尤度最大化系列モデリング Method Pretraining Exposure Bias Reward Optimization MLE No Yes No MIXER[1] Yes No Yes Yes ML+PG AC[2] Yes No Yes Yes ML+PG SeqGAN[3] Yes No Yes No ML+PG textGAN[4] Yes No Yes No ML+MMD RAML No Yes Yes RAML WGAN-GP[5] No No Yes No GAN BGAN[6] No Yes No RAML No Reward Given - Generator Optimization ML 2017/8/8 25

26.

References • • • • • • • [1] Ranzato, Sequence Level Training with Recurrent Neural Network [2] Bahdanau, An Actor-Critic Algorithm for Sequence Prediction [3] Yu, SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient [4] Zhang, Adversarial Feature Matching for Text Generation [5] Gulrajani, Improved Training of Wasserstein GANs [6] Hjelm, Boundary-Seeking Generative Adversarial Networks [7] Bengio, Scheduled sampling for sequence prediction with recurrent neural networks 2017/8/8 26