[DL輪読会]Toward Multimodal Image-to-Image Translation (NIPS'17)

>100 Views

May 14, 18

スライド概要

2018/04/27
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

1 2018/4/27 DEEP LEARNING JP [DL Papers] Toward Multimodal Image-to-Image Translation (NIPS’17) http://deeplearning.jp/

2.

2 • • • Toward Multimodal Image-to-Image Translation (NIPSʼ17) Jun-Yan Zhu, Richard Zhang, Deepak Pathak, Trevor Darrell, Alexei A. Efros, Oliver Wang, Eli Shechtman Berkeley Artificial Intelligence Research, Adobe Creative Intelligence Laboratory • • 画像から画像を生成する際に,潜在変数からの分散を考慮するBicycleGANの提案 pix2pix, cycleGANの著者 (一部) • • • https://arxiv.org/abs/1711.11586 https://junyanz.github.io/BicycleGAN/ https://github.com/junyanz/BicycleGAN

4.

4 pix2pix† • Conditional GANによる1対1のImage Translation LGAN (G, D) = Ey [log(D(y)] + Ex [log(1 LL1 (G) = Ex,y ||y D(G(x)))] G(x)||1 G⇤ = arg min max LGAN (G, D) + LL1 (G) †Image-to-Image Translation with Conditional Adversarial Networks (CVPR’17) (2017/12 ver2 upload)

5.

pix2pix† • Conditional GANによる1対1のImage Translation • 実際には多くのImage Translationは1対多 †Image-to-Image Translation with Conditional Adversarial Networks (CVPR’17) 5

6.

: Multimodal Image-to-Image Translation • 入力ドメイン A ⇢ RH⇥W ⇥3 • 出力ドメイン B ⇢ RH⇥W ⇥3 • 訓練データセットペア: {(A 2 A, B 2 B)} • 実際には,Aに対応するBは複数ありうる • 出力として,p(B|A) からサンプルされた • アプローチ B̂ が欲しい z 2 RZ , p(z) ⇠ N (0, I) を用いて (A, z) ! B を学習する 6

7.

pix2pix + noise 7 (z ! B̂) • pix2pixに単純にzを加えるように拡張 LGAN (G, D) = EA,B⇠p(A,B) [log(D(A, B))] + EA⇠p(A),z⇠p(z) [log(1 L1 (G) = EA,B⇠p(A,B) ||B D(A, G(A, z)))] G(A, z)||1 G⇤ = arg min max LGAN (G, D) + L1 (G) G D • 実はpix2pixの論文でそもそもnoiseを入れている • “In initial experiments, we did not find this strategy effective ‒ the generator simply learned to ignore the noise” • zを使うインセンティブが何もない

8.

8 cVAE-GAN (B ! z ! B̂) • 潜在変数zがBに対して意味を持つようにしたい • エンコーダEを使って,ground truth B を zへ写像する • そのzとAを使ってB^を生成 AE LVGAN = EA,B⇠p(A,B) [log(D(A, B))] + EA,B⇠p(A,B),z⇠E(B) [log(1 LV1 AE (G) = EA,B⇠p(A,B),z⇠E(B) ||B G(A, z)||1 LKL = EB⇠p(B) [DKL (E(B)||N (0, I))] V AE G⇤ , E ⇤ = arg min max LVAE (G, E) + GAN (G, D, E) + L1 G,E D D(A, G(A, z)))] KL LKL (E)

9.

cLR-GAN (z ! B̂ ! ẑ) • 先ほどと見方を変えて,B^からzを復元するようにする • Conditional Latent Regressor GAN (cLR-GAN) Llatent (G, E) = EA⇠p(A),z⇠p(z) ||z 1 G⇤ , E ⇤ = arg min max LGAN (G, D) + G,E D E(G(A, z))||1 latent (G, E) latent L1 9

10.

10 cLR-GAN (z ! B̂ ! ẑ) cVAE-GAN (B ! z ! B̂) KL loss D G prior ground truth A,B

11.

11 BicycleGAN cLR-GAN (z ! B̂ ! ẑ) cVAE-GAN (B ! z ! B̂) VAE G⇤ , E ⇤ = arg min max LVAE (G, E) GAN (G, D, E) + L1 G,E D +LGAN (G, D) + latent (G, E) latent L1 + KL LKL (E)

12.

12 • Generator • U-Net (Encoder-Decoder + skip connections) • Discriminator • PatchGAN (real vs. fake for 70x70 & 140x140 overlapping image patches) • Training • • • • • Least Square GAN (LSGAN) DiscriminatorはAで条件付け無い方が結果がよかった (ので付けてない) cVAE-GANとcLR-GANでgeneratorとencoderの重みは共有 discriminatorは分けた方がちょっとだけ結果がよかった L1latent(G,E) に関しては,Gだけを更新し,Eは固定 • G, E同時に最適化すると,GとEが潜在変数の情報をただ隠そうとしてしまう • |z|を大きくすると,サンプリングが難しくなる(画像が変になりやすい)という実験結果 • λ=10, λlatent = 0.5, λKL = 0.01 • Adam, batchsize 1, lr = 0.0002, latent dimension |z| = 8

13.

13 (cont’d) • Generatorへのzの挿入方法 add_to_input: (H x W x Z) (H x W x 3) concat add_to_all: ( G ( add_to_all ) )

14.

14 cAE-GAN: KL z=E(B), cVAE-GAN++: BicycleGAN latent space reconstruction loss

15.

15 cAE-GAN: KL z=E(B), cVAE-GAN++: BicycleGAN latent space reconstruction loss

16.

16 • Conditional generative modelにおいて,多様なサンプルを生成するた めの方法を提案 • 潜在変数zが無視されないように,2種類のcycle consistencyを導入

17.

Unpaired Image-to-Image Translation using CycleConsistent Adversarial Networks (CycleGAN) 2 GAN (ICCV’17) Cycle consistency loss Full objectives https://arxiv.org/abs/1703.10593 17

18.

Unsupervised Image-to-Image Translation Networks • Ming-Yu Liu, Thomas Breuel, Jan Kautz (NVIDIA Research) • NIPSʼ17 • 2つのVAE-GANを利用 • shared latent spaceを仮定 https://arxiv.org/abs/1703.00848 18

19.

Multimodal Unsupervised Image-to-Image Translation • Xun Huang, Ming-Yu Liu, Serge Belongie, Jan Kautz (NVIDIA Research) • UnsupervisedにMultimodal Image-to-Image Translationをおこなう • https://arxiv.org/abs/1804.04732, https://github.com/NVlabs/MUNIT 19

20.

Multimodal Unsupervised Image-to-Image Translation = c (domain-invariant) + : Contents En/Decoder (contents : s (domain-specific) ) Style En/Decoder ( Style ) Decoder 20

21.

Multimodal Unsupervised Image-to-Image Translation Bi-Directional Loss 21

22.

Multimodal Unsupervised Image-to-Image Translation LPIPS Dataset 22