[DL輪読会]Toward Multimodal Image-to-Image Translation (NIPS'17)

101 Views

May 14, 18

#Deep Learning #Image-to-Image Translation #BicycleGAN #pix2pix #GAN

スライド概要

2018/04/27
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 86.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.8K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 57.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 40.5K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 35.5K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 34.9K

各ページのテキスト

1 2018/4/27 DEEP LEARNING JP [DL Papers] Toward Multimodal Image-to-Image Translation (NIPS’17) http://deeplearning.jp/

http://deeplearning.jp/

2 • • • Toward Multimodal Image-to-Image Translation (NIPSʼ17) Jun-Yan Zhu, Richard Zhang, Deepak Pathak, Trevor Darrell, Alexei A. Efros, Oliver Wang, Eli Shechtman Berkeley Artificial Intelligence Research, Adobe Creative Intelligence Laboratory • • 画像から画像を生成する際に，潜在変数からの分散を考慮するBicycleGANの提案 pix2pix, cycleGANの著者 (一部) • • • https://arxiv.org/abs/1711.11586 https://junyanz.github.io/BicycleGAN/ https://github.com/junyanz/BicycleGAN

4 pix2pix† • Conditional GANによる1対1のImage Translation LGAN (G, D) = Ey [log(D(y)] + Ex [log(1 LL1 (G) = Ex,y ||y D(G(x)))] G(x)||1 G⇤ = arg min max LGAN (G, D) + LL1 (G) †Image-to-Image Translation with Conditional Adversarial Networks (CVPR’17) (2017/12 ver2 upload)

pix2pix† • Conditional GANによる1対1のImage Translation • 実際には多くのImage Translationは1対多 †Image-to-Image Translation with Conditional Adversarial Networks (CVPR’17) 5

: Multimodal Image-to-Image Translation • 入力ドメイン A ⇢ RH⇥W ⇥3 • 出力ドメイン B ⇢ RH⇥W ⇥3 • 訓練データセットペア: {(A 2 A, B 2 B)} • 実際には，Aに対応するBは複数ありうる • 出力として，p(B|A) からサンプルされた • アプローチ B̂ が欲しい z 2 RZ , p(z) ⇠ N (0, I) を用いて (A, z) ! B を学習する 6

pix2pix + noise 7 (z ! B̂) • pix2pixに単純にzを加えるように拡張 LGAN (G, D) = EA,B⇠p(A,B) [log(D(A, B))] + EA⇠p(A),z⇠p(z) [log(1 L1 (G) = EA,B⇠p(A,B) ||B D(A, G(A, z)))] G(A, z)||1 G⇤ = arg min max LGAN (G, D) + L1 (G) G D • 実はpix2pixの論文でそもそもnoiseを入れている • “In initial experiments, we did not find this strategy effective ‒ the generator simply learned to ignore the noise” • zを使うインセンティブが何もない

8 cVAE-GAN (B ! z ! B̂) • 潜在変数zがBに対して意味を持つようにしたい • エンコーダEを使って，ground truth B を zへ写像する • そのzとAを使ってB^を生成 AE LVGAN = EA,B⇠p(A,B) [log(D(A, B))] + EA,B⇠p(A,B),z⇠E(B) [log(1 LV1 AE (G) = EA,B⇠p(A,B),z⇠E(B) ||B G(A, z)||1 LKL = EB⇠p(B) [DKL (E(B)||N (0, I))] V AE G⇤ , E ⇤ = arg min max LVAE (G, E) + GAN (G, D, E) + L1 G,E D D(A, G(A, z)))] KL LKL (E)

cLR-GAN (z ! B̂ ! ẑ) • 先ほどと見方を変えて，B^からzを復元するようにする • Conditional Latent Regressor GAN (cLR-GAN) Llatent (G, E) = EA⇠p(A),z⇠p(z) ||z 1 G⇤ , E ⇤ = arg min max LGAN (G, D) + G,E D E(G(A, z))||1 latent (G, E) latent L1 9

10.

10 cLR-GAN (z ! B̂ ! ẑ) cVAE-GAN (B ! z ! B̂) KL loss D G prior ground truth A,B

11.

11 BicycleGAN cLR-GAN (z ! B̂ ! ẑ) cVAE-GAN (B ! z ! B̂) VAE G⇤ , E ⇤ = arg min max LVAE (G, E) GAN (G, D, E) + L1 G,E D +LGAN (G, D) + latent (G, E) latent L1 + KL LKL (E)

12.

12 • Generator • U-Net (Encoder-Decoder + skip connections) • Discriminator • PatchGAN (real vs. fake for 70x70 & 140x140 overlapping image patches) • Training • • • • • Least Square GAN (LSGAN) DiscriminatorはAで条件付け無い方が結果がよかった (ので付けてない) cVAE-GANとcLR-GANでgeneratorとencoderの重みは共有 discriminatorは分けた方がちょっとだけ結果がよかった L1latent(G,E) に関しては，Gだけを更新し，Eは固定 • G, E同時に最適化すると，GとEが潜在変数の情報をただ隠そうとしてしまう • |z|を大きくすると，サンプリングが難しくなる(画像が変になりやすい)という実験結果 • λ=10, λlatent = 0.5, λKL = 0.01 • Adam, batchsize 1, lr = 0.0002, latent dimension |z| = 8

13.

13 (cont’d) • Generatorへのzの挿入方法 add_to_input: (H x W x Z) (H x W x 3) concat add_to_all: ( G ( add_to_all ) )

14.

14 cAE-GAN: KL z=E(B), cVAE-GAN++: BicycleGAN latent space reconstruction loss

15.

15 cAE-GAN: KL z=E(B), cVAE-GAN++: BicycleGAN latent space reconstruction loss

16.

16 • Conditional generative modelにおいて，多様なサンプルを生成するための方法を提案 • 潜在変数zが無視されないように，2種類のcycle consistencyを導入

17.

Unpaired Image-to-Image Translation using CycleConsistent Adversarial Networks (CycleGAN) 2 GAN (ICCV’17) Cycle consistency loss Full objectives https://arxiv.org/abs/1703.10593 17

https://arxiv.org/abs/1703.10593

18.

Unsupervised Image-to-Image Translation Networks • Ming-Yu Liu, Thomas Breuel, Jan Kautz (NVIDIA Research) • NIPSʼ17 • 2つのVAE-GANを利用 • shared latent spaceを仮定 https://arxiv.org/abs/1703.00848 18

https://arxiv.org/abs/1703.00848

19.

Multimodal Unsupervised Image-to-Image Translation • Xun Huang, Ming-Yu Liu, Serge Belongie, Jan Kautz (NVIDIA Research) • UnsupervisedにMultimodal Image-to-Image Translationをおこなう • https://arxiv.org/abs/1804.04732, https://github.com/NVlabs/MUNIT 19

20.

Multimodal Unsupervised Image-to-Image Translation = c (domain-invariant) + : Contents En/Decoder (contents : s (domain-specific) ) Style En/Decoder ( Style ) Decoder 20

21.

Multimodal Unsupervised Image-to-Image Translation Bi-Directional Loss 21

22.

Multimodal Unsupervised Image-to-Image Translation LPIPS Dataset 22