[DL Hacks 実装]Photographic Image Synthesis with Cascaded Refinement Networks

>100 Views

December 04, 17

#deep learning #Cascaded Refinement Networks #GAN #Image Processing #Deep Learning #VGG19

スライド概要

Deep Learning JP:
http://deeplearning.jp/hacks/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 84.7K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 54.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 38.8K

【拡散モデル勉強会】拡散モデルのサンプラーまとめ

Deep Learning JP 33.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 32K

各ページのテキスト

Photographic Image Synthesis with Cascaded Refinement Networks arXiv:1707.09405 Leo Tsukada DL Hacks 2017/12/04 DL HACKS 論文紹介 1 /34

テーマ Photo synthesis ▸ Motivation Semantic segmentation ▸ CG -> 光の反射などによる見え方の計算を短縮 ▸ mental imagery & simulation -> 効率的な学習への鍵？ topic DL HACKS 論文紹介 2 /34

背景 ▸ GANを用いた画像生成 Goodfellow et al. MNISTの画像生成(32*32) Denton et al. multiple separate GAN(?) 96*96 の解像度 Radfold et al. modiﬁcations and heuristics to solve instability、128*128の解像度 Mode collapseなどの問題により、学習が困難な場合がある DL HACKS 論文紹介 3 /34

背景 ▸ Isola et al. Conditional GAN cityscape の画像生成 DL HACKS 論文紹介 4 /34

概観 ▸ Cascaded Reﬁnement Networks (CRN) 3×3conv ReLU c + di−1 channels 3×3conv ReLU di channels DL HACKS 論文紹介 di channels 5 /34

概観 ▸ Cascaded modules wi × hi × di wi+1 × hi+1 × di+1 = 2wi × 2hi × di+1 bilinear upsampling wi+2 × hi+2 × di+2 = 4wi × 4hi × di+2 bilinear upsampling ▸ photorealismの上で鍵となる概念 Global Coordination : 広い領域での規則性、feature matchingで実現 high resolution : 段階的に2倍ずつ高めていくことで実現 Big capacity : 画像生成の汎用性を高めるには多くのパラーメータ領域が必要 DL HACKS 論文紹介 6 /34

学習 ▸ 1対多の対応問題最終的な画像のみをground truthとするのは、厳しすぎる既存のCNNの中でfeature matchingを行いあらゆる特徴量でロスを算出する。 DL HACKS 論文紹介 7 /34

学習 l : conv1-2, conv2-2, conv3-2, conv4-2, conv5-2 λl : hyper parameters g(L; θ ) :synthesized image I : the reference image DL HACKS 論文紹介 8 /34

VGG-19 … reference … … … … fake DL HACKS 論文紹介 9 /34

10.

VGG-19 … reference … … … … fake e2 e1 e3 e4 DL HACKS 論文紹介 e5 10 /34

11.

Synthesizing a diverse collection e2 c枚 j番目 reference fake DL HACKS 論文紹介 l=2 11 /34

12.

実験 ▸ semantic segmentation のネットワークで評価できない？評価関数を最大化するようにいじれば簡単に騙される Amazon Mechanical Turkで人に任せる！ DL HACKS 論文紹介 12 /34

13.

実験1 ▸ 今回開発したCRNと他のベースラインをランダムにペア ▸ 時間無制限で比較 ※%は比較したベースラインより、 CRNの方がrealisticだと答えた割合 DL HACKS 論文紹介 13 /34

14.

実験1 ▸ 今回開発したCRNと他のベースラインをランダムにペア ▸ 時間無制限で比較 DL HACKS 論文紹介 14 /34

15.

実験2 ▸ Pix2pixや本物の写真と比べる ▸ 制限時間を0.125~8sで設ける DL HACKS 論文紹介 15 /34

16.

論文まとめ ▸ cascaded modeleで解像度を段階的に上げていった ▸ 誤差関数としてVGG19を用いて、feature matching ▸ さらにoutputの多様性を許すために、diversity lossを設定 ▸ 結果、めっちゃリアリスティック DL HACKS 論文紹介 16 /34

17.

学習結果 ▸ Qifeng et alによる学習済みモデル(3000枚*100 epoch) DL HACKS 論文紹介 17 /34

18.

学習結果 ▸ Qifeng et alによる学習済みモデル(3000枚*100 epoch) DL HACKS 論文紹介 18 /34

19.

学習結果 ▸ CPUだけで頑張って学習(100枚*200 epoch) DL HACKS 論文紹介 19 /34

20.

学習結果 ▸ CPUだけで頑張って学習(100枚*200 epoch) DL HACKS 論文紹介 20 /34

21.

学習結果 ▸ CPUだけで頑張って学習(100枚*200 epoch) DL HACKS 論文紹介 21 /34

22.

学習結果 ▸ CPUだけで頑張って学習(100枚*200 epoch) DL HACKS 論文紹介 22 /34