[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Variation

>100 Views

May 25, 18

#Deep Learning #GAN #Machine Learning #Progressive Growing #Neural Networks

スライド概要

2018/3/16
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 86.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.8K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 57.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 40.5K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 35.5K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 34.9K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Progressive Growing of GANs for Improved Quality, Stability, and Variation Shizuma Kubo, Matsuo Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • 著者: Tero Karras, Timo Aila, Samuli Laine, Jaakko Lehtinen (Nvidia) • 学会: ICLR 2018 Accepted paper (Oral) 2

要点 • 今回提案する手法を用いることで、GANの学習の速さ及び安定性を向上することが出来、高解像度の質の高い画像を生成することが出来た。 • その手法とはGeneratorとDiscriminatorの学習を進める課程において、低解像度から高解像度の画像を扱うように段階的にLayerを追加していくというものである。 3

主要な深層生成モデルのお話 • Autoregressive models (PixelCNNなど): – (+) 鮮明な画像を出力する。 – (-) 生成に時間がかかり、潜在変数を持たず応用しにくい。 • VAE – (+) 学習が簡単。 – (-) ぼやけた画像になる。 • GANs – (+) 鮮明な画像を出力する。 – (-) 低解像度に限られる。表現の多様性に欠ける。学習も不安定になる。 4

提案手法 GANsの課題: 低解像度に限られる。表現の多様性に欠ける。学習も不安定になる。メイン • Progressive growing: 高解像度の質の高い画像の出力を可能にし、また、学習の安定性、学習の速さに寄与する。サブ • Minibatch standard deviation: 表現の多様性に貢献。 • Equalized learning rate: 学習の速さに貢献。 • Pixelwise normalization: 学習の安定性に貢献。 5

Progressive growing -ネットワーク構造• GeneratorとDiscriminatorの学習を進めるにつれて層を積み重ねる。各層はNxNの画像のサイズを表しておりConvolution層からなる。（各層でUpsampleまたはDownsapleをしている） 7

Progressive growing -ネットワーク構造• 低解像度のから始めることで、まず大局的な構造を学習し、その後に細かいところに注意して学習を進めることが出来る。 • より単純な学習から行っていくことで「学習の安定性」に貢献し、また、低解像度の状態で学習を進める事ができ「学習の速さ」に貢献する。 • GeneratorとDiscriminatorは鏡写しのような同じ構造。 • ネットワーク中の全てのパラメータは学習の間ずっと trainableな状態。 8

Progressive growing -層の追加の仕方• αを0から1に線形に増加させていく。「2x」、「0.5x」はそれぞれnearest neighbor ﬁltering とaverage poolingを表している。「toRGB」、「fromRGB」はそれぞれ1x1の convolutionを表しており、channel数を調整している。 9

10.

11.

Minibatch standard deviation • Minibatch discrimination (Salimans et al 2016)を単純化。 • Minibatch discriminationは、画像個々の特徴統計量を計算するだけではなく、ミニバッチ間の特徴統計量を計算する。この特徴量をdiscriminatorが使えるように結合することで出力画像の多様性をうむ。 • 今回それを単純化したMinibatch standard deviationでは、ミニバッチの画像間で標準偏差をとり、その出力の全要素を平均して出力する値をWxHx1になるように複製してdiscriminatorの最終層に結合する。 11

12.

Equalized learning rate • N(0, 1)という単純な初期化を行い、学習時に重みwiとHeの初期化(He et al. 2015)で得られるレイヤーごとの正則化値cを用いて以下のような更新を動的に行う。 • これによってスケール不変性が得られるため、RMSPropやAdamのような手法を使う際にスケールに依存することなくパラメータの更新が出来るので学習速度が上がる。 12

13.

Pixelwise normalization • GeneratorとDiscriminatorの学習の結果、値が発散してしまわないように各 Convolution層で各ピクセル単位のチャンネル方向のベクトルで正規化する。 • Nがチャンネル数でbはpixel(x, y)におけるaの正規化後の値。 13

14.

実験 • 128x128のCELEBAとLSUN bedroomの画像のデータセットを使用。 14

15.

実験 • MS-SSIM (Odena et al. 2017)という評価手法は大きなmode collapseには機能するが、細かい部分には鈍感で学習データセットとの類似性については直接評価は出来ない。 • SWD (sliced Wasserstein distance) (Rabin et al. 2011)を評価に使用。 • SWDはLaplacian pyramidの各レベルごとに適用する。 15

16.

実験 • 表中の一番上のWGAN-GPのベースラインから順にcontributionの追加。 • MS-SSIMは指標としてふさわしくない。これに対してSWDは画像のクオリティに対応している。 • 提案の各手法が効果的である。(表中の一番上のWGAN-GPのベースラインから順にcontributionの追加。) 16

17.

実験 • 表中の一番上のWGAN-GPのベースラインから順にcontributionの追加。 • MS-SSIMは指標としてふさわしくない。これに対してSWDは画像のクオリティに対応している。 • 提案の各手法が効果的である。 17

18.

実験 • (a)WGAN-GP と (b)with progressive growing の時間ごとのSWDの変化の比較 18

19.

実験 • Discriminatorで使った本物画像の数が縦軸でprogressive growingの有無での学習速度の差を示している。 • 「Fixed layers」が「Progressive growing」と同じポイントまで到達するには 520hours必要で約5.4倍の学習効率になっている。 19

20.

まとめ • 低解像度から高解像度の画像を扱うように段階的に層を追加していく Progressive growingという手法を提案した。 • ミニバッチ間の特徴統計量や正規化を用いることで表現の多様性、学習の速さや安定性の改善を行った。 • GANの評価にSWDという指標を導入し、提案手法の有効性を示した。 20