>100 Views
May 25, 18
スライド概要
2018/3/16
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Progressive Growing of GANs for Improved Quality, Stability, and Variation Shizuma Kubo, Matsuo Lab http://deeplearning.jp/ 1
書誌情報 • 著者: Tero Karras, Timo Aila, Samuli Laine, Jaakko Lehtinen (Nvidia) • 学会: ICLR 2018 Accepted paper (Oral) 2
要点 • 今回提案する手法を用いることで、GANの学習の速さ及び安定性を向上すること が出来、高解像度の質の高い画像を生成することが出来た。 • その手法とはGeneratorとDiscriminatorの学習を進める課程において、低解像度 から高解像度の画像を扱うように段階的にLayerを追加していくというものであ る。 3
主要な深層生成モデルのお話 • Autoregressive models (PixelCNNなど): – (+) 鮮明な画像を出力する。 – (-) 生成に時間がかかり、潜在変数を持たず応用しにくい。 • VAE – (+) 学習が簡単。 – (-) ぼやけた画像になる。 • GANs – (+) 鮮明な画像を出力する。 – (-) 低解像度に限られる。表現の多様性に欠ける。学習も不安定になる。 4
提案手法 GANsの課題: 低解像度に限られる。表現の多様性に欠ける。学習も不安定になる。 メイン • Progressive growing: 高解像度の質の高い画像の出力を可能にし、また、学習 の安定性、学習の速さに寄与する。 サブ • Minibatch standard deviation: 表現の多様性に貢献。 • Equalized learning rate: 学習の速さに貢献。 • Pixelwise normalization: 学習の安定性に貢献。 5
提案手法 GANsの課題: 低解像度に限られる。表現の多様性に欠ける。学習も不安定になる。 メイン • Progressive growing: 高解像度の質の高い画像の出力を可能にし、また、学習 の安定性、学習の速さに寄与する。 サブ • Minibatch standard deviation: 表現の多様性に貢献。 • Equalized learning rate: 学習の速さに貢献。 • Pixelwise normalization: 学習の安定性に貢献。 6
Progressive growing -ネットワーク構造• GeneratorとDiscriminatorの学習を進めるにつれて層を積み重ねる。 各層はNxNの画像のサイズを表しておりConvolution層からなる。 (各層でUpsampleまたはDownsapleをしている) 7
Progressive growing -ネットワーク構造• 低解像度のから始めることで、まず大局的な構造を学習し、その後に細かいとこ ろに注意して学習を進めることが出来る。 • より単純な学習から行っていくことで「学習の安定性」に貢献し、また、低解像 度の状態で学習を進める事ができ「学習の速さ」に貢献する。 • GeneratorとDiscriminatorは 鏡写しのような同じ構造。 • ネットワーク中の全ての パラメータは学習の間ずっと trainableな状態。 8
Progressive growing -層の追加の仕方• αを0から1に線形に増加させていく。 「2x」、「0.5x」はそれぞれnearest neighbor filtering とaverage poolingを表している。 「toRGB」、「fromRGB」はそれぞれ1x1の convolutionを表しており、channel数を調整している。 9
提案手法 GANsの課題: 低解像度に限られる。表現の多様性に欠ける。学習も不安定になる。 メイン • Progressive growing: 高解像度の質の高い画像の出力を可能にし、また、学習 の安定性、学習の速さに寄与する。 サブ • Minibatch standard deviation: 表現の多様性に貢献。 • Equalized learning rate: 学習の速さに貢献。 • Pixelwise normalization: 学習の安定性に貢献。 10
Minibatch standard deviation • Minibatch discrimination (Salimans et al 2016)を単純化。 • Minibatch discriminationは、画像個々の特徴統計量を計算するだけではなく、 ミニバッチ間の特徴統計量を計算する。この特徴量をdiscriminatorが使えるよう に結合することで出力画像の多様性をうむ。 • 今回それを単純化したMinibatch standard deviationでは、ミニバッチの画像間 で標準偏差をとり、その出力の全要素を平均して出力する値をWxHx1になるよう に複製してdiscriminatorの最終層に結合する。 11
Equalized learning rate • N(0, 1)という単純な初期化を行い、学習時に重みwiとHeの初期化(He et al. 2015)で得られるレイヤーごとの正則化値cを用いて以下のような更新を動的に行 う。 • これによってスケール不変性が得られるため、RMSPropやAdamのような手法を 使う際にスケールに依存することなくパラメータの更新が出来るので学習速度が 上がる。 12
Pixelwise normalization • GeneratorとDiscriminatorの学習の結果、値が発散してしまわないように各 Convolution層で各ピクセル単位のチャンネル方向のベクトルで正規化する。 • Nがチャンネル数でbはpixel(x, y)におけるaの正規化後の値。 13
実験 • 128x128のCELEBAとLSUN bedroomの画像のデータセットを使用。 14
実験 • MS-SSIM (Odena et al. 2017)という評価手法は大きなmode collapseには機能 するが、細かい部分には鈍感で学習データセットとの類似性については直接評価 は出来ない。 • SWD (sliced Wasserstein distance) (Rabin et al. 2011)を評価に使用。 • SWDはLaplacian pyramidの各レベルごとに適用する。 15
実験 • 表中の一番上のWGAN-GPのベースラインから順にcontributionの追加。 • MS-SSIMは指標としてふさわしくない。これに対してSWDは画像のクオリティ に対応している。 • 提案の各手法が効果的である。(表中の一番上のWGAN-GPのベースラインから順 にcontributionの追加。) 16
実験 • 表中の一番上のWGAN-GPのベースラインから順にcontributionの追加。 • MS-SSIMは指標としてふさわしくない。これに対してSWDは画像のクオリティ に対応している。 • 提案の各手法が効果的である。 17
実験 • (a)WGAN-GP と (b)with progressive growing の時間ごとのSWDの変化の比較 18
実験 • Discriminatorで使った本物画像の数が縦軸でprogressive growingの有無での 学習速度の差を示している。 • 「Fixed layers」が「Progressive growing」と同じポイントまで到達するには 520hours必要で約5.4倍の学習効率になっている。 19
まとめ • 低解像度から高解像度の画像を扱うように段階的に層を追加していく Progressive growingという手法を提案した。 • ミニバッチ間の特徴統計量や正規化を用いることで表現の多様性、学習の速さや 安定性の改善を行った。 • GANの評価にSWDという指標を導入し、提案手法の有効性を示した。 20