>100 Views
October 11, 19
スライド概要
2019/10/11
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Seeing What a GAN Cannot Generate Yuting Lin, Kokusai Kogyo Co., Ltd.(国際航業) http://deeplearning.jp/ 1
書誌情報 ➢ 著者 – David BauらMITの研究チーム – GAN Dissectionを提案したチーム ➢ ICCV2019に採択 ➢ コード:2週間前に公開 – https://github.com/davidbau/ganseeing 2
概要 ➢ 既存のGAN手法のmode collapseに注目。 ➢ 主に物体レベルのmode collapseを研究対象として、議論を行った – どのような物体が作成されないかを統計的に検討 ➢ 単独の画像に注目し、GANの生成器をレイヤ毎にnetwork inversion を実施し、生成器を最適化する – レイヤ毎の特徴量を最適化することで、生成器の性能の上限を向上 – 既存のGAN手法が失敗するケースを分析 3
既往研究 ➢ GANの課題:mode collapse/ mode drop – ターゲット分布の一部分は生成されない – 既存のGANの結果を評価する指標はモデル全体を対象とする – 本研究は、物体レベルのmode collapseを評価 ➢ Network inversion – x = G(E(x)) – 生成器のinversionとなるencoderにより取得した潜在空間に対し、特定の操作 を行うことで、画像を編集できる – 構造の複雑な生成器に対しては困難 – 本研究は、 Layer-wise network inversion + Layer-wise image optimizeを提 案 ➢ GANの可視化 – 多くの研究は、分類問題や、GANが学習できる物体の可視化に注目 4
手法 ➢ 生成画像と実画像のセマンティックセグメンテーション結果を比較し、 GANが生成できない物体を全体的に評価 ⁃ ⁃ セグメンテーション結果に対し、各クラスの画素数で比較 FSD(Fréchet Segementation Distance)でモデルの全体性能を評価(FIDと 類似) 2 + 𝑇𝑟 ∑𝑔 + ∑𝑡 + 2(∑𝑔 ∑𝑡 )1/2 ⁃ 𝐹𝑆𝐷 = ⁃ ⁃ 𝜇𝑡 は学習サンプルの各クラスの平均画素数。∑𝑡 は各クラスの画素数の共分散 𝜇𝑔 は生成画像の各クラスの平均画素数。∑𝑔 は各クラスの画素数の共分散 𝜇𝑔 − 𝜇𝑡 (1) 5
手法 ➢ 問題設定 – x‘ = G(z) = G(E(x)) • Network inversion によるGの最適化:Gはnon-convexのため、全体のinversionが難しい • zの最適化:局所的最小値に落ちやすい – 追跡可能なnetwork inversion • x' = G(z) = Gf(gn(·· · ((g1(z)))) (2) = Gf(r*) where Gfは生成器の深い層。gnは浅い層。 ∗ r = arg min 𝑙(Gf 𝑟 , 𝑥) 𝑟 – 完璧なr*を求めれば、漏れのない画像を生成できる ∗ r ≈r0= gn(·· · ((g1(z0)))) – ランダムなzより、ある程度正則化されたz0 が望ましい。実画像xをencodeすることで、正則 化したz0を求められる z0 = E(x) 6
手法 ➢ Layer-wise network inversion – Encoder Eを学習できれば、 z0の推定ができる – pre-trainした独立するレイヤを使うことで、大きいなネットワークの学習がし やすくなる – Layer-wise inversionで、Eを最適化する – x′= Gf(gn(·· · ((g1(z)))) のレイヤ毎(gi)に、inversionとなるeを用いて最適化する • ri = gi(ri-1) ⇒ ri-1 ≈ ei(ri) ⇒ ri ≈ gi(ei(ri)) • eiの最適化 • E* = e1(e2(·· · (en(ef(x)))) 7
手法 ➢ Layer-wise image optimization ∗ – 目標は、 なるべく完璧なr を見つけて、物体が漏れない画像を生成する。 ⇒ Gf(r*) – 各 giにおいて、ある特徴量𝛿𝑖 を加えることで、 ri を最適化 – 𝑟 ≡ 𝛿𝑛 + 𝑔𝑛 ⋯ 𝛿2 + 𝑔2 𝛿1 + 𝑔1 𝑧0 ∗ – r = arg min( 𝑙 x, Gf 𝑟 𝑟 + λ𝑟𝑒𝑔 ∑𝑖 𝛿𝑖 (3) 2) – 𝑙 x, Gf 𝑟 は画像のpixel lossおよび、VGG perceptual lossとする 8
実験1 ➢ GANが生成した画像の全体評価 ➢ 実験対象 – WGAN-GP, Progressive GAN, StyleGAN ➢ データセット – LSUN bedroom images ➢ 評価内容 – GANで生成した画像でsemantic segmentationし、その結果を統計的に評価する – 合計336クラス、10,000枚以上の画像で評価 ➢ セグメンテーション手法 – Unified Perceptual Parsing network 9
実験1 ➢ 実画像と比較し、GANは小さく、複雑な物体の生成が苦手 Real images ➢ 性能として、StyleGAN > Progressive GAN > WGAN 10
実験2 ➢ 異なるデータセットにおいて、生成できない物体は類似する ➢ 実験対象: Progressive GAN ➢ データセット:LSUN church/bedroom images 11
実験3 ➢ 提案手法有効性の検証 ➢ baseline – a): optimize z – b): learn E directly – c): b)+a) ➢ abalation study – d): layer-wise network inversion only – e): a)+optimize z – f): a)+optimize r (r=Ef(x)) ➢ 提案手法は、中間レイヤの特徴量におい て、99%以上相関 ➢ Eの目的は、Gが生成できない物体 (dropped modes)を明確にする ➢ d),e)はGの下限を示す。f)はGの上限を示 す 12
実験4 ➢ Layer-wise inversion across domains – 対象物体が同じで、学習データに含まれていない場合:形状は大体復元できるが、細部は困難 – シーンが異なる場合、基本的には難しい 13
まとめ ➢ GANの生成画像をセグメンテーションし、FSDで全体を評価した ➢ Layer-wise network inversionで、Gをレイヤ毎にinversionし、Gの復元上限 (dropped mode)を明確にした ➢ 今後の課題 – なぜGANは、学習データでの出現頻度が高い物体を生成しないのか? – 学習データを変更せず、どうやってGANを物体の表現を学習できようにするの か? ➢ 所感 – 着眼点が面白い – 方法は、割と地味 – 解釈性も入れるべき? 14