145 Views
March 08, 17
スライド概要
2017/3/8
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks M1 Shota SUGIHARA
書誌情報 • StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks • arXiv (https://arxiv.org/abs/1612.03242) • Submitted on 10 Dec 2016 • Authors: Han Zhang, Tao Xu, Hongsheng Li, Shaoting Zhang, Xiaolei Huang, Xiaogang Wang, Dimitris Metaxas • 選定理由:⽣成モデルへの興味 2
概要 • 多層化したGANで学習させることで,説明⽂のみから 256×256画素の画像を⽣成 • GANを2段階に分ける. • Stage-I GAN • 与えられた説明⽂とノイズから,元となる低解像度の画像を⽣成 • Stage-II GAN • 再び説明⽂の条件から,Stage-Iでの⽋損部分を修正するように⾼解像度の画像 を⽣成 3
実装 4
Stage-I GAN • 説明⽂をtext embedding 𝜑 𝑡 に変換 • ⾼次元(𝜑 𝑡 >100次元) • 潜在変数の多様体が不連続になり,学習に好ましくない. • Conditioning Augmentation • ガウス分布𝑁 𝜇 𝜑 𝑡 , ∑ 𝜑 𝑡 からランダムにサンプリング • 損失関数 5
Stage-II GAN • Stage-Iの低解像度画像を元に,⾼解像度の画像を⽣成する. • Stage-Iで⽣じた画像の歪み,情報の⽋損を修正するためtext embedding 𝜑 𝑡 を再び条件に加える. • 損失関数 • 𝑠* はStage-Iで⽣成された画像. 6
実験 • テストデータは2種類 • Caltech-UCSD Bird (CUB) • 200種類の⿃を11788枚含むデータセット • Oxford-102 • 102種類の花を8189枚含むデータセット • ⽐較対象:GAN-INT-CLS, GAWWN • 定量的評価:inception score, human rank (10⼈) 7
⽐較結果: CUB 8
⽐較結果: CUB • GAN-INT-CLSは⼤まかな特徴を捉えているだけであり, realisticな画像も⼗分な解像度も満たしていない. • GAWWNは条件変数を追加することでより良い結果が出たが, 説明⽂のみの条件では本物らしい画像を⽣成できない. • StackGANは説明⽂のみで,256×256画素のrealisticな画像⽣ 成に成功した. 9
⽐較結果: Oxford-102 10
⽐較結果 • Inception score, Human rankともに,最も⾼いスコアを得た. 11
結果: Stage-I, II間 • Stage-Iでは,凡そ最もらしい⾊や形を捉えているものの,細部 の⽋損や間違いが⾒られる.Stage-IIでは,詳細部分が修正さ れ,より説明を反映した画像が⽣成されている. 12
結果: training dataとの⽐較 • ⽣成された画像と,それに近いtraining dataをL2距離から導出 し,⽐較した. 13
検証: Component analysis • 提案⼿法の検証 • Conditioning Augmentation 14
検証: Sentence embedding interpolation 15
失敗例 • 筆者らはStage-Iで特徴を捉えられなかったためと主張している. 16
失敗例 • 筆者らはStage-Iで特徴を捉えられなかったためと主張している. 17
まとめ • photo-realisiticな画像⽣成のためのStackGANを提案した. • ⽣成過程を2段階にすることで,Stage-Iで説明⽂から⼤まかな 特徴を捉え,Stage-IIでそれを修正し鮮明な画像⽣成に成功し た. • 既存⼿法と⽐較して,定性的,定量的に提案⼿法が優れている ことを⽰した. 18