>100 Views
November 09, 18
スライド概要
2018/11/09
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Freehand-Sketch to Image Synthesis 2018 "SketchyGAN: Towards Diverse and Realistic Sketch to Image Synthesis" & "Image Generation from Sketch Constraint Using Contextual GAN" Jun Hozumi, Matsuo Lab http://deeplearning.jp/ 1
紹介内容 • 今回紹介する論文 • • • SketchyGAN: Towards Diverse and Realistic Sketch to Image Synthesis • Wengling Chen and James Hays • in CVPR 2018 Image Generation from Sketch Constraint Using Contextual GAN • Yongyi Lu, Shangzhe Wu, Yu-Wing Tai and Chi-Keung Tang • in ECCV 2018 タスクの説明と、上記研究のポイントを紹介します • 提案手法の詳しい説明や実装は各論文をご参照ください 2
Freehand-Sketchとは • (厳密な定義はないが)ある物を想定して描かれた手書きイラストのこと • 美術家が本気出して写実的に描いたようなものは想定していない • 現状では用語の定義もしっかりなされていない 例: QuickDrawのCat (10秒で描かれたスケッチ) https://www.stringandloop.com/shop/quickdraw1 例: The Sketchy DatabaseのCat (ある写真を模写して描いたスケッチ) http://sketchy.eye.gatech.edu/explore/cat.html 3
Freehand-Sketch to Image Synthesisとは • Freehand-Sketchから、その元の(写真)画像を生成すること 例: SketchyGAN(上から下) • 異なる研究の例: Scribbler 似て異なるタスクの研究は数多い • 線画着色 • 画像スタイル変換 • イラストをクエリとした画像検索 4
Freehand-Sketchの前提知識 • • スケッチ: 人間なら誰でも簡単にできる表現方法 • 非常に単純で不完全 • でも人間なら頭の中で補完してその対象を容易に想像できる スケッチがあてにならない • いわゆる画像の「エッジ」とは異なる(右下参照) • 必ずしもスケッチどおりに復元すればいいという話でもない • スケッチから「その人が本来描きたかったスケッチ」への内部変換が必要 • でもそのためには事前知識が必要 5
従来手法の問題点 • たとえばStyle Transfer手法を使うと、出力をエッジにマッピングさせようとしてしまう CE: Context Encoder Ours: [Lu 18](後述) • このタスクにどのように取り組むか、以後研究を2つ紹介する 6
紹介内容1 • 今回紹介する論文 • • • SketchyGAN: Towards Diverse and Realistic Sketch to Image Synthesis • Wengling Chen and James Hays • in CVPR 2018 Image Generation from Sketch Constraint Using Contextual GAN • Yongyi Lu, Shangzhe Wu, Yu-Wing Tai and Chi-Keung Tang • in ECCV 2018 これまでの画像変換の流れに沿ってがんばるタイプの研究 7
1-1. 手法概要 • 50種類の物体におけるFreehand-Sketch to Image Synthesis手法 • • ImageNetとMSCOCOにあるラベルから50種類 従来の画像変換手法に大きく2つの工夫を加えた手法(SketchyGAN)を提案 • データセットの増加方法 • • Flickrから取得して作成 ネットワークの工夫 • Masked Residual Unit (MRU) 8
1-2. データセットの拡張 • • The Sketchy Databaseのスケッチ画像を使用する • スケッチとその元となった写真の組のデータセット • そういう組になっているデータセットがもっとほしい ImageNetとMSCOCOので検出できる物体について、Flickr APIを叩いて画像を取得 • • ImageNetは画像が少なすぎ、MSCOCOの画像は乱雑でこのタスクには不向き Resnet-v2とSingle Shot MultiBox Detectorでその物体を検出させてフィルタリング • • The Sketchy DatabaseのCat(一部) それが画像内の5%以下しか占めていない場合は除外 50カテゴリについて約50000程度の画像を収集した 9
1-3. エッジデータセットの作成 • Holistically-nested Edge Detection(HED)を行う(b) • さらに様々な処理(c→f)を重ねて、エッジデータにする • Distance Mapを(The Sketchy Database側も)計算しておく • 学習時にはこのエッジデータセットを多く用いて学習を始め 、徐々にスケッチデータ セットの比率を高めていくことで、スケッチデータで学習させていく 10
1-4. Masked Residual Unit (MRU) • GRUに似ているが、出力が次のブロックに行く点や、重みを共有しない点が異なる ネットワーク構造 MRUブロック 11
1-5. その他(損失関数など) • 損失関数にも様々な項を加える • Auxiliary Classification Loss やPerceptual Lossなど、巨人の肩にどんどん乗る • 詳しくは元論文参照 (各項の中身) 12
1-6. 実験 • 提案手法(MRU)はスケッチ対象を明確に生成できている CRN: Cascaded Refinement Network 13
1-7. 評価 • Inception Scoreは既存手法を上回るが、損失関数を工夫しないとより高くなる • 定性評価では忠実度(正しい入力データ当て正答率)は下がるが、現実感は高い 14
紹介内容2 • 今回紹介する論文 • • • SketchyGAN: Towards Diverse and Realistic Sketch to Image Synthesis • Wengling Chen and James Hays • in CVPR 2018 Image Generation from Sketch Constraint Using Contextual GAN • Yongyi Lu, Shangzhe Wu, Yu-Wing Tai and Chi-Keung Tang • in ECCV 2018 画像変換とはみなさず、少し視点を変えて取り組んだタイプの研究 15
2-1. 着眼点 • 本タスクを、スケッチを条件とした画像補完問題と捉える • 本研究タスクの位置付け 16
2-2. 手法概要 • 「イラストとその写真が結合された画像」の潜在空間を考える • (a): zの初期値候補を10個取り、一番KL距離が小さいzを初期値とする • (b): 潜在空間での入力(Context)AにG(z)が近づくz^を探索する 17
2-3. 訓練段階 • 訓練段階と完了段階の2段階に分ける • 訓練段階では、普通にGANを訓練させる 基本のネットワーク構造 18
2-4. 完了段階(1) • G(z) がyに最も近づくz^を求める (各項の中身) (Mはマスクバイナリ行列) 19
2-5. 完了段階(2) • z^を誤差逆伝播法で求める • その際にGやDは更新しない • 最終的な出力xgeneratedは以下の式で表される 20
2-6. データセット作成 • スケッチデータはXDoG, Photocopy, FDoGの複数種のエッジ抽出処理で作成する • それらはLearning to Simplify[Simo-Serra 16]で整える • • イラストの下絵からペン入れへの変換手法 学習時はXDoGによるデータで学習してから、他のデータでfine-tuningさせる Learning to Simplifyの例 (左から右) 21
2-7. 実験 • 提案手法を各エッジ画像に適用する • • CelebA 他手法とスケッチにおいて比較 • CelebA • CUB-200-2011 • Stanford’s Cars 22
2-8. 評価 • CelebAの場合でSSIMと同一人物判定精度(LightCNN)を評価 • 逆方向(写真からイラスト)の生成も可能 • 欠点: 特定の属性を見失いがち(CelebAでのひげやメガネなど) 23
最後に • • • Freehand-Sketch to Image Synthesisという新たな性質のタスクに対しても、捉え方を 変えて、これまで提案された画像変換手法や複数種類のエッジデータを用いることでア プローチすることはできる • ロバストさを意識したエッジto写真画像変換手法の問題とみなす • 画像の変換元ではなく条件とみなして一から生成する だが、現状のエッジデータの種類を増やすアプローチには限界がありそう • 人間が特徴とみなすものがエッジとして残らない可能性(記号化されたものなど) • スケッチデータが集められれば、ある程度は克服できそうだが 研究論文が出はじめたばかりなので、やりたい人は今がチャンス? 24