>100 Views
June 28, 18
スライド概要
2018/06/22
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] “CartoonGAN:,Generative,Adversarial,Networks,for,Photo, Cartoonization,(CVPR2018)”, Haruka,Murakami,Matsuo,Lab http://deeplearning.jp/ 1
書誌情報 • CVPR’18 (6/18~22) • Archiveへの公開なし、出たばかりなので引用はまだない • 著者 – Yang Chen∗ Tsinghua University, China – Yu-Kun Lai ∗ Cardiff University, UK – Yong-Jin Liu * Tsinghua University, China • 内容:写真(風景画)をGANでアニメ調に変換する – 訓練に風景画とアニメ画を使うが、ペア画像でなく無関係のセットをそれぞれ 学習 • 選定理由:データセット作成時に確率分布からの生成以外で新しい データを増やす方法を考えていた :この紹介と全く同時間に発表が行われているため アメリカは夕方でめっちゃタイムリー 2
アニメ調に変換するのは簡単そうに思えるが ◎現状の手法 • Non-photorealistic rendering (NPR) • NNで変換 どちらも 1) 高度なシンプル化、抽象化が必要 2) はっきりした輪郭、滑らかな色調変化、 シンプルなテクスチャ の実現が難しいという問題 3
近年の技術では? • Style Transfer ‒ 参照画像が1枚のため細部に作家の個性が再現されない、 輪郭検出が甘い • Cycle GAN ‒ 双方向変換するため時間を食う、やはり単純化や抽象化ができ ない • 実用的ではないので、アニメ調への変換に特化させたGANを作成した 1. 入力画像(写真)セットと参照画像(アニメ画)セットを関連付けず訓練させ、どの作家 の画風でも学習できるようにした 2. 2つの効果的な損失関数を用いた 3. 収束性を高める初期化のフェーズを作成し、計算速度を高める&勾配消失を防いだ 4
CartoonGanの のアーキテクチャ • • Dに全体画像ではなく部分画像で判断させ、パラメータを減らしている点が面白い 全体で判断させると、物体の輪郭の割合が小さすぎて輪郭のシャープさが判断できない→損失関数1 5
損失関数1 実験的にw,= 10,の時がベスト 1.輪郭をクリアにする アニメ画像とその輪郭をボカした画像 を作成してペアにし、ボカした画像を 失敗例とする 6
損失関数2 実験的にw,= 10,の時がベスト 2.内容の保持 先行研究からpre-trained 通常はl2 lossだが、l1 lossを使うことが キモらしい 7
画像の初期化 • Gを最初の10epochのみ損失関数2(Lcon)で学習 • NVIDIA Titan Xp GPUで1 epoch あたりの計算時間がCycleGAN:3020.31s, CartoonGAN :1517.69s 8
結果:「君の名は」に出てくるのと同じシーンの風景写真をアニメ調に変換 元風景写真 (M,=,,5402) , , , , ,CartoonGAN適用後,(N,=,4573) • 点字ブロックが崩壊しているのを除けば概ね良好 9
結果:新海監督と宮崎監督の画風への変換 10
他手法との比較 11
Feature work • 顔画像への適応 • 連続性を考慮した制限(動画)にも今回の損失関数を使えるようにし たい 12