>100 Views
February 08, 18
スライド概要
2018/1/19
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
“Painting Style Transfer for Head Portraits using Convolutional Neural Network (SIGGRAPH2016)” Haruka Murakami Matsuo Lab 1
書誌情報 • SIGGRAPH’16 • 被引用数:17(17/01/16時点) • 著者 – Ahmed Selim∗ CONNECT center, Trinity College – Mohamed Elgharib∗ Dublin Qatar Computing Research Institute, HBKU – Linda Doyle* CONNECT center, Trinity College Dublin • 選定理由:画像編集による自動化粧の従来研究があまりなく、既に採択されている近い研究を参考にしたかっ たため。 • 内容:肖像画を、パーツを崩さずにいろんな芸術家のスタイルで描く – いろんな研究を引用して組み合わせた研究(引用文献60件弱!!) – 動画でも出来ている 2
似顔絵を描く際の問題 • 似顔絵を描くとパーツが崩れる *論文内より一部抜粋した図 • 従来の研究 – 鉛筆でのスケッチが前提 • 肖像画の構成要素 – ブラシ使い、輪郭&パーツ、テクスチャ • パーツを崩さずにスタイルだけ適用できないか? 3
今回のポイント • 人の顔写真を参考画像のスタイルに顔を崩さずに変換+動画 • 顔写真+参考肖像画1点のみでOK 従来は・・・ – イメージからの類推に頼り、テクスチャーを取ってそれっぽいものにしていた – 顔写真+寄せたいスタイルが何点か必要だった – 参考画像は肖像画であればどんなスタイルのものでも構わない • 画像にCNNを使った空間上の制約を加え、顔が崩れないようにした • 動作の情報なしで、動画でも変換がスムーズに行えるようにした 4
どんな画像が参考画像でも適応できる • 顔のパーツを保ってStyle Transferすると 5
従来手法との比較 • そんなに違うかなあという感じもするが。 比較手法 [Gatys et al. 2015] 元写真 参考画像 提案手法 Γ = 1、 10、 100 6
前提の式(従来手法で考え方は提案済み) • I : 顔写真 E:参考肖像画 通常の特徴量の式を テクスチャーの特徴量 Glで更新する εは割り算の解なしを防 ぐためのパラメータ 7
今回導入した考え方 • 顔の崩れを防ぐ式 • F[O]はVGG network – 5×5の畳み込みを3×3の2層で表現する – 層が増えるので、弁別能力が高くなる 8
今回のアルゴリズム • Γ:絵と写真のバランス • 基本的には普通のCNN • Gain Mapを得て、テクス チャーを捉えた後、先ほ どの空間束縛式の最適化 を繰り返す 9
横顔も出来てる 10
動画への拡張 • 画像からの応用としてアラインメント変化を取得して反映し、動画にも適用 • https://www.youtube.com/watch?v=SoyjFyHpwFI • すごいところ – 比較的スムーズ – ちらつき、Shower ‒ door effect、Ghost effectを防いでいる – ただし、他の参考文献の手法を適用 11
実行環境 • VGG network with max pooling は[Simonyan and Zisserman 2014] 、implementation は [Johnson 2015] を利用 • 静止画 – 画像サイズ: 合計約4502 ピクセル – 重みを最適な値に調整 – 最適化のためのイテレーション1000回 • 動画 – 画像1枚あたり約100 秒(イテレーション300回) – 画像サイズを500 ⇥ 378 に再調整。テクスチャーのアラインメント変化の処理時間は1画像あたり5.3秒。 – GeForce GTX 780を使用( i7-3740QM CPU @2.7 GHz 、8 GB of RAM ) – 最適化されていないMATLABのコードで実行 12
Feature work • 顔の位置や髪の毛の位置の認識を間違えるとうまくいかない • alignmentにまだ難がある 13