124 Views
November 30, 18
スライド概要
2018/11/30
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP 3D Hair Synthesis Using Volumetric Variational Autoencoders [DL Papers] Shizuma Kubo, Matsuo Lab http://deeplearning.jp/ 1
書誌情報 • 著者: SHUNSUKE SAITO, LIWEN HU, CHONGYANG MA, HIKARU IBAYASHI, LINJIE LUO, HAO LI • SIGGRAPH ASIA 2018 (12/4~12/7 @Tokyo) • Computer Vision, Computer Graphicの研究室。Hao Liさんは自身がCEOを務める Pinscreenという顔のトラッキング/モバイル端末で3Dアバターの作成を行うアプリ を開発している。 • SIGGRAPH ASIA 2018で、paGAN: Real-time Avatars Using Dynamic Textures http://luminohope.org/SIGA2018_paGAN.pdf も投稿。 2
何をするのか • 1枚のRGB画像を入力してヘアスタイルの3Dモデルを生成すること。 3
目的 • CGキャラクターを作成して、VRやゲームなどで利用を想定。 • 従来のデータdrivenなアプローチ(似たような髪型を検索する) であると、大きな容量が必要になったり、データに依存してしまい、 うまくいかないことがある。そこでVAEベースの生成を行うことを 提案する。 • (右図はpinscreenで作成した自分のアバター。このときの 髪型に推定で使うようなイメージだと思われる。) 4
要点 (1) 顔検出や髪のセグメンテーションを使用せずに、1枚の画像から3Dの髪型を合成 するend-to-endなフレームワークである。 (2) volumetric occupancy(後述)とorientation(flow) field representation(後述)を用いたVAE ベースのモデルである。 (3) PCAとiterative error feedback (IEF)の手法を用いて、汎化させた。 5
目次 1. 既存手法 1. 既存のモデルの制限 2. 提案手法 1. 2. 3. 4. 5. 髪の3D表現 提案モデル Volumetirc Variational Autoencoder Hair Embedding Network Iterative Error Feedback (IEF) 3. 各手法の評価 1. 2. 3. 4. 5. データセット VAEのアーキテクチャ Loss関数の評価 PCAの評価 IEFの評価 4. 結果 1. 2. 3. 合成結果 既存手法との比較 補完(interpolation) 5. まとめと感想 6
目次 1. 既存手法 1. 既存のモデルの制限 2. 提案手法 1. 2. 3. 4. 5. 髪の3D表現 提案モデル Volumetirc Variational Autoencoder Hair Embedding Network Iterative Error Feedback (IEF) 3. 各手法の評価 1. 2. 3. 4. 5. データセット VAEのアーキテクチャ Loss関数の評価 PCAの評価 IEFの評価 4. 結果 1. 2. 3. 合成結果 既存手法との比較 補完(interpolation) 5. まとめと感想 7
1. 既存のモデルの制限 ちゃんと整備されたスタジオがあればクオリティの高い3Dモデルも作れるが、 よりConsumer-friendlyな方法でそれを実現したい。 => 1枚の画像から作成 [Chai et al 2015; Hu et al 2015; Hu et al 2017] 1. 大量のデータ容量が必要になるため、容量に制限のあるモバイルのよ うなデバイスにはデプロイが難しい。 2. 探索のステップが遅く、髪型の種類が増えるにつれてデータベースが肥 大化するため、スケールが難しい。 3. 画像の質に結果が依存している。 8
目次 1. 既存手法 1. 既存のモデルの制限 2. 提案手法 1. 2. 3. 4. 5. 髪の3D表現 提案モデル Volumetirc Variational Autoencoder Hair Embedding Network Iterative Error Feedback (IEF) 3. 各手法の評価 1. 2. 3. 4. 5. データセット VAEのアーキテクチャ Loss関数の評価 PCAの評価 IEFの評価 4. 結果 1. 2. 3. 合成結果 既存手法との比較 補完(interpolation) 5. まとめと感想 9
2.1. 髪の3D表現 Occupancy field - 髪が存在すれば1、存 在しなければ0。 - 128x192x128x1 Orientation(Flow) field - 髪の毛の流れを表す。 - 128x192x128x3 Occupancy field, flow field [Pairs et al 2004, 2008;Wang et al. 2009; Wei et al. 2005] 10
2.2. 提案モデル • まず、青の矢印が示すようにVAEを学習する。入力はoccupancy field及びorientation field。(128x192x128x4) • 次に2D画像の入力で3Dのモデルを生成できるようにするために、入力画像の embeddingを学習する。 11
2.3.1. Volumetric Variational Autoencoder • VAE(青い部分)の学習。 Occupancy fieldの 再構成誤差。 ここが工夫点。 Orientation field の再構成誤差。 KL項 Over smoothedにならないようにL1を採用。 [Isola et al. 2017] 12
2.3.2. Volumetric Variational Autoencoder [Standard BCE] [Brock et al. 2016 BCE] [提案手法 BCE] 13
2.4. Hair Embedding Network : 潜在変数zをPCAで512次元に 圧縮したもの。 ただし、 ではなく : ResNet-50(学習済み)の出力を Embeddingを通して512次元にした もの。 z 以下のL2ロスを最小化するように Embeddingを学習する。 14
2.5. Iterative Error Feedback (IEF) 汎化性能を上げるために、Iterative Error Feedback(IEF) [Carreira et al. 2016]を使用。 3回のiterationを実行。 Iはimage encoderの出力、 はembeddingの出力。 下記の操作を繰り返す。 [Carreira et al. 2016]を参考にすると、 各ステップの誤差の和を最小化する ようにEmbedding のパラメータ を学習する。yの初期値は何らかの値 が与えられ、テスト時も3ステップの 処理がされる。 15
目次 1. 既存手法 1. 既存のモデルの制限 2. 提案手法 1. 2. 3. 4. 5. 髪の3D表現 提案モデル Volumetirc Variational Autoencoder Hair Embedding Network Iterative Error Feedback (IEF) 3. 各手法の評価 1. 2. 3. 4. 5. データセット VAEのアーキテクチャ Loss関数の評価 PCAの評価 IEFの評価 4. 結果 1. 2. 3. 合成結果 既存手法との比較 補完(interpolation) 5. まとめと感想 16
3.1. データセット • 816枚の髪型の画像を収集して、[hu et al. 2015]で3Dデータを生成。([hu et al. 2015]では生成に、髪のストロークに補助と髪型のデータベースが必要になる) • USC-HairSalon datasetの343枚の画像を同様に追加。 • 合計で1159枚の画像で、それを左右反転させたものも用意して合計で2318枚とし た。 • 2318枚のうち2164枚を訓練データ、154枚をテストデータとして利用した。 17
3.2. VAEのアーキテクチャ 18
3.3. Loss関数の評価 Occupancy field Flow field • 提案する左のLoss関数の効果を示している。 • 提案手法(Ours(VAE))は [Brock et al.] よりも各指 標でよい結果となっている。 19
3.4. PCAの評価 PCAが提案手法 Single-vector VAE Non-Linear MLP z MLP z • PCAを利用したことによって、精度が向上したことを示している。 • PCA部分をMLPで置き換えた場合精度が低下している。 • データ数の制限があるため、MLPでは十分な汎化ができてない。 20
3.5. IEFの評価 IEFが提案手法 End-to-end Direct prediction z MLP z not iterative • Direct predictionとの比較によりIEFの有効性を示している。 • End-to-endとの比較により提案手法のステップ(PCA利用+embedding)の有効性 を示している。 21
目次 1. 既存手法 1. 既存のモデルの制限 2. 提案手法 1. 2. 3. 4. 5. 髪の3D表現 提案モデル Volumetirc Variational Autoencoder Hair Embedding Network Iterative Error Feedback (IEF) 3. 各手法の評価 1. 2. 3. 4. 5. データセット VAEのアーキテクチャ Loss関数の評価 PCAの評価 IEFの評価 4. 結果 1. 2. 3. 合成結果 既存手法との比較 補完(interpolation) 5. まとめと感想 22
4.1. 合成結果 • 一番左が入力の画像、各行が提案モデルの 各画像の生成結果に対応している。 • [Hu et al 2017]のモデルは、顔の検出がうま くいかない影響で、3,5,6行目は意味のある 結果が出ない。 • [Chai et al 2016]のモデルでは、顔検出と髪 のセグメンテーションがうまくいかない影 響で、1行目の画像以外うまくいかない。 • 提案手法は色々なパターンの画像でうまく いく。 23
4.2. 既存手法との比較 • 一番左が入力の画像、2列目が既存手法の [Chai et al 2016]、右が提案手法。 • 既存手法は正確な髪のセグメンテーション に依存しているため、手で塞がれていたり、 あまりない髪型であると難しい。 • (論文中に定量的な評価はない。) 24
4.3. 補完(interpolation) • VAEなのでinterpolationもできる。 25
目次 1. 既存手法 1. 既存のモデルの制限 2. 提案手法 1. 2. 3. 4. 5. 髪の3D表現 提案モデル Volumetirc Variational Autoencoder Hair Embedding Network Iterative Error Feedback (IEF) 3. 各手法の評価 1. 2. 3. 4. 5. データセット VAEのアーキテクチャ Loss関数の評価 PCAの評価 IEFの評価 4. 結果 1. 2. 3. 合成結果 既存手法との比較 補完(interpolation) 5. まとめと感想 26
まとめと感想 (1) 顔検出や髪のセグメンテーションを使用せずに、1枚の画像から3Dの髪型を合成 するend-to-endなフレームワークである。 (2) volumetric occupancyとorientation(flow) field representationを用いたVAEである。 (3) PCAとiterative error feedback (IEF)の手法を用いて、汎化させた。 [感想] - 3D化にはOccupancyとorientation fieldのように3Dをパラメータとして扱えるような モデルが重要そう。 - データ数が多くないため、過学習が起きないような工夫が多い。(データが大量 にあれば解決しそう) 27