101 Views
July 10, 20
スライド概要
2020/07/10
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild Kento Doi, D1, Matsuo Lab http://deeplearning.jp/ 1
書誌情報 • CVPR2020 Best Paper • 今年のbest paperは3D系ばかりでしたね! • OxfordのVisual Geometry Groupによる研究 • 選定理由 • この論文の前身となる論文を読んだはずだがスルーしてしまっていたので、 best paperに選ばれたタイミングで再度読み直そうと思った • デモが面白いので試してみてください • http://www.robots.ox.ac.uk/~vgg/blog/unsupervised-learning-ofprobably-symmetric-deformable-3d-objects-from-images-in-thewild.html?image=037_abstract&type=cat
論文概要 • 単一視点画像のみから教師なしで3Dの非剛体オブジェクトを学習 • 具体的には、画像からデプス、アルベド、カメラ姿勢、照明を推定 • 教師なしで学習するために物体の対称性を利用 • 人間の顔、動物の顔、車など左右対称な物体は非常に多い • 対称性は特に照明の推定と密接に関わる
Symmetry in 3D Vision • 本研究では不良設定問題の制約として、物体の対称性を利用 • 物体の対称性は、有用な制約として活用できる • 例) 対称性を利用したステレオマッチング (François+ 2003) • 物体の対称性を仮定すると、画像の反転により別視点の画像が作れる François et al. Mirror Symmetry ⇒ 2-View Stereo Geometry. Image and Vision Computing, 2003.
Symmetry in 3D Vision • 前述のように、対称性の活用が鍵 • しかし、非対称性への対処をする必要がある 1. 形状の非対称性 2. アルベドの非対称性 3. 照明条件による非対称性 (e.g. 人間の髪型) (e.g. 猫の模様の違い) • 2つのアプローチで対処 1. 照明の明示的なモデリング • shapeを復元するのにも役立つ 2. 各ピクセルが線対称である確率を推論する ➢ここまでが、基本的なアイデアの話 ➢次のスライドから詳細を説明します
Deep Learning x 3D • 既存手法との比較 • この表を精査したわけではな いですが、画像のみから4つの パラメータを推定する問題設 定はかなりチャレンジングに 見えます
提案手法: 全体図 • AutoEncoder型のネッ トワークで、デプス、 アルベド、カメラ姿勢、 照明を推定 • 推定した値から元の画 像を復元 ➢再構成誤差で学習
提案手法: Photo-geometric autoencoders • 入力画像: (3 x W x H) のテンソル • 物体がだいたい中央にあるように撮影 • 画像から次の4つの要素を推定 • 𝑑 : デプスマップ • 𝑎 : アルベド画像 • 𝑙 : 照明の方向 (global light direction) (2自由度) • 𝑤 : カメラ姿勢 (6自由度) • アルベドとは、入射光に対する反射 光の比 • 各ピクセルのRGBカラーは (入射光の 強さ) x (アルベド) で決まる DNNで4つの要素を推定
提案手法: Photo-geometric autoencoders • 4つの要素から以下の関数で画像を復元 • Λ : lighting function • Π : reprojection • Λ, Πには以下のような役割がある • Λは、デプス、照明、アルベドから正面画 像 (canonical view) を復元する • Πは、デプス、カメラ視点を用いて、正面 画像を目的の視点に再投影する ➢Λ, Πの詳細は後ほど説明します Πで正面画像を 元の画像のview に再投影 Λにより正面画像 の復元
Image formation model: Reprojection • Π, Λの詳細についての説明 • Πはデプス、カメラ視点を用いて、正 面画像を目的の視点に再投影する • カメラの内部パラメータK • R, tは外部パラメータ • 上の式は、各ピクセルを三次元空間に逆 投影→三次元空間上で変換→二次元平面 上に再投影、という処理を表している • カメラ幾何については産総研櫻田先生や 京大延原先生&NTT高橋さんの資料がわ かりやすいと思います • 櫻田健, SLAMの概要と画像を用いた3Dモデリングの基礎, https://www.slideshare.net/KenSakurada/slam3d • 延原章平&高橋康輔, SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世 界計測の基礎と応用~, https://www.slideshare.net/SSII_Slides/ssii2019ts3-149136612 ここ
Image formation model: lighting function • Λは、デプス、照明、アルベドから正 面画像 (canonical view) を復元する • 𝑘𝑠 , 𝑘𝑑 : アンビエント光とデフューズ光 の係数 • 𝑙 : 照明の方向ベクトル • 𝑛𝑢𝑣 : デプスから算出した法線ベクトル • 𝑎𝑢𝑣 : アルベド光 • 照明と法線の内積によりデフューズ の強さが決まる ➢照明による画像の非対称性をモデリング できる ここ
補足: シェーディング • シェーディングとは ➢光の角度と光源からの距離を考慮して色を変化させ、実写のような効果を得る処理 (Wikipedia) • アンビエント光 • シーン内の物体を等しく照らす光 • 色々な物体に • ディフューズ光 • 物体の表面で拡散反射をする光 • 光の向きと表面の法線ベクトルの角度で強度が決まる • スペキュラ光 • 物体表面で鏡面反射をする光 • 本研究では考慮されなかった光 (人の顔や動物の顔では鏡面反射が起こりにくいとい うことだと思います) (参照) 光源と物体, Atelier Blue, http://www.atelier-blue.com/program/mdirectx/3d/3d01-14.htm
提案手法: Probably symmetric objects • 対称性を活用するためには、対称の軸 をうまく発見する必要がある • 本研究では、これを暗黙的に解いた • 入力画像からデプス、アルベドを推定す る時に左右対称の正面画像として推定 • 推定したデプス、アルベドを反転させて も同じ画像が復元されるように学習 ➢左右対称を保証するため デプスとアルベドを左右対称 の正面画像として推定
提案手法: 損失関数 • モデルは以下の損失学習で訓練 • confidence 𝜎 で重み付けしたL1 loss (ラプラス分布のnegative loss likelihoodと等価) • confidenceについては次のスライドで説明します • 反転させたデプスとアルベドから再構成した画像についても同じ損失を計算 • 左右対称なデプス、アルベドの学習を促進 • 反転なし + 反転あり の合計を最終的な損失とする 再構成誤差 反転画像の再構成誤差
提案手法: Probably symmetric objects • 予測の不確かさ・物体の非対称性のモ デリング • confidence map 𝜎, 𝜎 ′ として出力 • 𝜎, 𝜎 ′ はそれぞれ損失関数の中で用いら れる • 特に𝜎 ′ は非対称性をモデリング • 右図の𝜎 ′では髪の毛の領域の不確かさが 大きくなっている • 髪は左右非対称の可能性が高い モデルの不確かさを推定
提案手法: 全体図 (再掲) • AutoEncoder型のネッ トワークで、デプス、 アルベド、カメラ姿勢、 照明を推定 • 推定した値から元の画 像を復元 ➢再構成誤差で学習 ➢左右反転させて同じこと をやる
実験 • Dataset • • • • • CelebA : 3DFAW: BFM : cat dataset: ShapeNet: 人間の顔のデータセット 人間の顔のデータセット (キーポイント付き) 人間の顔のデータセット (3Dモデルあり) 猫の顔のデータセット (一部キーポイントあり) 車の3Dモデルのデータを使用 • Metrics • scale-invariant depth error (SIDE) : デプスの誤差 • mean angle deviation (MAD) : 法線の誤差
実験: (ベースラインとの比較) • BFM dataset (人間の顔の3Dモデル)を用いてデプスとカメラ姿勢が 正しく推定できているか検証 • 教師ありで学習した結果よりは悪いがデプスの平均値をで予測するよりは良 い
実験: (Ablation) • 何が効いているのか確認 • アルベドとデプスのflipはよく効いている • 照明もよく効いている
実験 (Qualitative Results) • CelebA, 3DFAW, cat faces, ShapeNetの結果 • いい感じに三次元形状が 復元されている • 珍しい表情には対応でき てない? (2列目)
実験 (symmetry and asymmetry detection) • 対象の軸の可視化 (左図) • 非対称領域の可視化 (右図) • 人間の髪の毛や猫の顔の模様
実験 (Limitation) • 照明条件が極端な場合 (a) • 鏡面反射や影を仮定していないため • テクスチャに暗い色がノイズ的に含まれる場合 (b) • shadingと暗いテクスチャの区別がつかない • 物体が学習データにあまりないポーズの時 ©
まとめ • 単一画像から非剛体物体の3Dモデルを学習 • 推定したパラメータから画像を復元し、再構成誤差により学習 • 対称性と照明が、形状復元の重要な手がかりとなった • Future work • 複数の正面画像の生成 • デプスの代わりにメッシュやボクセルの使用 ➢より複雑な形状の物体に対応できるように! • 感想 • 対称性を活用するというアイデアが面白い • 適用対象が人間の顔画像が中心だったが、さらに複雑なデータに適用できるように なるのか(CIFAR-10から復元するとか)
参考文献 • S. Wu et al. Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild. CVPR, 2020. • François et al. Mirror Symmetry ⇒ 2-View Stereo Geometry. Image and Vision Computing, 2003. • 櫻田健, SLAMの概要と画像を用いた3Dモデリングの基礎, https://www.slideshare.net/KenSakurada/slam3d • 延原章平&高橋康輔, SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の 基礎と応用~, https://www.slideshare.net/SSII_Slides/ssii2019ts3-149136612 • シェーディング, Wikipedia (https://ja.wikipedia.org/wiki/%E3%82%B7%E3%82%A7%E3%83%BC%E3%83%87%E3%82%A3 %E3%83%B3%E3%82%B0) • 光源と物体, Atelier Blue, http://www.atelier-blue.com/program/mdirectx/3d/3d01-14.htm