>100 Views
July 22, 19
スライド概要
2019/07/5
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
EP LEARNING JP [DL Papers] Weakly-Supervised Discovery of Geometry-Aware Representa<on for 3D Human Pose Es<ma<on Koichiro Tamura, Matsuo L http://deeplearn
PAPER INFORMATION Weakly-Supervised Discovery of Geometry-Aware �epresentation for 3D Human Pose Estimation� – Xipeng Chen, Kwan-Yee Lin, Wentao Liu, Chen Qian, Xiaogang Wang, Liang Lin� – Submitted on 21 Mar 2019 (arxiv�� – https://arxiv.org/abs/1903.08839� – Accepted as a C�P� 2019 oral paper� 3D Pose Estimation� – Multi View の 2D Pose Estimationを⽤いて,特定の画⾓から他の画⾓への 換を⾏うauto-encoderを学習し、幾何学的な意味合いを持つメタ的なヒトの 次元構造の潜在表現を得る� 2
. . . . . Outline イントロ� 既存⼿法の整理と新規性� 提案⼿法� 実験� まとめ� 3
イントロ 動画像から3D Pose Estimationを⾏う研究� – ⽤途: action recognition, human-computer interaction, autonomous driving, (A�/��)� – 研究/実⽤におけるボトルネック: annotationが難しい� – 本研究のモチベーション: 3Dのannotationが(事実上)必要なく,2DのPose Estimationのannotationのみで3D推 をしたい� – 類似研究� • ⼤量の2Dのannotationを⽤いて3D annotationを作成する⽅法 => ドメイン変換が悩みのタネ� • 事前に定義された3Dモデルに対して適⽤する⽅法 => ヒトの多種多様な動きに対して対応できない� • 複数視点から3Dモデルを得る⽅法 => 固形物はそこそこできるが、ヒトの多種多様な動きに対して対応できない� Mul$ View の 2D Pose Es$ma$onを⽤いて,特定の画⾓から他の画⾓への 変換を⾏うauto-encoderを学習し、幾何学的な意味合いを持つメタ的な ヒトの3次元構造の潜在表現を得るモデルを提案 4
既存手法の整理と新規性 Geometry-Aware �epresentations� 1. あらかじめ定義された構造情報に当てはめるような⼿法� 2. 複数の視点を利⽤した⼿法� – 固形物や顔/⼿などに適⽤されることが多かったが,関節点と可動域が⼤きい ⾝体の場合,少ないデータセットでかつsimpleな制約条件でどうするかとい ことは,未解決問題だった� 3D Human Pose Estimation� – Fully-supervised: データセットに様々な条件や制約� – Weakly-supervised=> 今回はこれ� 本研究は,2D Pose Estimationのannotationだけを⽤いて,� 幾何学的意味を持つ汎⽤的な潜在表現を獲得することが新規性� 5
提案手法 6
提案手法
1. Image Skelton Mapping
•
•
•
•
•
•
Mul< Viewにおけるencoder-decoder frameworkでは,
⽣画像でなく2D skeleton informa<onで⼗分
画⾓iと画⾓jから獲得した画像𝐼𝐼𝐼𝐼𝐼𝐼, 𝐼𝐼𝐼𝐼𝐼𝐼に対して,
2D Pose Es<ma<onの推論を⾏い,K個の関節点の
Heatmaps(1channelに対して1関節点の画像)を得る
Heatmapsから,2D skeleton maps 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆, 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆∈{0,
1}↑(𝐾𝐾−1)∗𝑊𝑊∗𝐻𝐻𝐻を⽣成する
(多分Pose Es<ma<onの推論できればなんでもよし)
しかし,まだ2つの問題がある
•
•
画⾓は有限である
画⾓の分布が不均⼀
•
•
Pose Sample Simulator => これを使う(これがすごい説)
上記論⽂では2D-3Dのpairを⽣成していたが,ただ
random samplingするだけ
3Dのground truthを持つデータに対して,ある画⾓か
ら正射影することで2DPoseを得る
(だから今回Weakly-Supervised)
Learning Pose Grammar to Encode Human Body
Configura<on for 3D Pose Es<ma<on(AAAI2018)
•
•
�
提案手法 Geometry representa<on via view synthesis • 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 -> (encoder) -> 𝐺𝐺𝐺𝐺𝐺𝐺-> (回 転⾏列𝑅𝑅𝑅𝑅𝑅→𝑗𝑗𝑗) -> 𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺 > (decoder) -> 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 • • 変換(⽣成)後の𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆と𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 で誤差を取る 𝑅𝑅𝑅𝑅𝑅→𝑗𝑗𝑗は(多分)固定 潜在表現� loss� 回転⾏列� loss� 8
提案手法 Representa<on consistency constraint • • 「ヒト」としてありえない構造 をとることに対して,制約を加 えたい 𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺と𝐺𝐺𝐺𝐺𝐺𝐺の差分をloss関数 回転⾏列� 潜在表現� に加える loss� 9
提案手法 損失関数� – 今までのお話をまとめると,損失関数は��の通�� 1� 2� 2� 3� 1� 3� 10
実験 データセット� – Human3.6M: 3Dデータセットで⼀番⼤きい, 3.6million,11actors, 15da activities, from 4camera� – MPI-INF-3DHP: 3d benchmark dataset, indoor(制約付き) & outdoor(⾮ 約)� – MPII: 2D human Pose� 評価⽅法� – 3つの形式的な評価プロトコルで⽐較� 11
実験 検証1� – (Human3.6におけるMPJPE, PMPJPE評価法にて)� – まずは,潜在表現Gを⽤いることの有⽤性を検証� • Gをneural networkの⼊⼒として,3D Pose を推論� • Gを⽤いず,2Dをneural networkの⼊⼒として,3D Poseを推論� � 学習データセットの規模を⼤きくするほど,Gは良い潜在表現を獲得し, また潜在表現Gを⽤いる有⽤性が⽰された� 12
実験 検証2� – 他⼿法との⽐較� – MPJPEの場合� • Martinez et al. の⼿法に,潜在表現Gを利⽤した場合: 62.9 => 56.3� • Sun et al.の⼿法に,潜在表現Gを利⽤した場合: 49.8 => 46.3� • Integral human pose regression + 本研究がS��A� – (2Fc layersだと,普通に性能が悪い)� 13
実験 潜在表現について� – 潜在表現は,constraint lossを加えたことによって,point cloudの形式の幾 何学的意味を持つヒトの3次元構造をなす� – 潜在表現を⽤いていることで,よ�ドメイン��性能が⾼い� 14
実験 �⼒� 15
まとめ どんなもの? multi viewの2D Pose Estimationのannotationだけを⽤ いて、auto-encoderでヒトの3次元的幾何学的意味を持つ 潜在表現を獲得� どうやって有効だと証明した? 潜在表現を⽤いた推論とそうでない場合を,Human3.6M などで,先⾏研究などと⽐較&組み合��ながら検証� 先行研究との差分は? 1. multi viewの2D Pose Estimationのannotationだけ� 2. 幾何学的意味を持つ潜在表現� � 技術や手法のキモは? 議論点 • 2D annotationだけでいけること,既存⼿法のフレーム ワークに組み込める点で実⽤性が⾼いか� • 2D Pose Estimationの����に⼤きく�存しそう� 次に読むべき論文は? 1. 3D annotation-> 2d annotationに無限サンプリング� 1. Learning Pose Grammar to Encode Human Body Con�guration for 3D Pose Estimation(AAAI2018)� 2. Auto-encoderにおいて,潜在表現間におけるlossも考 �� 2. Integral human pose regression� 16