[DL輪読会]CVPR2019:Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation

>100 Views

July 22, 19

#deep learning #3D Pose Estimation #Weakly-Supervised Discovery #Geometry-Aware Representations #2D Annotation #Deep Learning

スライド概要

2019/07/5
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.2K

各ページのテキスト

EP LEARNING JP [DL Papers] Weakly-Supervised Discovery of Geometry-Aware Representa<on for 3D Human Pose Es<ma<on Koichiro Tamura, Matsuo L http://deeplearn

PAPER INFORMATION Weakly-Supervised Discovery of Geometry-Aware �epresentation for 3D Human Pose Estimation� – Xipeng Chen, Kwan-Yee Lin, Wentao Liu, Chen Qian, Xiaogang Wang, Liang Lin� – Submitted on 21 Mar 2019 (arxiv�� – https://arxiv.org/abs/1903.08839� – Accepted as a C�P� 2019 oral paper� 3D Pose Estimation� – Multi View の 2D Pose Estimationを⽤いて，特定の画⾓から他の画⾓への換を⾏うauto-encoderを学習し、幾何学的な意味合いを持つメタ的なヒトの次元構造の潜在表現を得る� 2

https://arxiv.org/abs/1903.08839

. . . . . Outline イントロ� 既存⼿法の整理と新規性� 提案⼿法� 実験� まとめ� 3

イントロ動画像から3D Pose Estimationを⾏う研究� – ⽤途: action recognition, human-computer interaction, autonomous driving, (A�/��)� – 研究/実⽤におけるボトルネック: annotationが難しい� – 本研究のモチベーション: 3Dのannotationが(事実上)必要なく，2DのPose Estimationのannotationのみで3D推をしたい� – 類似研究� • ⼤量の2Dのannotationを⽤いて3D annotationを作成する⽅法 => ドメイン変換が悩みのタネ� • 事前に定義された3Dモデルに対して適⽤する⽅法 => ヒトの多種多様な動きに対して対応できない� • 複数視点から3Dモデルを得る⽅法 => 固形物はそこそこできるが、ヒトの多種多様な動きに対して対応できない� Mul$ View の 2D Pose Es$ma$onを⽤いて，特定の画⾓から他の画⾓への変換を⾏うauto-encoderを学習し、幾何学的な意味合いを持つメタ的なヒトの3次元構造の潜在表現を得るモデルを提案 4

既存手法の整理と新規性 Geometry-Aware �epresentations� 1. あらかじめ定義された構造情報に当てはめるような⼿法� 2. 複数の視点を利⽤した⼿法� – 固形物や顔/⼿などに適⽤されることが多かったが，関節点と可動域が⼤きい⾝体の場合，少ないデータセットでかつsimpleな制約条件でどうするかといことは，未解決問題だった� 3D Human Pose Estimation� – Fully-supervised: データセットに様々な条件や制約� – Weakly-supervised=> 今回はこれ� 本研究は，2D Pose Estimationのannotationだけを⽤いて，� 幾何学的意味を持つ汎⽤的な潜在表現を獲得することが新規性� 5

提案手法 6

[beta]

提案手法
1. Image Skelton Mapping
•
•
•
•
•
•

Mul< Viewにおけるencoder-decoder frameworkでは，
⽣画像でなく2D skeleton informa<onで⼗分
画⾓iと画⾓jから獲得した画像𝐼𝐼𝐼𝐼𝐼𝐼, 𝐼𝐼𝐼𝐼𝐼𝐼に対して，
2D Pose Es<ma<onの推論を⾏い，K個の関節点の
Heatmaps(1channelに対して1関節点の画像)を得る
Heatmapsから，2D skeleton maps 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆, 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆∈{0,
1}↑(𝐾𝐾−1)∗𝑊𝑊∗𝐻𝐻𝐻を⽣成する
(多分Pose Es<ma<onの推論できればなんでもよし)
しかし，まだ2つの問題がある
•
•

画⾓は有限である
画⾓の分布が不均⼀

•
•

Pose Sample Simulator => これを使う(これがすごい説)
上記論⽂では2D-3Dのpairを⽣成していたが，ただ
random samplingするだけ
3Dのground truthを持つデータに対して，ある画⾓か
ら正射影することで2DPoseを得る
(だから今回Weakly-Supervised)

Learning Pose Grammar to Encode Human Body
Conﬁgura<on for 3D Pose Es<ma<on(AAAI2018)

•
•

�

提案手法 Geometry representa<on via view synthesis • 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 -> (encoder) -> 𝐺𝐺𝐺𝐺𝐺𝐺-> (回転⾏列𝑅𝑅𝑅𝑅𝑅→𝑗𝑗𝑗) -> 𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺 > (decoder) -> 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 • • 変換(⽣成)後の𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆と𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 で誤差を取る 𝑅𝑅𝑅𝑅𝑅→𝑗𝑗𝑗は(多分)固定潜在表現� loss� 回転⾏列� loss� 8

提案手法 Representa<on consistency constraint • • 「ヒト」としてありえない構造をとることに対して，制約を加えたい 𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺と𝐺𝐺𝐺𝐺𝐺𝐺の差分をloss関数回転⾏列� 潜在表現� に加える loss� 9

10.

提案手法損失関数� – 今までのお話をまとめると，損失関数は��の通�� 1� 2� 2� 3� 1� 3� 10

11.

実験データセット� – Human3.6M: 3Dデータセットで⼀番⼤きい, 3.6million，11actors, 15da activities, from 4camera� – MPI-INF-3DHP: 3d benchmark dataset, indoor(制約付き) & outdoor(⾮約)� – MPII: 2D human Pose� 評価⽅法� – 3つの形式的な評価プロトコルで⽐較� 11

12.

実験検証1� – (Human3.6におけるMPJPE, PMPJPE評価法にて)� – まずは，潜在表現Gを⽤いることの有⽤性を検証� • Gをneural networkの⼊⼒として，3D Pose を推論� • Gを⽤いず，2Dをneural networkの⼊⼒として，3D Poseを推論� � 学習データセットの規模を⼤きくするほど，Gは良い潜在表現を獲得し，また潜在表現Gを⽤いる有⽤性が⽰された� 12

13.

実験検証2� – 他⼿法との⽐較� – MPJPEの場合� • Martinez et al. の⼿法に，潜在表現Gを利⽤した場合: 62.9 => 56.3� • Sun et al.の⼿法に，潜在表現Gを利⽤した場合: 49.8 => 46.3� • Integral human pose regression + 本研究がS��A� – (2Fc layersだと，普通に性能が悪い)� 13

14.

実験潜在表現について� – 潜在表現は，constraint lossを加えたことによって，point cloudの形式の幾何学的意味を持つヒトの3次元構造をなす� – 潜在表現を⽤いていることで，よ�ドメイン��性能が⾼い� 14

15.

実験 �⼒� 15

16.

まとめどんなもの？ multi viewの2D Pose Estimationのannotationだけを⽤いて、auto-encoderでヒトの3次元的幾何学的意味を持つ潜在表現を獲得� どうやって有効だと証明した？潜在表現を⽤いた推論とそうでない場合を，Human3.6M などで，先⾏研究などと⽐較&組み合��ながら検証� 先行研究との差分は？ 1. multi viewの2D Pose Estimationのannotationだけ� 2. 幾何学的意味を持つ潜在表現� � 技術や手法のキモは？議論点 • 2D annotationだけでいけること，既存⼿法のフレームワークに組み込める点で実⽤性が⾼いか� • 2D Pose Estimationの��に⼤きく�存しそう� 次に読むべき論文は？ 1. 3D annotation-> 2d annotationに無限サンプリング� 1. Learning Pose Grammar to Encode Human Body Con�guration for 3D Pose Estimation(AAAI2018)� 2. Auto-encoderにおいて，潜在表現間におけるlossも考 �� 2. Integral human pose regression� 16