[DL輪読会]Whole-Body Human Pose Estimation in the Wild

2.2K Views

August 04, 20

#deep learning #Deep Learning #Pose Estimation #2D Feature Point #COCO-WholeBody Dataset #ZoomNet

スライド概要

2020/07/31
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.1K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.2K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Whole-Body Human Pose Estimation in the Wild Shizuma Kubo, ACES.Inc http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • 書誌情報 ➢ Whole-Body Human Pose Estimation in the Wild ➢ 著者: Sheng Jin, Lumin Xu, Jin Xu, Can Wang, Wentao Liu, Chen Qian, Wanli Ouyang, Ping Luo ➢ 所属: The University of Hong Kong / SenseTime Research 中心 ➢ ECCV’20 Poster (2020/07/23 on arXiv) ➢ データセット: https://github.com/jin-s13/COCO-WholeBody 2

https://github.com/jin-s13/COCO-WholeBody

概要データセットの作成モデルの提案 ✓ 顔、手、身体、足の2次元特徴点のアノテーションをCOCOデータセットに施したCOCOWholeBodyを作成 (全て含まれるのは初) ✓ これらの2次元特徴点推定をend-to-endで学習されるネットワークで一度に行うZoomNetを提案 ✓ VR、AR、行動認識へのアプリケーション応用を想定 ✓ このように全身のキーポイントを推定するタスクをWhole-body Pose Estimationと呼ぶ ✓ Whole-body Pose Estimationで既存手法に対して、大きく精度向上 3

目次 1. 既存手法 ➢ 既存の2次元特徴点推定とWhole-Body Pose Estimation ➢ 2次元姿勢推定の整理 2. 提案手法 ➢ COCO-WholeBody Dataset ➢ ZoomNet 3. 評価 4. まとめ 4

目次 1. 既存手法 ➢ 既存の2次元特徴点推定とWhole-Body Pose Estimation ➢ 2次元姿勢推定の整理 2. 提案手法 ➢ COCO-WholeBody Dataset ➢ ZoomNet 3. 評価 4. まとめ 5

既存の2次元特徴点データセット • Body Pose Estimation: COCO (17点の身体キーポイント)、Body25 (足のアノテーション付) • Hand Keypoint: Panoptic (Lab環境での撮影)、Hand10K (in the wildだが、数が少ない) • Face Keypoint: 300W (複数のデータセットの組み合わせ、68点キーポイント) • DensePose: 3D表現に対応するアノテーション。関節点の情報が不足していたり、顔や手のキーポイントが少ない。今回のアノテーションには含まれない Body Hand Face DensePose Foot 画像引用: https://github.com/facebookresearch/DensePose 6

https://github.com/facebookresearch/DensePose

既存の2次元特徴点データセットの課題課題 1. In-the-wildな環境のHand Poseのデータセットがそもそも少ない 2. 光の当たり具合、姿勢、スケールの分散が各データセットごとに異なるため、全てを一緒に学習することが難しい Body Hand Face COCO-WholeBody Datasetはこの問題を解決するために、COCOに face、hand、footのアノテーションを追加した (All-in-One) Foot 7

既存のWhole-Body Pose Estimation • OpenPose [Cao CVPR’17, Simon CVPR’17]: 身体と足のキーポイントの検知と手と顔の位置をまず検出。その後、顔と手の推定を追加のネットワークで行う。複数のネットワークに依存するため、学習が面倒、実行速度・計算量が増加してしまう • SN [Hidalgo CVPR’19]: 基本構造はOpenPoseと同じだが、全身のキーポイントを一気に出力し、グルーピング。全身のデータセットはなかったため学習時のサンプリングを工夫問題点 1. スケールの分散をうまく扱えていないことを指摘 (つまり、手と顔のサイズが身体に対して小さいため、同一に扱うと学習がうまくいかない) 2. 特に、Bottom-Upアプローチであることに起因することを指摘 (提案手法はTop-Down) 8

目次 1. 既存手法 ➢ 既存の2次元特徴点推定とWhole-Body Pose Estimation ➢ 2次元姿勢推定の整理 2. 提案手法 ➢ COCO-WholeBody Dataset ➢ ZoomNet 3. 評価 4. まとめ 9

10.

2次元姿勢推定のパラダイム Bottom-Upアプローチ Top-Downアプローチ 1. まず、画像中のキーポイントを全て検出する 2. そのキーポイントを人物ごとにグルーピングする 1. まず、人物のbounding boxを検出する 2. そのbounding boxをboxごとにリサイズ、クロップして、キーポイントの検出を行う ➢ 人物に関係なくキーポイントの推論を行うため、人物が増えても推論速度があまり変わらない ➢ 人物のサイズを揃えることができるので精度が高く出しやすい (SOTA論文はこのアプローチから出る) キーポイント検出グルーピング物体検出キーポイント検出 10

11.

Whole-Body Pose Estimation のポイント • Whole-body Pose Estimationには2段階のTop-Down/Bottom-Upの選択がある 1. 人物単位 (姿勢推定一般的な議論点) 2. 身体のパーツ単位 (Whole-body Pose Estimation特有の議論点) 物体検出 (Top-Down 1) ZOOM-in (Top-Down 2) キーポイント推論ポイントパーツのキーポイント推論を人物画像に対して1度に行う (Bottom-Up)か、注目パーツごとに分割して行う機構を取り入れて推論する(Top-Down)かの姿勢推定の際に人物ごとに分割するかどうか(Top-Down/Bottom-Up)と同様の議論が生じる 11

12.

目次 1. 既存手法 ➢ 既存の2次元特徴点推定とWhole-Body Pose Estimation ➢ 2次元姿勢推定の整理 2. 提案手法 ➢ COCO-WholeBody Dataset ➢ ZoomNet 3. 評価 4. まとめ 12

13.

COCO-WholeBody Dataset • 人物ごとにBounding BoxとKeypointsのアノテーション • Bounding Box (person box、face box、left-hand box、right-hand box) • 133 Keypoints (body: 17、feet: 6、face: 68、hands: 42) Whole Face Statistics of COCO-WholeBody Hand 13

14.

データセットの比較 14

15.

データセットの詳細情報スケールの違い ➢ 図はキーポイント同士の距離の分布を表す ➢ Bodyとhand/faceでは分布が大きく違う (当然の結果ではある) ➢ これらのスケールの違うキーポイントを推論するところにタスクの難しさがあるぼやけ度 (Blurriness) Gesture Variance ➢ 画像のblurinessを一般的な Faceのデータセットである 300Wと比較 (Blurinessは Laplacian methodによる) ➢ 300Wよりも広く分布しており、blurinessが1よりも小さいようなチャレンジングなものを含まれる ➢ 手の形をfist、palm、others の3つのパターンに分類 ➢ 一般的なデータセットである Panopticと比較 ➢ In-the-wildなデータセットで、何かを掴んでいる手の画像が多い 15

16.

アノテーションの仕方アノテーションステップ 1. 人物ごとにface/left-hand/right-handのbboxとvalid/invalidのラベルをアノテーション 2. 複数のアノテーターグループによる厳しい品質チェック 3. Validラベルのbboxにキーポイントのアノテーション HRNetv2ベースの学習済みモデルで推論した結果を利用し、その結果を修正するようにしてアノテーション 4. 結果的に、handが約28%、faceが約6%だけが修正対象。この節約によって約89%の時間を節約できたと推察 • 最低限Keypointができる程度の見え方のbboxにvalidのラベルを振り、そのbboxに対して keypointのアノテーションを行った (画質が悪すぎる、オクルージョンが強すぎるものが invalid) • アノテーション時間目安 10 min/face、1.5min/hand、10 sec/box (by professional annotator) 16

17.

目次 1. 既存手法 ➢ 既存の2次元特徴点推定とWhole-Body Pose Estimation ➢ 2次元姿勢推定の整理 2. 提案手法 ➢ COCO-WholeBody Dataset ➢ ZoomNet 3. 評価 4. まとめ 17

18.

ZoomNetの全体像 • 既存のFaster-RCNNで人物を検出し、以下のモジュールでその人物のキーポイントを推論する • FeatureNet: 2つの畳み込み層とbottleneck blockから成る。 ➢ 入力サイズ: 384x288 -> F1: 192x144 -> F2: 96x72 • BodyNet: body/footのキーポイント予測とface/handのbbox予測を行う • HandHead/FaceHead: BodyNetから得られるface/handのbbox中のキーポイントを予測する 18

19.

BodyNet • CornerNet[Law+ ECCV’18]にインスパイアされた方法 (とはいえ、やり方は違う) • Bbox(face/left-hand/right-hand)をboxのコーナーの4点と中心点で表す • このbboxと身体のキーポイント (body/foot)を2次元のヒートマップとして予測する • 推論時には最も距離が近くなるboxのコーナー4点をbboxとみなす • 出力は38チャンネル (bbox 5点x3種=15, keypoint 17(body)+6(foot)=23) でbackboneはHRNet-W32 19

20.

HandHead/FaceHead • BodyNetのbboxの出力を用いて、ROI Alignを行い、F1/F2からface/handに対応する特徴量を取得する • この特徴量からface/handそれぞれでキーポイントを推論する • BackboneはそれぞれHRNet-18を使用 20

21.

目次 1. 既存手法 ➢ 既存の2次元特徴点推定とWhole-Body Pose Estimation ➢ 2次元姿勢推定の整理 2. 提案手法 ➢ COCO-WholeBody Dataset ➢ ZoomNet 3. 評価 4. まとめ 21

22.

定量評価 • Whole-Body Pose Estimationとして提案されているOpenPoseとSNに加えて、Bottom-Up手法の PAFとAE、Top-Down手法のHRNetを比較手法として追加 • COCO-WholeBodyで全てのモデルを学習させ、single-scaleでテストを実行 • ”-body”がつくものは17点の身体のキーポイントだけを使ったもの (他のキーポイントと一緒に学習させてしまうと精度が悪化する) 22

23.

定性評価 23

24.

Face/Handのデータセットの評価 • 左下図は顔の2次元特徴点抽出の手法比較 (300Wデータセットでの評価) ➢ *HR-OursはWhole-Body Face (WBF)で学習して300Wでテスト、HR-Oursは300Wで学習して 300Wでテスト、extra付きはWBFで事前学習 ➢ 事前学習の効果が出ている • 右下図は手の2次元特徴点抽出の実験 (Panoptic (Pano.)とWhole-Body Hand (WBH)) ➢ #1と#2の比較から事前学習効果が分かる ➢ #1と#3の結果からWBHはスケールが小さく、チャレンジング 24

25.

その他分析結果 ① • Bboxの精度の影響①: Ground Truthのbboxを使った場合 (Oracle)、精度が大幅に向上 • 人物のスケールの影響②: Bottom-Upの手法は mediumサイズ(小さいサイズ)に弱く、精度が悪い ② • Faceのblurrinessとposeの影響③: blurrinessには影響を受けやすいが、poseには影響を受けにくい • Handのposeの影響④: fistが比較的簡単 ③ ④ 25

26.

目次 1. 既存手法 ➢ 既存の2次元特徴点推定とWhole-Body Pose Estimation ➢ 2次元姿勢推定の整理 2. 提案手法 ➢ COCO-WholeBody Dataset ➢ ZoomNet 3. 評価 4. まとめ 26

27.

まとめ • データセットの作成 ➢ Face/hand/footのkeypointアノテーションを加えたCOCO-WholeBodyの作成 ➢ これによって、Whole-body Pose Estimationを同一のデータセットで学習が可能になった ➢ 各パーツごとに見ても、in-the-wildで大規模なデータであり、有用 • モデルの提案 ➢ パーツごとのスケールの分散の問題に取り組んだZoomNetを提案 ➢ 既存の手法・モデルに対して高い精度を達成 • 気になったこと ➢ 既存手法として比較されるOpenPose、SNに精度で勝ることは納得感はあるが、HRNetはもう少し真面目にチューニングすれば論文で言及しているよりは精度出そう 27