[DL輪読会]Learning High Fidelity Depths of Dressed Humans by Watching Social Media Dance Videos

>100 Views

July 16, 21

#deep learning #Deep Learning #Monocular Depth Estimation #Self-Supervised Learning #Social Media Data #TikTok

スライド概要

2021/07/16
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 91K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 68K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.2K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 50.6K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 47.9K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.5K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Learning High Fidelity Depths of Dressed Humans by Watching Social Media Dance Videos Kento Doi (Matsuo lab. D2) http://deeplearning.jp/ 1

http://deeplearning.jp/

概要 • tiktokから収集した動画を⽤いた、着⾐⼈物画像の単眼深度推定の精度向上⼿法 • 貢献 • tiktokデータセットの作成 • ⼤量のラベルなしデータを活かす⾃⼰教師あり学習⼿法の提案 • CVPR2021 (Best Paper Honorable Mention)

モチベーション • 着⾐⼈物の単眼深度推定は難しい • ⾐服の細かいしわやテクスチャ • 単眼深度推定のための正解データは⾼コスト Øtiktokから収集した (ラベルなし) 動画により精度を向上させられるか？ • ラベルなしデータを活かす学習⼿法が必要 Ø⼈体の各パーツを剛体を⾒なすことで、フレーム間の幾何的な拘束を与えることができる

モチベーション • 服のしわや顔の細かい形状の再現が難しい • 法線は、localな細かい形状に敏感 Ø法線を同時に予測することで深度推定を改善

提案⼿法：定式化 • モデル : 𝑧 = 𝑔(𝒙; 𝑰) • 𝑧 : 深度 • 𝒙 : 画像のxy座標 • 𝑰 : 画像 • 上の深度推定モデルを半教師ありで学習 • 画像-3Dスキャンデータのペア • ラベルなし動画

提案⼿法：深度の⾃⼰教師あり学習 • アイデアはシンプル • あるフレームの体のパーツを別のフレームの姿勢に変換 • デプスの推定が正しければパーツが同じ位置に重なるという拘束を利⽤し、ロスを計算各パーツの変換を剛性変換と仮定フレーム間の幾何拘束を利⽤したロス関数

提案⼿法：法線のjoint学習 • 法線ベクトル 𝑛 を予測するネットワークを同時に学習することにより、深度推定の精度を向上 • 𝑛 = 𝑓(𝒙; 𝑰) • 予測した法線と、深度から計算した法線が⼀致するように学習 (⾃⼰教師あり学習) 深度から法線を計算する⽅法ロス関数 (⾓度を最⼩化)

提案⼿法：全体像

TikTok Dataset • TikTokから⼿動で300本のダンス動画を収集 • フレーム数は100K枚 https://www.yasamin.page/hdnet_tiktok

https://www.yasamin.page/hdnet_tiktok

10.

実験 • 学習データセット • 画像-3Dスキャンのペアデータセット (RenderPeople) • TikTokデータセット • 評価データセット • 3種類の正解データ付きデータセット

11.

実験結果教師あり学習 +法線の⾃⼰教師あり学習 +法線・深度の⾃⼰教師あり学習

12.

実験結果

13.

実験結果

14.

感想 • 技術の進展により新たに得られるようになったデータを有効活⽤するための学習⽅法を考えることは重要 • TikTokが流⾏→⼤量の⼈物動画データが⼊⼿可能→深度推定の学習に活⽤という発想？

15.

提案⼿法：深度の⾃⼰教師あり学習 • 各パーツの剛体変換パラメータ (回転⾏列、並進ベクトル) の求め⽅ • 構築したいくつかの対応点から、最⼩⼆乗法で求める