[DL Hacks]Everybody Dance Now

>100 Views

September 11, 18

#deep learning #Machine Learning #Artificial Intelligence #Dance #Openpose #pix2pixHD

スライド概要

2018/09/10
Deep Learning JP:
http://deeplearning.jp/hacks/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 86.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.8K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 57.4K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 40.6K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 35.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 35.4K

各ページのテキスト

Everybody Dance Now 東京大学大学院情報理工学系研究科電子情報学専攻 M2 谷合廣紀

宣伝 • Pythonで統計解析(推定・検定・回帰など)する本 • 9/21発売予定 • https://gihyo.jp/book/2018/978-4-297-10049-0

https://gihyo.jp/book/2018/978-4-297-10049-0

書誌情報 • 論文名 • • • Everybody Dance Now 著者 • Caroline Chan (UC Barkeley) • Shiry Ginosar (UC Barkeley) • Tinghui Zhou (UC Barkeley) • Alexei A. Efros (UC Barkeley) arXiv • https://arxiv.org/abs/1808.07371

https://arxiv.org/abs/1808.07371

どんな内容？ • 誰でもプロのように踊れる • Openposeとpix2pixHDの組み合わせ • Temporal smoothingとface GANによってクオリティを向上

手法

基本となるアイデア - Training • Targetの画像を入力として、姿勢推定 • 骨格を入力としてpix2pixで元の画像を生成

基本となるアイデア - Transfer • Sourceの画像を入力として姿勢推定 • 骨格を補正後、訓練済みのGeneratorに入力して Sourceと同じ姿勢をしたTargetの画像を生成

Pose Estimation • OpenPose • Pose (COCOのアノテーションより多そう) • Face • Hand

Global pose normalization • 床の位置やスケーリングでソースとターゲットにずれが生じているとうまく骨格からターゲット画像を生成できない • そのため骨格を補正する

10.

pix2pixHD • 通常のGAN Lossに加えて • feature-matching loss • perceptual reconstruction loss • 著者らは120fpsのカメラで20分ほどいろんなポーズを撮ったらしい (120*20*60=144000枚) • しわの少ないサイズのあった服が望ましい

11.

Temporal smoothing • 連続したフレームが自然になるような工夫 • pix2pixHDを1枚の画像ではなく連続した2フレームに対して行う • GANの損失関数は次のように

12.

Face GAN • 生成された画像の顔のクオリティを向上させるために顔部分はFaceGANで差分を生成

13.

Temporal smoothingとFace GANの効果

14.

実装

15.

実装方針 • Pose estimation • Pose (COCO 18) • Face • Hand • Global pose normalization • Temporal smoothing • Face GAN

16.

実装方針 • Source: • Bruno Mars – That’s What I Like • • Target: • • https://www.youtube.com/watch?v=PMivT7MJ41M 私 (480*480*3で640枚）ソースコード • https://github.com/nyoki-mtl/pytorch-EverybodyDanceNow

17.

pix2pixHD 骨格合成本物

18.

transfer

19.

結果 • 学習画像に似たポーズがないと厳しい • 学習枚数が640枚では少なかった (オリジナルは14万枚くらい)

20.

結果 • 関節を18カ所しか見ていないため、情報が不十分 • オリジナルは関節+顔+手 • Temporal smoothingをしていないため、フレーム間がなめらかでない • 顔に違和感