[DL Hacks]Everybody Dance Now

>100 Views

September 11, 18

スライド概要

2018/09/10
Deep Learning JP:
http://deeplearning.jp/hacks/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

Everybody Dance Now 東京大学大学院 情報理工学系研究科 電子情報学専攻 M2 谷合 廣紀

2.

宣伝 • Pythonで統計解析(推定・検定・回帰など)する本 • 9/21発売予定 • https://gihyo.jp/book/2018/978-4-297-10049-0

3.

書誌情報 • 論文名 • • • Everybody Dance Now 著者 • Caroline Chan (UC Barkeley) • Shiry Ginosar (UC Barkeley) • Tinghui Zhou (UC Barkeley) • Alexei A. Efros (UC Barkeley) arXiv • https://arxiv.org/abs/1808.07371

4.

どんな内容? • 誰でもプロのように踊れる • Openposeとpix2pixHDの組み合わせ • Temporal smoothingとface GANによってクオリティを向上

5.

手法

6.

基本となるアイデア - Training • Targetの画像を入力として、姿勢推定 • 骨格を入力としてpix2pixで元の画像を生成

7.

基本となるアイデア - Transfer • Sourceの画像を入力として姿勢推定 • 骨格を補正後、訓練済みのGeneratorに入力して Sourceと同じ姿勢をしたTargetの画像を生成

8.

Pose Estimation • OpenPose • Pose (COCOのアノテーションより多そう) • Face • Hand

9.

Global pose normalization • 床の位置やスケーリングでソースとターゲットにずれが生じていると うまく骨格からターゲット画像を生成できない • そのため骨格を補正する

10.

pix2pixHD • 通常のGAN Lossに加えて • feature-matching loss • perceptual reconstruction loss • 著者らは120fpsのカメラで20分ほど いろんなポーズを撮ったらしい (120*20*60=144000枚) • しわの少ないサイズのあった服が望ましい

11.

Temporal smoothing • 連続したフレームが自然になるような工夫 • pix2pixHDを1枚の画像ではなく 連続した2フレームに対して行う • GANの損失関数は次のように

12.

Face GAN • 生成された画像の顔のクオリティを向上させるために 顔部分はFaceGANで差分を生成

13.

Temporal smoothingとFace GANの効果

14.

実装

15.

実装方針 • Pose estimation • Pose (COCO 18) • Face • Hand • Global pose normalization • Temporal smoothing • Face GAN

16.

実装方針 • Source: • Bruno Mars – That’s What I Like • • Target: • • https://www.youtube.com/watch?v=PMivT7MJ41M 私 (480*480*3で640枚) ソースコード • https://github.com/nyoki-mtl/pytorch-EverybodyDanceNow

17.

pix2pixHD 骨格 合成 本物

18.

transfer

19.

結果 • 学習画像に似たポーズがないと厳しい • 学習枚数が640枚では少なかった (オリジナルは14万枚くらい)

20.

結果 • 関節を18カ所しか見ていないため、情報が不十分 • オリジナルは関節+顔+手 • Temporal smoothingをしていないため、フレーム間がなめらかでない • 顔に違和感