>100 Views
September 11, 18
スライド概要
2018/09/10
Deep Learning JP:
http://deeplearning.jp/hacks/
DL輪読会資料
Everybody Dance Now 東京大学大学院 情報理工学系研究科 電子情報学専攻 M2 谷合 廣紀
宣伝 • Pythonで統計解析(推定・検定・回帰など)する本 • 9/21発売予定 • https://gihyo.jp/book/2018/978-4-297-10049-0
書誌情報 • 論文名 • • • Everybody Dance Now 著者 • Caroline Chan (UC Barkeley) • Shiry Ginosar (UC Barkeley) • Tinghui Zhou (UC Barkeley) • Alexei A. Efros (UC Barkeley) arXiv • https://arxiv.org/abs/1808.07371
どんな内容? • 誰でもプロのように踊れる • Openposeとpix2pixHDの組み合わせ • Temporal smoothingとface GANによってクオリティを向上
手法
基本となるアイデア - Training • Targetの画像を入力として、姿勢推定 • 骨格を入力としてpix2pixで元の画像を生成
基本となるアイデア - Transfer • Sourceの画像を入力として姿勢推定 • 骨格を補正後、訓練済みのGeneratorに入力して Sourceと同じ姿勢をしたTargetの画像を生成
Pose Estimation • OpenPose • Pose (COCOのアノテーションより多そう) • Face • Hand
Global pose normalization • 床の位置やスケーリングでソースとターゲットにずれが生じていると うまく骨格からターゲット画像を生成できない • そのため骨格を補正する
pix2pixHD • 通常のGAN Lossに加えて • feature-matching loss • perceptual reconstruction loss • 著者らは120fpsのカメラで20分ほど いろんなポーズを撮ったらしい (120*20*60=144000枚) • しわの少ないサイズのあった服が望ましい
Temporal smoothing • 連続したフレームが自然になるような工夫 • pix2pixHDを1枚の画像ではなく 連続した2フレームに対して行う • GANの損失関数は次のように
Face GAN • 生成された画像の顔のクオリティを向上させるために 顔部分はFaceGANで差分を生成
Temporal smoothingとFace GANの効果
実装
実装方針 • Pose estimation • Pose (COCO 18) • Face • Hand • Global pose normalization • Temporal smoothing • Face GAN
実装方針 • Source: • Bruno Mars – That’s What I Like • • Target: • • https://www.youtube.com/watch?v=PMivT7MJ41M 私 (480*480*3で640枚) ソースコード • https://github.com/nyoki-mtl/pytorch-EverybodyDanceNow
pix2pixHD 骨格 合成 本物
transfer
結果 • 学習画像に似たポーズがないと厳しい • 学習枚数が640枚では少なかった (オリジナルは14万枚くらい)
結果 • 関節を18カ所しか見ていないため、情報が不十分 • オリジナルは関節+顔+手 • Temporal smoothingをしていないため、フレーム間がなめらかでない • 顔に違和感