[DL Hacks]Deformable GANs for Pose-based Human Image Generation

>100 Views

April 26, 19

スライド概要

2019/04/22
Deep Learning JP:
http://deeplearning.jp/hacks/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP Deformable GANs for Pose-based Human Image Generation [DL Papers] 電気通信大学 4年 西村卓真 Deformable GANs for Pose-based Human Image Generation 2019年4月22日 電気通信大学 4年 西村 卓真 http://deeplearning.jp/

2.

目次 • 書誌情報 • 関連研究 • 提案手法 • 実験 • 実装 • まとめ、感想

3.

書誌情報 • 論文名:Deformable GANs for Pose-based Human Image Generation (CVPR 2018) • 著者: Aliaksandr Siarohin, Enver Sangineto , Stephane Lathuiliere Nicu Sebe1 • 概要: 人物画像とその画像と同じではない別ポーズを入力として、同一人物 のそのポーズ画像を生成する。 U-Net ベースのアーキテクチャで、skip connectionを改良. 多少の差異を許容する新たなロス関数を定義

4.

関連研究 ・Pose Guided Person Image Generation (NIPS2017) U-Netベースのアーキテクチャ モデルは2ステージ 1:target poseをした粗い人物画像を生成する。 2 : その画像をrifine

5.

提案手法 [アーキテクチャ]

6.

提案手法 [アーキテクチャ]

7.

提案手法 [アーキテクチャ] 全身画像からHPE (Human Pose Estimator)を用いて骨格画像を作成 入力をTargetのポーズとOriginの画像を分けて入力 → ある部位の位置が大きくずれていた場合、 encoder部分では捉えきれない。

8.

提案手法 [アーキテクチャ]

9.

提案手法 [アーキテクチャ] Deforemable Skip conection - Target Poseに対応するよう特徴mapを変換して情報を渡す。 Target pose, Origin poseそれぞれ、特定の部位ごとに4つの点で囲った領域を、 うまく変換できるような関数を学習させる。 特徴mapに部位の領域を0にしたmapを加え、学習 した関数で変換させる。

10.

提案手法 [目的関数]

11.

提案手法 [目的関数] LcGANは、L1, L2 Lossを用いて構成され、生成した画像と実画像のピク セル間の違いを計算する。そのため人間の目では問題ない少しのズレを 許容することができないので、このLoss関数Lnnを追加。 生成した画像と、実画像のある点p周りを畳み込んで、その差異を計算

12.

実験設定 ■ データセット • Market-1501 複数の監視カメラから撮影した画像 ➢ train : 263,631ペア, test : 12000ペア ➢ サイズ:126x64 • DeepFashion ファッション画像 ➢ train: 89,252ペア, test: 12000ペア ➢ サイズ:256x256 ※人物、服を固定、ポーズのみ異なる、trainとtestには同一人物は含まれない ■ 評価指標 • SSIM : Structual Similarity • IS : Inception Score • DS : SSD(物体検知モデル)を用いて、人物の検出スコアを計算

13.

実験① [評価指標によるSOTAとの比較] Market-1501ではIS以外, DeepFashionではSSIM以外 向上 DS値が高い前手法より高い値を示している。 → よりリアルな画像(人間っぽい)が生成できていることを示している。

14.

実験② [人によるSOTAとの比較] 30人の人物に55の実画像と、55の生成した画像を1秒間見せた。 値は「判断に迷った割合」 被験者 上:Amazon Mechanical Turkというサービスを使って検証 下:Computer Visionの分野で働くPhDやポスドクの学生 被験者がGAN-likeなイメージに慣れているにも関わらず良い結果が出た。 → 前手法よりリアルな画像が生成出来ている。

15.

生成した画像

16.

実験③ [それぞれの手法ごとの効果検証] BaseLine:U-Netベースで入力は1streamのモデル DSC:BaseLine + skip connectionをdeformable skip conectionに PercLoss:Loss関数にLnn関数ではなく、PercLoss関数を採用 DS値が劇的に改善している。 → 提案手法を組み合わせることでより現実的な画像の生成ができた

17.

生成された画像

18.

まとめ、感想 ■ まとめ • 元画像から作成した特徴mapを、Target Poseに応じる形で加えることで、 形の変換にも対応可能なskip connectionを提案 • 人間的であることを許容できるLoss関数を提案 • SOTAのモデルより、より現実的な人間の全身画像の生成に成功した。 ■ 感想 • 画像の解像度が高ければ、後ろ向きでも割とうまく生成出来ている。 • 生成したい人物の画像と、ポーズ条件が必要なので、ポーズ条件のみで人物を固定 できるようなモデルがあったらいいな。

19.

参考文献 • Deformable GANs for Pose-based Human Image Generation リンク:https://arxiv.org/pdf/1801.00055.pdf • Pose Guided Person Image Generation リンク:https://arxiv.org/pdf/1705.09368.pdf