146 Views
February 13, 24
スライド概要
授業で発表したスライドです.Publicにできるように編集しております.
抹茶(maccha, matchaism, etc.)
matchaism 1
概要 ➢ Pix2PixHD 高解像度の画像生成のための手法 Semanticマップを活用 オブジェクトのテクスチャも制御できる • CVPR 2018 • NVIDIAとカリフォルニア大学バークレー校の共同研究 2
関連研究 ➢ Pix2Pix CGANをベース GAN loss + L1 loss 今でもPix2Pixベースの研究を見かける ➢ Cascaded Refinement Networks 異なるスケールのsemanticマップを段階的に入力 Perceptual Loss 3
関連研究 ➢ 関連研究の課題点 Pix2Pixなど既存のGANでは,高解像度でリアルな画像の生成は困難 高解像度な画像を生成したCRNでも,テクスチャが欠けていた ➢ 本研究の貢献 ラベル情報を操作することで Interactive Object Editing が可能 Boundary map を使用することでより物体の境界が鮮明に 4
提案/Coarse-to-fine generator Coarse-to-fine generatorでは,Generatorを2つのネットワークに分離 ➢ G1: Global Generator Network • 3つのモジュールで構成: Front-end + Residual Block + Back-end • • Frontではダウンサンプリング,Backではアップサンプリング Residual Blockでは本命の画像生成 (1024x512の画像) ➢ G2: Local Enhancer Network • 間にG1をはさみ,入力画像の解像度をダウンサンプリング,出力画像をアップサンプリング • さらに両端を別のLocal Enhancer Networkではさむと,幅と高さが2倍 (G2, G3, G4, …) 先頭: ダウンサンプリングし,G1に渡す • 末尾: G2の出力とG1の先頭の出力のelement-wise sumをとり,アップサンプリング • 5
提案/Multi-scale discriminators D2 D1 D3 ※実際は変換前の画像と変換後or正解の画像をconcat (実質2入力1出力) 高解像度の画像を1つのDiscriminatorで識別するには,deepかつ大きな畳み込みが必要 ↓ Discriminatorを分離 異なるスケールを受け付ける (D1:x1, D2:x1/2, D3:x1/4) 解像度を上げるときは,さらにDiscriminatorを追加すればよい 6
提案/Improved adversarial loss G.T. Images ・・・ Real/Fake Generated Images ・・・ Real/Fake ※実際は変換前の画像と変換後or正解の画像をconcat (実質2入力1出力) ➢ Feature Matching Loss (FM Loss) Discriminatorをより騙すことのできるGeneratorを目論む • Discriminatorへの入力が生成画像/正解画像でも,Discriminatorの中間層のレベルまで類似させる • 7
提案/Using Instance (Boundary) Maps Semanticマップ 同じカテゴリに属するオブジェクト同士で境界がない 境界部分がぼやける ←はっきりとしてほしい Instanceマップ オブジェクト一つ一つを区別してくれる (オブジェクト間の境界が明解) 異なる画像間で同じカテゴリのオブジェクトの数が異なる ↓ Boundaryマップ オブジェクトの境界線に関する(バイナリ)マップ 周辺4pixelが全て同じオブジェクトならば0, 1つでも異なるならば1 8
提案/Learning an Instance-level Feature Embedding Semanticマップからは多様な画像(1:多)が生成される → オブジェクトの指定をユーザの意思でできるようにしたい ↓ ➢ Feature Encoder Network (Encoder-Decoder構造) G.T.画像から特徴量の抽出 特徴マップをSemanticマップの各instanceごとにaverage pooling Instance内のクラス分類にはK-meansクラスタリングを利用 Pooling後の特徴マップとSemanticマップをGeneratorに入力 同じsematic label(例:車,道)でも,テクスチャ(車種,アスファルト)を区別 9
評価実験 FM lossの重み 𝜆 = 10 Feature Encoderの出力は3次元 K-meansクラスタリングのクラス数𝐾 = 10 LSGANをベース GAN loss, FM lossで学習した手法とGAN loss, FM loss, Perceptual lossで学習した手法で比較 Dataset: Cityscape, NYU, Helen Face, ADE20K 10
評価実験/Quantitative Comparisons ➢ 実験内容 Sematicマップの画像を入力し,画像生成 生成画像をPSPNetでSematic Segmentation 提案手法とPix2Pix, CRNで,正解のラベルとの類似度を比較 ➢ 結果 • 教師画像と精度が類似 11
評価実験/Human Perceptual Study ➢ 実験内容 • 被験者に主観的な評価をしてもらった 1. 2. 2枚の画像を時間をかけて観察してもらい,判定 2枚の画像を制限時間内見て,判定 (1/8~8秒のうちのランダム時間内) ➢ 結果 VGGのPerceptual lossの有効性を示した 時間をかけるほどrealを見分けやすい 時間をかけるほど提案手法(Pix2PixHD)がCRNよりリアルに見える 1 2 12
評価実験/Human Perceptual Study 13
評価実験/Interactive Object Editing ➢ 実験内容 • インスタントの特徴を変え,テクスチャの変化を観察 ➢ 結果 • リアルタイムに顔の属性や肌の色に変更を加えることができる 2 14
結論 ➢ 結論 提案手法はSemanticマップとInstanceマップを使用した画像の生成手法 オブジェクトに対して,テクスチャの制御を可能にした リアルな画像を生成するためには,instanceレベルの特徴埋め込みを学習することが重要 ➢ 議論 異なる画像で同じカテゴリのオブジェクトの数が異なるため,Instanceマップの利用が難しい テクスチャの制御方法の改善 15
感想と参考文献/感想 ➢ 感想 画像処理分野には詳しくないが,Pix2Pixを活用した研究はよく見かけていた • Pix2Pixの改良ということだが,かなりネットワークが複雑化していた • • 複数のネットワークや損失関数の「合わせ技」による改善はよく見かける 解像度を上げるため,ネットワークを長くする手法もよく見かける • オブジェクトの境界をはっきりさせるためにSemantic Segmentationを活用するのもしばしば見かける • ↓ • 生成画像の品質を高める手法がまとまっており,この文献1つで広く把握できそう (なお2018発表) 16
感想と参考文献/参考文献
本スライドに掲載した図は,下記文献から引用した.
<引用論文>
•
•
•
Ting-Chun Wang et al., “High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs”, 2014.
Phillip Isola et al., “Image-to-Image Translation with Conditional Adversarial Networks”, CVPR, 2017.
Qifeng Chen et al., "Photographic Image Synthesis with Cascaded Refinement Networks," ICCV, 2017.
<参考資料>
•
•
High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANsを読んだ #機械学習 – Qiita
•
https://qiita.com/d-ogawa/items/24f7d102e18c687e3c18
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東) | PPT
•
https://www.slideshare.net/ssuser86aec4/cvpr2018-pix2pixhd-cv-103835371
17