"High-Resolution-Image-Synthesis-and-Semantic-Manipulation-with-Conditional-GANs"をざっくり要約

282 Views

February 13, 24

#deep learning #Pix2PixHD #高解像度画像生成 #GAN #Semantic Segmentation #画像処理

スライド概要

授業で発表したスライドです．Publicにできるように編集しております．

matchaism

@matchaism

スライド一覧

抹茶(maccha, matchaism, etc.)

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

ジョークコマンドを自作してみた

dentoolt

matchaism 1.5K

"On the (Limited) Generalization of MasterFace Attack and Its Relation to the Capacity of Face Representations"をざっくり要約

biometrics

matchaism >100

学振特別研究員になるために～2025年度申請版

学振 dc1 dc2 jsps pd

大上雅史 750.7K

研究に使える便利なフリーソフト ImageJ

imagej 放射線技師

片山豊 346.3K

StampFlyで学ぶマルチコプタ制御

伊藤恒平 295.6K

大規模言語モデルに追加学習で専門知識を教える試み (2023, arXiv:2312.03360)

Kan Hatakeyama 288.5K

各ページのテキスト

matchaism 1

概要 ➢ Pix2PixHD  高解像度の画像生成のための手法  Semanticマップを活用  オブジェクトのテクスチャも制御できる • CVPR 2018 • NVIDIAとカリフォルニア大学バークレー校の共同研究 2

関連研究 ➢ Pix2Pix  CGANをベース  GAN loss + L1 loss  今でもPix2Pixベースの研究を見かける ➢ Cascaded Refinement Networks  異なるスケールのsemanticマップを段階的に入力  Perceptual Loss 3

関連研究 ➢ 関連研究の課題点  Pix2Pixなど既存のGANでは，高解像度でリアルな画像の生成は困難  高解像度な画像を生成したCRNでも，テクスチャが欠けていた ➢ 本研究の貢献  ラベル情報を操作することで Interactive Object Editing が可能  Boundary map を使用することでより物体の境界が鮮明に 4

提案/Coarse-to-fine generator Coarse-to-fine generatorでは，Generatorを2つのネットワークに分離 ➢ G1: Global Generator Network • 3つのモジュールで構成: Front-end + Residual Block + Back-end • • Frontではダウンサンプリング，Backではアップサンプリング Residual Blockでは本命の画像生成 (1024x512の画像) ➢ G2: Local Enhancer Network • 間にG1をはさみ，入力画像の解像度をダウンサンプリング，出力画像をアップサンプリング • さらに両端を別のLocal Enhancer Networkではさむと，幅と高さが2倍 (G2, G3, G4, …) 先頭: ダウンサンプリングし，G1に渡す • 末尾: G2の出力とG1の先頭の出力のelement-wise sumをとり，アップサンプリング • 5

提案/Multi-scale discriminators D2 D1 D3 ※実際は変換前の画像と変換後or正解の画像をconcat (実質2入力1出力) 高解像度の画像を1つのDiscriminatorで識別するには，deepかつ大きな畳み込みが必要 ↓  Discriminatorを分離  異なるスケールを受け付ける (D1:x1, D2:x1/2, D3:x1/4)  解像度を上げるときは，さらにDiscriminatorを追加すればよい 6

提案/Improved adversarial loss G.T. Images ・・・ Real/Fake Generated Images ・・・ Real/Fake ※実際は変換前の画像と変換後or正解の画像をconcat (実質2入力1出力) ➢ Feature Matching Loss (FM Loss) Discriminatorをより騙すことのできるGeneratorを目論む • Discriminatorへの入力が生成画像/正解画像でも，Discriminatorの中間層のレベルまで類似させる • 7

提案/Using Instance (Boundary) Maps  Semanticマップ  同じカテゴリに属するオブジェクト同士で境界がない  境界部分がぼやける ←はっきりとしてほしい  Instanceマップ  オブジェクト一つ一つを区別してくれる (オブジェクト間の境界が明解)  異なる画像間で同じカテゴリのオブジェクトの数が異なる ↓  Boundaryマップ  オブジェクトの境界線に関する(バイナリ)マップ  周辺4pixelが全て同じオブジェクトならば0, 1つでも異なるならば1 8

提案/Learning an Instance-level Feature Embedding  Semanticマップからは多様な画像(1:多)が生成される → オブジェクトの指定をユーザの意思でできるようにしたい ↓ ➢ Feature Encoder Network (Encoder-Decoder構造)  G.T.画像から特徴量の抽出  特徴マップをSemanticマップの各instanceごとにaverage pooling  Instance内のクラス分類にはK-meansクラスタリングを利用  Pooling後の特徴マップとSemanticマップをGeneratorに入力  同じsematic label(例:車，道)でも，テクスチャ(車種，アスファルト)を区別 9

10.

評価実験  FM lossの重み 𝜆 = 10  Feature Encoderの出力は3次元  K-meansクラスタリングのクラス数𝐾 = 10  LSGANをベース  GAN loss, FM lossで学習した手法とGAN loss, FM loss, Perceptual lossで学習した手法で比較  Dataset: Cityscape, NYU, Helen Face, ADE20K 10

11.

評価実験/Quantitative Comparisons ➢ 実験内容  Sematicマップの画像を入力し，画像生成  生成画像をPSPNetでSematic Segmentation  提案手法とPix2Pix, CRNで，正解のラベルとの類似度を比較 ➢ 結果 • 教師画像と精度が類似 11

12.

評価実験/Human Perceptual Study ➢ 実験内容 • 被験者に主観的な評価をしてもらった 1. 2. 2枚の画像を時間をかけて観察してもらい，判定 2枚の画像を制限時間内見て，判定 (1/8~8秒のうちのランダム時間内) ➢ 結果  VGGのPerceptual lossの有効性を示した  時間をかけるほどrealを見分けやすい  時間をかけるほど提案手法(Pix2PixHD)がCRNよりリアルに見える 1 2 12

13.

評価実験/Human Perceptual Study 13

14.

評価実験/Interactive Object Editing ➢ 実験内容 • インスタントの特徴を変え，テクスチャの変化を観察 ➢ 結果 • リアルタイムに顔の属性や肌の色に変更を加えることができる 2 14

15.

結論 ➢ 結論  提案手法はSemanticマップとInstanceマップを使用した画像の生成手法  オブジェクトに対して，テクスチャの制御を可能にした  リアルな画像を生成するためには，instanceレベルの特徴埋め込みを学習することが重要 ➢ 議論  異なる画像で同じカテゴリのオブジェクトの数が異なるため，Instanceマップの利用が難しい  テクスチャの制御方法の改善 15

16.

感想と参考文献/感想 ➢ 感想画像処理分野には詳しくないが，Pix2Pixを活用した研究はよく見かけていた • Pix2Pixの改良ということだが，かなりネットワークが複雑化していた • • 複数のネットワークや損失関数の「合わせ技」による改善はよく見かける解像度を上げるため，ネットワークを長くする手法もよく見かける • オブジェクトの境界をはっきりさせるためにSemantic Segmentationを活用するのもしばしば見かける • ↓ • 生成画像の品質を高める手法がまとまっており，この文献1つで広く把握できそう (なお2018発表) 16

17.

[beta]

感想と参考文献/参考文献
本スライドに掲載した図は，下記文献から引用した．
<引用論文>
•
•
•

Ting-Chun Wang et al., “High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs”, 2014.
Phillip Isola et al., “Image-to-Image Translation with Conditional Adversarial Networks”, CVPR, 2017.
Qifeng Chen et al., "Photographic Image Synthesis with Cascaded Refinement Networks," ICCV, 2017.

<参考資料>
•

•

High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANsを読んだ #機械学習 – Qiita
•
https://qiita.com/d-ogawa/items/24f7d102e18c687e3c18
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東) | PPT
•
https://www.slideshare.net/ssuser86aec4/cvpr2018-pix2pixhd-cv-103835371

17