[DL輪読会]GLEAN: Generative Latent Bank for Large-Factor Image Super-Resolution

>100 Views

February 25, 22

スライド概要

2022/02/25
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] GLEAN: Generative Latent Bank for Large-Factor Image Super-Resolution Presenter: Kazutoshi Akita (Toyota Technological Institute, IntelligentInformation Media Lab) http://deeplearning.jp/ 1

2.

論文情報 • 論文名:GLEAN: Generative Latent Bank for Large-Factor Image Super-Resolution (CVPR2021) • 著者:Kelvin C.K Chan1, Xintao Wang2, Xiangyu Xu1, Jinwei Gu3,4, Chen Change Loy1 1S-Lab, Nanyang Technological University , 3Tetras.AI. , 4Shanghai AI 2Applied Reserch Center, Tencent PCG Laboratory • URL 論文: https://openaccess.thecvf.com/content/CVPR2021/html/Chan_GLEAN_Generative_Latent_Bank_for_Large-Factor_Image_SuperResolution_CVPR_2021_paper.html プロジェクトページ: https://www.mmlab-ntu.com/project/glean/ ※本資料の図は上記論文及びプロジェクトページから引用 2

3.

概要 • 8~64倍という非常に大きい拡大倍率の超解像タスクにおいて,リアルさ と忠実性を両立した画像を出力可能に 3

4.

従来手法 • Encoder-Decoderモデル Encoder Update 𝐿𝑜𝑠𝑠 Decode LR SR e.g. ・HRとのMSE ・HRとSRのVGG feature間でMSE ・SRとHRを見分けるDiscriminatorによる Adversarial Loss メリット:高い忠実性 ・LRを入力&MSEで学習しているため,大域的な構造は忠実に再現 デメリット:アーティファクトの発生 ・MSE単体での学習 ・MSEと他のLossの併用 ⇒ ⇒ Over-smoothing artifact Unnatural artifact ESRGAN GT 4

5.

従来手法 • GAN inversion Update Pre-trained GAN Generator 𝑧 𝐿𝑜𝑠𝑠 e.g. ・SRを低解像化したものとLRのMSE SR メリット:高いリアルさ GANの良さ デメリット①:忠実性の欠如 ・Generatorにあらゆる自然画像を生成させるのは非現実的 & 𝑧の探索が困難 デメリット②:推論時の計算コスト ・推論時にzの探索を行うため PULSE GT 5

6.

提案手法 • Encoder-Bank-Decoderモデル Update – Generative LatEnt bANk (GLEAN) Encoder Pre-trained GAN Generator Decode 𝐿𝑜𝑠𝑠 実画像のリアルなテクスチャや形状を事前分布として保持 ⇒ Bank ・Encoder-Decodeモデルにより,大域的な構造の忠実性は担保 ・GAN Generatorは局所領域のテクスチャや形状のみ学習すればよい ・潜在変数に該当するものをEncoderで推定するため,計算コスト低 GLEAN GT 6

7.

提案手法 • モデル詳細 – 各所でマルチスケール特徴を利用し,大域的な構造と局所的なリアルさを両立 – Bank(GAN Generator)にはStyleGAN,StyleGAN2を利用 局所的なテクスチャや形状のみを学習するモデル構造 7

8.

実験結果 • 他手法との定性的比較 8

9.

実験結果 • 他手法との定性的比較 9

10.

実験結果 • 様々な倍率での結果 10

11.

実験結果 • 人の正面画像だけで 学習した場合の結果 11

12.

実験結果 • 各カテゴリの画像における他手法との定量的比較 – PSNR / LPIPS • PSNR: GTとの誤差 高いほうが良い • LPIPS:人が見て綺麗かどうかの指標 低いほうが良い 12

13.

実験結果 • マルチスケール特徴の効果確認 ここを消したりして実験 13

14.

実験結果 • Bankの効果確認 ここを消したりして実験 14

15.

実験結果 • Decoderの効果確認 w/o decodeはここの出力 15

16.

実験結果 • Reference-baseの手法との比較 – 高解像画像(or パッチ)の辞書からテクスチャなどを持ってくる手法 – 提案手法では,Bankが暗黙的に高解像画像の辞書を獲得していると見なせるので比 較する – DFDNet, SRNTTという2手法と比較 16

17.

実験結果 • DFDNetとの比較 – 目や鼻といった顔のパーツ部分の 高解像画像の辞書を作る手法 17

18.

実験結果 • SRNTTとの比較 18

19.

まとめ • 大まかな構造を担保するEncoder-Decodeモデルと,リアルなテクスチャを生成するGANを組 み合わせ,忠実性とリアルさを両立した超解像を提案 19