【DL輪読会】Unpaired Image Super-Resolution Using Pseudo-Supervision

620 Views

November 24, 21

#deep learning #Deep Learning #Super-Resolution #GAN #Unpaired SR #Image Processing

スライド概要

2021/11/19
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 87.4K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 58.7K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.5K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 38K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 37.6K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Unpaired Image Super-Resolution Using Pseudo-Supervision Presenter: Yuki Kondo https://yuki-11.github.io/ 2021. 11. 19 (Toyota Technological Institute, Intelligent Information Media Lab) http://deeplearning.jp/ Yuki Kondo @ TTI-J 1

Section １．論⽂情報・概要２．導⼊・先⾏研究３．提案⼿法４．実験結果５．結論・所感 Yuki Kondo @ TTI-J 2

https://yuki-11.github.io/

Section １．論⽂情報・概要２．導⼊・先⾏研究３．提案⼿法４．実験結果５．結論・所感 Yuki Kondo @ TTI-J 3

https://yuki-11.github.io/

論⽂情報 • 論⽂名 Unpaired Image Super-Resolution Using Pseudo-Supervision(CVPR2020) • 著者 Shunta Maeda (Navier Inc.) • URL 論⽂※︓ https://openaccess.thecvf.com/content_CVPR_2020/html/Maed a_Unpaired_Image_Super-Resolution_Using_PseudoSupervision_CVPR_2020_paper.html コード︓公式コードは⾮公開 (⾮公式コード︓https://github.com/yoon28/pseudo-sr ) ※出典が明記されていない図表は当論⽂より引⽤ Yuki Kondo @ TTI-J 4

論⽂概要 [ タスク ] • Unpaired Super-Resolution(SR)︓ 低解像(LR)画像と⾼解像(HR)画像がアンペアなデータセットを⽤いたSR ⇒ モデル化が困難な多様な劣化要因を持つ現実世界のLR画像に対応したSRを実現 Paired dataset Bicubic等のダウンスケーリング疑似LR (リアル)HR Yuki Kondo @ TTI-J リアルLR ドメインギャップ Unpaired dataset 5

https://yuki-11.github.io/

論⽂概要 [ 提案⼿法 ] • GANを⽤いた2つのネットワークから成るUnpaired SR法を提案 • 補正ネットワーク︓Real LR ⇒ Clean LRへ変換 • SRネットワーク︓Clean LR ⇒ HR へ超解像・・ [ 結果 ] • 多様なデータセットを⽤いた実験により，従来⼿法よりも優れた結果を獲得・⾃然画像を模擬した合成劣化画像データセット 2種・実世界の顔画像データセット・実世界の航空写真データセット Yuki Kondo @ TTI-J 6

https://yuki-11.github.io/

論⽂概要 [ 補⾜情報 ] • 提案⼿法がシャープの最新スマホ「AQUOS R6」に搭載． ⇒ 論⽂投稿から約1年半で実⽤化 (スピード感がすごい) [1] (@shunk031さんより掲載了承済み) [1] @shunk031. https://twitter.com/shunk031/status/1422116148691099649?s=20. (最終参照⽇ 2021/11/18) [2] PRETIMES. “シャープの最新スマホ「AQUOS R6」に画像処理のAIスタートアップNavierのAI技術が搭載”. https://prtimes.jp/main/html/rd/p/000000004.000060134.html. (最終参照⽇ 2021/11/18) Yuki Kondo @ TTI-J [2] 7

Section １．論⽂情報・概要２．導⼊・先⾏研究３．提案⼿法４．実験結果５．結論・所感 Yuki Kondo @ TTI-J 8

https://yuki-11.github.io/

Super Resolution (SR) • LR画像をHR化する技術 • 不良設定問題 (1つのLRに対し，複数のHRが存在する) • ⼀般的な(paired) SRの学習法: • ⾃⼰教師あり学習 (ダウンスケーリングで学習ペア獲得) ダウンスケーリング超解像 [1 ] LR画像(ILR) HR画像(IHR) SR画像(ISR) ダウンスケーリングが現実的ではない [1] Set5: Marco Bevilacqua et al. in Low-Complexity Single-Image Super-Resolution based on Nonnegative Neighbor Embedding Yuki Kondo @ TTI-J 9

https://yuki-11.github.io/

10.

現実に則したSRへのアプローチ • 特殊なハードウェア + 補正プロセス • 実世界のLR, HRペアを撮影から⽣成可能 • デバイスが特殊で実⽤が難しい(拡張しづらい) • Blind SR (過去の輪読会で紹介した論⽂︓KOALAnet) • 劣化がブラインドされたLRから，劣化要因を推定し，SRを⾏う • 主にブラーに焦点を当てており，複合的な劣化を扱った⼿法がほとんどない J. Cai + ICCV2019 S. Bell-Kligler + NeurIPS 2019 • Unpaired SR • UnpairedなLRとHRを⽤いて，SRを⾏う • LRドメインが持つ任意の劣化への対応に焦点を当てている Yuki Kondo @ TTI-J 10

11.

直接法 [Y. Yuan+ CVPR(WS)2018 ] • HR⽣成器︓ソースLR画像からターゲットHRとだますよう，アップスケーリングされたHRを⽣成 • HR識別機︓アップスケーリングされたHRとターゲットHRを識別 [ 問題 ] ⽣成器に対し，歪み抑制・知覚的品質担保に重要なHR再構成の損失が取れない Yuki Kondo @ TTI-J 11

https://yuki-11.github.io/

12.

間接法 [A. Bulat+ ECCV2018, A. Lugmayr+ arXiv2019] • LR⽣成器︓ソースHR画像からターゲットLRとだますよう，ダウンスケールされたLRを⽣成 • LR識別機︓ダウンスケールされたLRとターゲットLRを識別 [ 問題 ] ⽣成されるLR分布と真のLR分布にギャップが⽣じる ⇒ テスト時の性能低下 Yuki Kondo @ TTI-J 12

https://yuki-11.github.io/

13.

Section １．論⽂情報・概要２．導⼊・先⾏研究３．提案⼿法４．実験結果５．結論・所感 Yuki Kondo @ TTI-J 13

https://yuki-11.github.io/

14.

アーキテクチャ概要 • Unpaierd 補正ネットワークとPaierd SRネットワークに分離 • 直接法と間接法の⽋点を同時に克服 Yuki Kondo @ TTI-J 14

https://yuki-11.github.io/

15.

Unpaierd 補正ネットワーク- LRドメイン適応 • CycleGAN[J. Y. Zhu+ ICCV2017]ベースのモデルを利⽤ • Real LRドメインをClean LRドメインにサイクル機構によって，適応させる Yuki Kondo @ TTI-J 15

https://yuki-11.github.io/

16.

LRドメイン適応 (Loss) • 複数のlossの制約から，ドメイン間のマッピングを学習 Real LR Clean LR 𝐺!"↓ の loss︓ : Adversarial loss [3] (𝐷!↓ も最適化) : Identity mapping loss [4] : ⾊のばらつきを抑制 : Cycle consistency loss [4] : この論⽂では⽚側サイクルのみに制約をかけることで，1対多のマッピングを許容． ⇒ 多様な劣化への対応を𝑮𝑿𝒀↓ に学習させる． : Geometric ensemble loss [5] : ⼊⼒画像へのフリップや回転に対して，幾何学的整合性を担保させるloss． 𝑇% ，𝑇%&'はそれぞれ画像へ与える変換と逆変換． 𝐺"↓! の loss︓ : Adversarial loss (𝐷( も最適化) [3] I. J. Goodfellow +. NeurIPS2014. [4] J. Y. Zhu +. ICCV2017. [5] H. Fu +. CVPR2019. Yuki Kondo @ TTI-J Cycle consistency loss : 16

https://yuki-11.github.io/

17.

LRドメイン適応 (モデル) • PatchGAN [1, 2]で局所的構造を担保． • Real LR→Clean LRは⾮常に深いSRネットワークのRCANを利⽤(Upscale省略)． : PatchGAN [6, 7] 5 conv layers ， Batch norm Conv5 Conv1 ・・・ LeakeyReLU Clean LR LeakeyReLU Real LR ， • • • • 5×5ConvのResBlock 1×1 Conv Batch norm LeakyReLU から構成． RGB画像と歪みを模擬した1chランダムノイズの特徴を抽出し，Real LRを⽣成． : RCAN [8]ベース(RCAB: 10個，RG: 5個, Upscale省略) [6] C. Isola +. CVPR2017. [7] C. Li +. ECCV2016. [8] Y. Zhang +. ECCV2018. Yuki Kondo @ TTI-J 17

https://yuki-11.github.io/

18.

Paierd SRネットワーク • 疑似clean-LRを𝑈!↓! でアップスケーリング • HR画像をペアとして再構成するように学習 Yuki Kondo @ TTI-J 18

https://yuki-11.github.io/

19.

Paierd SRネットワーク ( Loss ・モデル ) • ペアで学習させるため，ピクセル単位の任意のlossを利⽤可能 • 既存のPaird SRモデルの転移利⽤可(ネットワークを分離しているため) 𝑈"↓" の loss︓ : L1 loss ＊ 𝐷!↑ の学習時は敵対的学習と共同で更新(後述)． Perceptual loss, texture loss 等のピクセル単位のlossに代替可能 : RCAN ベース(RCAB: 20個，RG: 5個) Yuki Kondo @ TTI-J 19

https://yuki-11.github.io/

20.

Unpaierd 補正ネットワーク- HR識別器による補正 • 直接法のように，HR画像空間からドメインギャップを解消 (再構成誤差は取れる) • 𝑈!↓! は𝐷#↑ によって，局所特徴が改善される． Yuki Kondo @ TTI-J 20

https://yuki-11.github.io/

21.

HR識別器による補正 (Loss・モデル) • 𝐷#↑ を⽤いた敵対的学習により， • ドメインギャップのさらなる解消 • SRの⾼周波成分の保証を実現． 𝐷!↑ の loss︓ : Adversarial loss: ・𝐺(!↓ , 𝐺!↓( , 𝑈!↓! の3つの⽣成器が更新される (𝐺!#↓ , 𝐺#↓! ︓ドメイン適応の保証 , 𝑈#↓# ︓⾼周波成分の保証) : PatchGAN Batch norm LeakeyReLU Conv5 LeakeyReLU Conv1 Yuki Kondo @ TTI-J ・・・ 5 conv layers ・拡⼤倍率ごとのConvについて・x2のとき，conv1のストライドは2 ・x2のとき，conv1, 2のストライドは2 21

https://yuki-11.github.io/

22.

Section １．論⽂情報・概要２．導⼊・先⾏研究３．提案⼿法４．実験結果５．結論・所感 Yuki Kondo @ TTI-J 22

https://yuki-11.github.io/

23.

実験条件 [ データセット ] データセット DIV2K realistic-wild set (Track 4) 特徴 DIV2Kにモーションブラーやピクセルシフト，ノイズを付与 ⇒ ⾃然なLRを模擬 Test 拡⼤倍率 LR/HR画像 100枚 4 Train LR画像 3200枚 HR画像 800枚複数の顔画像データセットから LR画像 5万枚以上 LR画像 HR画像とLR画像をサンプリング HR画像 182,866枚 3,000枚 4* 実世界HR/LR航空写真データセット撮影⾼度の異なる2つの航空写真 LR画像 3200枚データセットからHR画像とLR画 HR画像 800枚像をサンプリング LR画像数枚︖ 2 AIM 2019 Real-World Super-Resolution Challenge dataset (Track 2) Flickr2K, DIV2Kにあらかじめ定義された⾮公開の劣化を付与， LR画像 2650枚 HR画像 800枚 unpairedなSource LRとTarget (Flickr2Kより⽣成) HRを提供． LR/HR画像 100枚 4 実世界HR/LR顔画像データセット (定性評価のみ) (DIV2Kより⽣成) *︓画像サイズが⼩さすぎる(16x16)ため，Bicubicで2倍拡⼤させた画像をLRとして，さらに2倍に提案⼿法で拡⼤． Yuki Kondo @ TTI-J 23

https://yuki-11.github.io/

24.

DIV2K realistic-wild set ︓既存ブラインドSRとの⽐較 [ 定量評価 ] ・最先端のブラインドSRの組み合わせと検証し，SOTAを達成・注︓⽐較モデルは本データセットで学習をさせていないため，公平な実験ではない． ※ ※ Yuki Kondo @ TTI-J 24

https://yuki-11.github.io/

25.

DIV2K realistic-wild set ︓既存ブラインドSRとの⽐較 [ 定性評価 ] ・定性的にも最も鮮明なSRを出⼒していることを確認【提案⼿法のLR ドメイン変換の結果】真のリアルLRと偽の・注︓⽐較モデルは本データセットで学習をさせていないため，リアルLRの劣化を公平な実験ではない．うまく除去 Yuki Kondo @ TTI-J 25

https://yuki-11.github.io/

26.

DIV2K realistic-wild set ︓NTIRE2018ベースラインとの⽐較 [ 定量評価 ] ・同様の条件で学習・テストを⾏ったNTIRE2018のベースラインと⽐較．・ただし，NTIRE2018ではpairedで学習されている(提案⼿法はunpairedで学習) ・PSNRは劣るものの，より知覚的品質を評価できるSSIMでは，SOTAに匹敵． ※ IKC last : 最終反復回数7回⽬の結果， IKC max : 反復中に最もPSNRが⾼くなった時のスコア Yuki Kondo @ TTI-J 26

https://yuki-11.github.io/

27.

DIV2K realistic-wild set ︓その他の実験 [ Ablation study ] [ Perception-oriented training ] ・提案⼿法の有効性を⽰す・Paired SRネットワークの𝐿%&' を・特に” Ours - trained on 𝐺"↓! ”との差から，知覚指向のloss [9]に変更．知覚品質が向上 Real LR ⇒ clean LRへの変換の有効性は (⽑の質感がリアルになっている) ⾼い． [9] X. Wang +. ECCV workshop 2017. Yuki Kondo @ TTI-J 27

https://yuki-11.github.io/

28.

実世界HR/LR顔画像データセット︓SOTA⼿法との⽐較 [ 定量評価 ] ・Unpaired SRやPaired SR，face SR，デブラー⼿法と⽐較．・GT画像がないため，FID(Frechet inception distance)で真の分布と⽣成分布の距離を評価(⼩さいほど良い)．・提案⼿法はFIDでSOTAを達成． [ 定性評価 ] ・論⽂では具体的な⾔及なし．・若⼲提案⼿法の⽅がリアルっぽい︖ ・⼈によって，意⾒が分かれそう． Yuki Kondo @ TTI-J 28

https://yuki-11.github.io/

29.

実世界HR/LR顔画像データセット︓ノイズの多様性・Cycle consistency lossの⽚側サイクル整合性の制約により，𝐺_(𝑌↓𝑋)のマッピングを1対多としたことで，様々なノイズを持つリアルLRを⽣成． Yuki Kondo @ TTI-J 29

https://yuki-11.github.io/

30.

実世界HR/LR航空写真データセット︓定性評価 [ 最新の既存⼿法との⽐較 ] [ Geometric ensemble lossの効果 ] ・ブラインドデノイズ⼿法のRL-restoreは，・ Geometric ensemble loss アーティファクトを除去できたが，ディティールまで除去された．・提案⼿法はディテールをさらに鮮鋭化させながら，アーティファクトの除去に成功．のablation studyを実施．・により幾何学的整合性を確保 ⇒ ⼊⼒LR画像の幾何学的構造を保持したより合理的なマッピングに成功． Yuki Kondo @ TTI-J 30

https://yuki-11.github.io/

31.

AIM 2019 Real-World Super-Resolution Challenge dataset︓定量・定性評価 [ 定量評価 ] [ 定性評価 ] ・PSNR, SSIM, そして知覚的品質評価指標・ZSSRと⽐較し，劣化を除去し，鮮明なSRをであるLPIPSの全評価指標において，実現． SOTAを達成． Yuki Kondo @ TTI-J 31

https://yuki-11.github.io/

32.

Section １．論⽂情報・概要２．導⼊・先⾏研究３．提案⼿法４．実験結果５．結論・所感 Yuki Kondo @ TTI-J 32

https://yuki-11.github.io/

33.

結論・後続研究 [ 結論 ] ・HRとLRのペアが利⽤できないunpairedなSRにおいて，疑似的なclean LRを利⽤する⼿法を提案． ⇒ ・ペアを⽤いることを前提に発展したSR⼿法の活⽤・ペアがない現実世界のSRの課題ギャップを解消・多様なデータセットを⽤いた検証で，有効性を確認・ただし，ケースごとにハイパーパラメータチューニングが必要． ⇒ 今後，ネットワークのハイパーパラメータに対するロバスト性の向上が必要． [ 後続の研究 ] † W. Wang et al. “Unsupervised Real-World SuperResolution: A Domain Adaptation Perspective”. ICCV2021 疑似LRを⽤いつつ，Source LRとtarget LRを画像空間ではなく，特徴量空間上でドメイン適応させる⼿法を提案． Yuki Kondo @ TTI-J † 33

https://yuki-11.github.io/