[DL輪読会]Details or Artifacts: A Locally Discriminative Learning Approach to Realistic Image Super-Resolution (CVPR2022)

160 Views

March 31, 22

#deep learning #DeepLearning #GAN #SuperResolution #ImageProcessing #LocallyDiscriminativeLearning

スライド概要

2022/03/25
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 87.4K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 58.7K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.5K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 38K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 37.6K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Details or Artifacts: A Locally Discriminative Learning Approach to Realistic Image Super-Resolution Presenter: Yuki Kondo https://yuki-11.github.io/ 2022. 3. 25 (Toyota Technological Institute, Intelligent Information Media Lab) http://deeplearning.jp/ Yuki Kondo @ TTI-J 1

Section １．論文情報・概要２．導入・先行研究３．提案手法４．実験結果５．結論・所感 Yuki Kondo @ TTI-J 2

https://yuki-11.github.io/

Section １．論文情報・概要２．導入・先行研究３．提案手法４．実験結果５．結論・所感 Yuki Kondo @ TTI-J 3

https://yuki-11.github.io/

論文情報 • 論文名 Details or Artifacts: A Locally Discriminative Learning Approach to Realistic Image Super-Resolution (CVPR2022) • 著者 Jie Liang1, Hui Zeng2 and Lei Zhang1 1. The HongKong Polytechnic University, 2. OPPO Research • URL 論文※： https://liangjie.xyz/LjHomepageFiles/paper_files/LDL_CVPR2022_paper.pdf Supplementary material： https://liangjie.xyz/LjHomepageFiles/paper_files/LDL_CVPR2022_suppl.pdf コード： https://github.com/csjliang/LDL ※出典が明記されていない図表は当論文より引用 Yuki Kondo @ TTI-J 4

論文概要 [ 単一画像超解像(SISR)の問題点 ] • 従来の信号忠実度ベースの(L1, L2 loss等を利用する) SISR： • 高いPSNRやSSIMを獲得 • 画像のディテールを再現できない(全体的にぼやけた画像) • 従来のGANベースのSISR • ディテールの再現を可能 • 視覚的に不快なアーティファクトが発生 ⇒ ディテールとアーティファクトは共に高周波成分で構成されるため，各成分の分離が難しく，これによりトレードオフの関係となる Yuki Kondo @ TTI-J 5

https://yuki-11.github.io/

論文概要 [ 代表的な3種類のSISR領域へのGAN-SRの結果への考察 ] • Type A： • 平滑な領域や大規模な構造を持つ領域 • LR画像にも構造情報が保存されるため，再構成が容易 • Type B： • LR画像のエイリアシングの影響で，忠実な復元が困難なディティールを持つ領域 • 特にテクスチャライクな領域であり，不規則なパターンのため，真のピクセル値と差があっても，知覚的に良好 • Type C： • LR画像のエイリアシングの影響で，忠実な復元が困難なディティールを持つ領域 • 特に微細な構造性の高い領域であり，規則的なパターンのため，オーバーシュートや構造の歪みは，人間の知覚に敏感でアーティファクトとして認識される Yuki Kondo @ TTI-J ドメインギャップ 6

https://yuki-11.github.io/

論文概要 [ 提案手法 ] • 3種類のGAN-SR領域の局所統計量解析に基づくアーティファクトとリアルなディティールの局所識別学習(Locally Discriminative Learning; LDL)を提案． • 既存のSISR手法に容易に組み込むことが可能 [ 結果 ] • 最先端のGANベースのSISR手法を凌駕し，高いピクセルワイズな再構成精度と，優れた知覚的品質を達成することを合成と実世界の両方のデータセットで実証した． Yuki Kondo @ TTI-J 7

https://yuki-11.github.io/

Section １．論文情報・概要２．導入・先行研究３．提案手法４．実験結果５．結論・所感 Yuki Kondo @ TTI-J 8

https://yuki-11.github.io/

信号忠実度指向のSISR手法 • 目的： SISR出力とHR GT間の信号忠実度を最適化 • 手法： L1, L2 lossなどのピクセルワイズな距離尺度や局所構造類似度(SSIM)を利用． • メリット： PSNRなどの再構成精度などで優れた性能を達成 • デメリット：不良設定問題上の考えうる解の平均的な解を出力． ⇒ 全体的にぼやけた画像となる＊． * SSIM lossは画像の局所構造の担保に効果的だが，細かいディティールまでの再現は困難． [1] C. Ledig +. CVPR2017 Yuki Kondo @ TTI-J [1] 9

https://yuki-11.github.io/

10.

知覚的品質指向のSISR手法 • 目的： SISR出力の知覚的品質を最適化 • 手法： ① VGG特徴量空間におけるHRとSR結果間の距離を最適化する Perceptual lossの採用． ② GANを用いたAdversarial lossの採用 • メリット：知覚的品質にとって重要な細かいディティールを再現 • デメリット： GANの敵対的学習の不安定性により，知覚的に不快なアーティファクトを多く生成する傾向にある Yuki Kondo @ TTI-J 10

https://yuki-11.github.io/

11.

SISRにおける2つのトレードオフの関係のまとめ 1. 信号忠実度と知覚的品質のトレードオフ 2. アーティファクト抑制とディティール復元のトレードオフ 2の問題に注目した知覚的品質を高める方法・アーティファクトとディティールを明示的に識別 ⇒ 敵対的な学習を正則化 ⇒ ディティールを精密に復元し，アーティファクトを抑える Yuki Kondo @ TTI-J 11

https://yuki-11.github.io/

12.

Section １．論文情報・概要２．導入・先行研究３．提案手法 3-1. アーティファクトの生成過程分析 3-2. 局所統計量解析に基づくアーティファクトマップ生成 3-3. Locally discriminative learning (LDL) ４．実験結果５．結論・所感 Yuki Kondo @ TTI-J 12

https://yuki-11.github.io/

13.

GAN-SRが誘発するアーティファクト • 既存のほとんどGAN-SR法で用いられる損失関数大域的な構造を再構成ディティールを生成・付与 ⇐アーティファクトを多く生成 • GANによる解のシフト先は知覚的に良好な結果(右図黄枠)も存在すれば，アーティファクトが発生する不快な結果(右図赤枠)も存在する規則的なパターンを持つ Type Cでの問題を指摘 [1] [1] C. Ledig +. CVPR2017 Yuki Kondo @ TTI-J 13

https://yuki-11.github.io/

14.

トイ・プロブレムによるアーティファクト生成の理解 • Type A : 大規模な構造がLR画像にも保持 ⇒ HR画像でも容易に再現可能 • Type B : テクスチャlikeな構造は狭い範囲でランダムに分布 ⇒ 忠実に再現されていないが，人間の知覚にとっては鈍感 • Type C : 規則的でシャープな構造はLR画像から失われる ⇒ ランダムな生成は不規則・不自然なパターン生成につながり，人間の知覚にとってアーティファクトとして認識される各Typeの具体例 Yuki Kondo @ TTI-J トイ・プロブレム 14

https://yuki-11.github.io/

15.

従来のGANSRモデルの各Type画像に対する学習の安定性評価 • GANSRモデルRRDB[2]をベースラインに，学習時の各Typeのパッチ画像に対する平均絶対値誤差(MAD)を評価． • 実線で示すベースラインの結果より • Type A : 学習が安定的 • Type B : 変動が大きく，不安定 • Type C : 最も変動が大きく，最も不安定 [2] X. Wang + ECCVW 2018 Yuki Kondo @ TTI-J 15

https://yuki-11.github.io/

16.

Section １．論文情報・概要２．導入・先行研究３．提案手法 3-1. アーティファクトの生成過程分析 3-2. 局所統計量解析に基づくアーティファクトマップ生成 3-3. Locally discriminative learning (LDL) ４．実験結果５．結論・所感 Yuki Kondo @ TTI-J 16

https://yuki-11.github.io/

17.

アーティファクトと現実的なディティールの分類 • 提案するアーティファクトマップ([0, 1]の確信度で表現)の生成過程(1) ~ (3) 現実的なディティールの誤検出を抑制アーティファクトが発生した領域を適切に検出 (1) (2) Yuki Kondo @ TTI-J (3) 17

https://yuki-11.github.io/

18.

(1) |𝑹|による高周波成分の抽出 • SRで再現が困難な高周波成分を𝐼𝐻𝑅 と𝐼𝑆𝑅 の残差 |𝑹|として求める． |𝑹| = |𝐼𝐻𝑅 − 𝐼𝑆𝑅 | • Type Aでは，ほとんどの画素の残差は非常に小さい • Type B, Cでは，ほとんどの画素の残差が大きい • Type Bの残差はよりランダムに分布 (1) Yuki Kondo @ TTI-J 18

https://yuki-11.github.io/

19.

(2) 𝑴によるエッジ・テクスチャの誤検出抑制 • アーティファクトは外れ値のピクセルから構成されていることを観測． ⇒ 7×7のローカルウィンドウ内で，局所分散を計算し，𝑴として定量化 • Type A，Bのエッジ・テクスチャへの誤検出を抑制 • Type Cのアーティファクト画素を検出 (1) Yuki Kondo @ TTI-J (2) 19

https://yuki-11.github.io/

20.

(3) 𝜎によるエッジ・テクスチャのさらなる誤検出抑制 • 限られた受容野内でピクセルの関係性を計算しているため，エッジ・テクスチャに誤検出が残存 ⇒ 全体からの分散𝜎として定量化を求め，安定化を図る (𝑎 = 5) • Type A，Bのエッジ・テクスチャへの誤検出をさらに抑制 • Type Cのアーティファクト画素を検出アーティファクトとディティールの分離に成功 Yuki Kondo @ TTI-J (2) (3) 20

https://yuki-11.github.io/

21.

アーティファクトマップの安定化・精緻化 • アンサンブルを適用した𝑴𝑟𝑒𝑓𝑖𝑛𝑒 によって，(3)をさらに安定化・精緻化． (1) (2) Yuki Kondo @ TTI-J (3) (4) 21

https://yuki-11.github.io/

22.

アンサンブルモデルの導入とマップの修正 • 𝜎 ⋅ 𝑴は妥当なアーティファクト検出を行えるが，特に学習初期段階でディティール生成にペナルティを与える可能性がある ⇒ 指数移動平均法(EMA)を用いたモデルを時間的にアンサンブルし，より安定的なモデルを定義 (𝛼 = 0.999) • ある時点のモデル𝚿が，より安定的なモデル𝚿𝐄𝐌𝐀 より残差の少ないピクセルへのペナルティを抑制 𝑹𝟏 = Ψ 𝑰𝑳𝑹 − 𝑰𝑯𝑹 𝑹𝟐 = Ψ𝐄𝐌𝐀 𝑰𝑳𝑹 − 𝑰𝑯𝑹 ディティールへの過剰なペナルティを抑制 Yuki Kondo @ TTI-J 22

https://yuki-11.github.io/

23.

Section １．論文情報・概要２．導入・先行研究３．提案手法 3-1. アーティファクトの生成過程分析 3-2. 局所統計量解析に基づくアーティファクトマップ生成 3-3. Locally discriminative learning (LDL) ４．実験結果５．結論・所感 Yuki Kondo @ TTI-J 23

https://yuki-11.github.io/

24.

新たに提案するLossと学習方法 • 生成した𝑴𝒓𝒆𝒇𝒊𝒏𝒆 を用いたartifact discrimination loss 𝐿𝑎𝑟𝑡𝑖𝑓 を提案． • さらに𝐿𝑎𝑟𝑡𝑖𝑓 を既存のGANSRモデルに導入したパイプラインを Locally discriminative learning(LDL)として提案． [ パイプライン ] [ 最終的な損失関数 ] 既存のGANSRモデルへの拡張が容易 Yuki Kondo @ TTI-J 24

https://yuki-11.github.io/

25.

LDLの導入による学習の安定性の変化 • GANSRモデルRRDB[2]をベースライン，そのベースラインにLDLを導入したモデルを比較 • 学習時の各Typeのパッチ画像に対する平均絶対値誤差(MAD)を評価． • 破線で示すLDL導入モデルの比較結果より • Type A : 変動の縮小，安定化 • Type B :変動の縮小，安定化 • Type C : 平均値・変動値の大きな低下，安定化 [2] X. Wang + ECCVW 2018 Yuki Kondo @ TTI-J 25

https://yuki-11.github.io/

26.

Section １．論文情報・概要２．導入・先行研究３．提案手法４．実験結果５．結論・所感 Yuki Kondo @ TTI-J 26

https://yuki-11.github.io/

27.

SOTAとの定量比較・3種のバックボーンモデルそれぞれにLDLを適用し，知覚的品質，信号忠実度共にSOTAを達成 Backbone SRResNet-like RRDB Yuki Kondo @ TTI-J SwinIR 27

https://yuki-11.github.io/

28.

SOTAとの定性比較 Type Cの画像のようなエイリアシングが生じやすい規則的なパターンを持つ画像の定性比較・従来手法に比べ，提案手法(f)は・不快なアーティファクトを抑制・規則的なパターンを忠実に再構築 Yuki Kondo @ TTI-J 28

https://yuki-11.github.io/

29.

実世界のためのSISRへの適用合成LR画像では表現されない未知の複雑な劣化に対応した従来手法「BSRGAN」および「RalESRGAN」をベースラインとして，提案手法を導入した「RalESRGAN+LDL」を比較・BSRGAN : アーティファクトの発生を抑えているが，全体的にぼやけた滑らかな画像を生成・RealESRGAN : ディティールはシャープだが，アーティファクトが発生・RalESRGAN+LDL : ディティールをシャープにしつつ，アーティファクトを抑えることに成功 Yuki Kondo @ TTI-J 29

https://yuki-11.github.io/

30.

Ablation sutdy LDLの主要コンポーネントの有効性をAblation studyによって検証 ⇒ #5の実験結果が，信号忠実度の評価指標PSNRと知覚的品質の評価指標LPIPSの両者ともに，最も良好な性能を示したことから，コンポーネントは期待通りに機能したことが確認された Yuki Kondo @ TTI-J 30

https://yuki-11.github.io/

31.

Section １．論文情報・概要２．導入・先行研究３．提案手法４．実験結果５．結論・所感 Yuki Kondo @ TTI-J 31

https://yuki-11.github.io/

32.

結論 [ 本論文の貢献 ] (1) GANを用いたSISR法におけるアーティファクトの生成を分析 (2) アーティファクト生成の問題に対処するLDLを提案 [ LDLの特性 ] ・アーティファクトに明示的なペナルティを与えつつ，ディティールを犠牲にしない・従来のGAN-SRモデルに容易に拡張可能 [ 実験結果 ] ・合成および現実のSISRタスクの両方において，LDLを導入することで，既存のGAN-SR手法を定量的にも定性的にも上回ることが実証された． [ 残存課題 ] ・密集した窓の周辺にアーティファクトが残っている． ⇒より効果的な設計を検討する必要あり Yuki Kondo @ TTI-J 32

https://yuki-11.github.io/

33.

所感・SR以外にもインペインティングやその他の画像生成タスクで応用可能・高周波成分に注目した議論が中心となっていたため，局所フーリエ解析などを応用し，フーリエ空間上でType BとType Cの傾向解析を行うと，新たなアーティファクトマップ生成手法を提案できる可能性あり．・SRが困難な画像を明確にカテゴライズしたうえで，トイプロブレムや局所統計量を用いた解析によって，仮説から実装，検証までがクリアだった． ⇒ 近年SRの研究もデータセット全体の最適化から，Hard example caseを取り上げて，そのケースを重視した提案が増加しているように感じる． ⇒ 出力画像の定性評価の考察を深め，このような問題設定へとつなげると良い． Yuki Kondo @ TTI-J 33

https://yuki-11.github.io/

34.

輪読会での議論のまとめ・議論後の再考・Type Cは主に規則的なパターンであり，人間はそのようなパターンを過去の経験に基づいて，推定していると考えられる．このような事前知識を利用する方法は考えられないか？ ⇒ Reference baseのSRが近しいアプローチと考えられ，人間の経験に基づく記憶が，参照されるデータ集合と置き換えられる．このアプローチは本研究でも確認されたSRが難しいケースにおいて有効と考える．その際，局所的に復元困難領域をセマンティックに分類・認識すること，およびその領域に類似する画像の取得などが課題になると考えられる．・Type Cのビルの窓や橋の鉄骨など，規則的なパターンに対するさらに効果的なアプローチの検討 ⇒ フーリエ畳み込みを用いた手法[G. Matthew+ WACV2022]がインペインティングで規則的な構造の復元に成功している．フーリエ畳み込みが，上記の問題にも有効である可能性が高い． Yuki Kondo @ TTI-J [G. Matthew+ WACV2022] 34

https://yuki-11.github.io/