>100 Views
March 31, 22
スライド概要
2022/03/25
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Details or Artifacts: A Locally Discriminative Learning Approach to Realistic Image Super-Resolution Presenter: Yuki Kondo https://yuki-11.github.io/ 2022. 3. 25 (Toyota Technological Institute, Intelligent Information Media Lab) http://deeplearning.jp/ Yuki Kondo @ TTI-J 1
Section 1.論文情報・概要 2.導入・先行研究 3.提案手法 4.実験結果 5.結論・所感 Yuki Kondo @ TTI-J 2
Section 1.論文情報・概要 2.導入・先行研究 3.提案手法 4.実験結果 5.結論・所感 Yuki Kondo @ TTI-J 3
論文情報 • 論文名 Details or Artifacts: A Locally Discriminative Learning Approach to Realistic Image Super-Resolution (CVPR2022) • 著者 Jie Liang1, Hui Zeng2 and Lei Zhang1 1. The HongKong Polytechnic University, 2. OPPO Research • URL 論文※: https://liangjie.xyz/LjHomepageFiles/paper_files/LDL_CVPR2022_paper.pdf Supplementary material: https://liangjie.xyz/LjHomepageFiles/paper_files/LDL_CVPR2022_suppl.pdf コード: https://github.com/csjliang/LDL ※出典が明記されていない図表は当論文より引用 Yuki Kondo @ TTI-J 4
論文概要 [ 単一画像超解像(SISR)の問題点 ] • 従来の信号忠実度ベースの(L1, L2 loss等を利用する) SISR: • 高いPSNRやSSIMを獲得 • 画像のディテールを再現できない(全体的にぼやけた画像) • 従来のGANベースのSISR • ディテールの再現を可能 • 視覚的に不快なアーティファクトが発生 ⇒ ディテールとアーティファクトは共に高周波成分で構成されるため, 各成分の分離が難しく,これによりトレードオフの関係となる Yuki Kondo @ TTI-J 5
論文概要 [ 代表的な3種類のSISR領域へのGAN-SRの結果への考察 ] • Type A: • 平滑な領域や大規模な構造を持つ領域 • LR画像にも構造情報が保存されるため, 再構成が容易 • Type B: • LR画像のエイリアシングの影響で,忠実な 復元が困難なディティールを持つ領域 • 特にテクスチャライクな領域であり, 不規則なパターンのため,真のピクセル値と 差があっても,知覚的に良好 • Type C: • LR画像のエイリアシングの影響で,忠実な 復元が困難なディティールを持つ領域 • 特に微細な構造性の高い領域であり,規則的な パターンのため,オーバーシュートや構造の 歪みは,人間の知覚に敏感でアーティファクト として認識される Yuki Kondo @ TTI-J ドメイン ギャップ 6
論文概要 [ 提案手法 ] • 3種類のGAN-SR領域の局所統計量解析に基づくアーティファクトとリ アルなディティールの局所識別学習(Locally Discriminative Learning; LDL)を提案. • 既存のSISR手法に容易に組み込むことが可能 [ 結果 ] • 最先端のGANベースのSISR手法を凌駕し,高いピクセルワイズな再 構成精度と,優れた知覚的品質を達成することを合成と実世界の両方の データセットで実証した. Yuki Kondo @ TTI-J 7
Section 1.論文情報・概要 2.導入・先行研究 3.提案手法 4.実験結果 5.結論・所感 Yuki Kondo @ TTI-J 8
信号忠実度指向のSISR手法 • 目的: SISR出力とHR GT間の信号忠実度を最適化 • 手法: L1, L2 lossなどのピクセルワイズな距離尺度や局所構造類似度(SSIM)を利用. • メリット: PSNRなどの再構成精度などで 優れた性能を達成 • デメリット: 不良設定問題上の考えうる解の 平均的な解を出力. ⇒ 全体的にぼやけた画像となる*. * SSIM lossは画像の局所構造の担保に効果的だが,細かいディティールまでの再現は困難. [1] C. Ledig +. CVPR2017 Yuki Kondo @ TTI-J [1] 9
知覚的品質指向のSISR手法 • 目的: SISR出力の知覚的品質を最適化 • 手法: ① VGG特徴量空間におけるHRとSR結果間の距離を最適化する Perceptual lossの採用. ② GANを用いたAdversarial lossの採用 • メリット: 知覚的品質にとって重要な細かいディティールを再現 • デメリット: GANの敵対的学習の不安定性により,知覚的に不快なアーティファクトを多く 生成する傾向にある Yuki Kondo @ TTI-J 10
SISRにおける2つのトレードオフの関係のまとめ 1. 信号忠実度と知覚的品質のトレードオフ 2. アーティファクト抑制とディティール復元の トレードオフ 2の問題に注目した知覚的品質を高める方法 ・ アーティファクトとディティールを明示的に識別 ⇒ 敵対的な学習を正則化 ⇒ ディティールを精密に復元し,アーティファクトを抑える Yuki Kondo @ TTI-J 11
Section 1.論文情報・概要 2.導入・先行研究 3.提案手法 3-1. アーティファクトの生成過程分析 3-2. 局所統計量解析に基づくアーティファクトマップ生成 3-3. Locally discriminative learning (LDL) 4.実験結果 5.結論・所感 Yuki Kondo @ TTI-J 12
GAN-SRが誘発するアーティファクト • 既存のほとんどGAN-SR法で用いられる損失関数 大域的な構造を再構成 ディティールを生成・付与 ⇐アーティファクトを多く生成 • GANによる解のシフト先は知覚的に良好な結果(右図黄枠)も存在すれば, アーティファクトが発生する不快な結果(右図赤枠)も存在する 規則的なパターンを持つ Type Cでの問題を指摘 [1] [1] C. Ledig +. CVPR2017 Yuki Kondo @ TTI-J 13
トイ・プロブレムによるアーティファクト生成の理解 • Type A : 大規模な構造がLR画像にも保持 ⇒ HR画像でも容易に再現可能 • Type B : テクスチャlikeな構造は狭い範囲でランダムに分布 ⇒ 忠実に再現されていないが,人間の知覚にとっては鈍感 • Type C : 規則的でシャープな構造はLR画像から失われる ⇒ ランダムな生成は不規則・不自然なパターン生成につながり,人間の知覚にとって アーティファクトとして認識される 各Typeの具体例 Yuki Kondo @ TTI-J トイ・プロブレム 14
従来のGANSRモデルの各Type画像に対する学習の安定性評価 • GANSRモデルRRDB[2]をベースラインに, 学習時の各Typeのパッチ画像に対する 平均絶対値誤差(MAD)を評価. • 実線で示すベースラインの結果より • Type A : 学習が安定的 • Type B : 変動が大きく,不安定 • Type C : 最も変動が大きく, 最も不安定 [2] X. Wang + ECCVW 2018 Yuki Kondo @ TTI-J 15
Section 1.論文情報・概要 2.導入・先行研究 3.提案手法 3-1. アーティファクトの生成過程分析 3-2. 局所統計量解析に基づくアーティファクトマップ生成 3-3. Locally discriminative learning (LDL) 4.実験結果 5.結論・所感 Yuki Kondo @ TTI-J 16
アーティファクトと現実的なディティールの分類 • 提案するアーティファクトマップ([0, 1]の確信度で表現)の生成過程(1) ~ (3) 現実的なディティールの 誤検出を抑制 アーティファクトが発生した 領域を適切に検出 (1) (2) Yuki Kondo @ TTI-J (3) 17
(1) |𝑹|による高周波成分の抽出 • SRで再現が困難な高周波成分を𝐼𝐻𝑅 と𝐼𝑆𝑅 の残差 |𝑹|として求める. |𝑹| = |𝐼𝐻𝑅 − 𝐼𝑆𝑅 | • Type Aでは,ほとんどの画素の残差は 非常に小さい • Type B, Cでは,ほとんどの画素の残差が大きい • Type Bの残差はよりランダムに分布 (1) Yuki Kondo @ TTI-J 18
(2) 𝑴によるエッジ・テクスチャの誤検出抑制 • アーティファクトは外れ値のピクセルから 構成されていることを観測. ⇒ 7×7のローカルウィンドウ内で, 局所分散を計算し,𝑴として定量化 • Type A,Bのエッジ・テクスチャへの 誤検出を抑制 • Type Cのアーティファクト画素を検出 (1) Yuki Kondo @ TTI-J (2) 19
(3) 𝜎によるエッジ・テクスチャのさらなる誤検出抑制 • 限られた受容野内でピクセルの関係性を 計算しているため,エッジ・テクスチャに 誤検出が残存 ⇒ 全体からの分散𝜎として定量化を求め, 安定化を図る (𝑎 = 5) • Type A,Bのエッジ・テクスチャへの 誤検出をさらに抑制 • Type Cのアーティファクト画素を検出 アーティファクトとディティールの分離に成功 Yuki Kondo @ TTI-J (2) (3) 20
アーティファクトマップの安定化・精緻化 • アンサンブルを適用した𝑴𝑟𝑒𝑓𝑖𝑛𝑒 によって,(3)をさらに安定化・精緻化. (1) (2) Yuki Kondo @ TTI-J (3) (4) 21
アンサンブルモデルの導入とマップの修正 • 𝜎 ⋅ 𝑴は妥当なアーティファクト検出を行えるが,特に学習初期段階で ディティール生成にペナルティを与える可能性がある ⇒ 指数移動平均法(EMA)を用いたモデルを時間的に アンサンブルし,より安定的なモデルを定義 (𝛼 = 0.999) • ある時点のモデル𝚿が,より安定的なモデル𝚿𝐄𝐌𝐀 より 残差の少ないピクセルへのペナルティを抑制 𝑹𝟏 = Ψ 𝑰𝑳𝑹 − 𝑰𝑯𝑹 𝑹𝟐 = Ψ𝐄𝐌𝐀 𝑰𝑳𝑹 − 𝑰𝑯𝑹 ディティールへの過剰なペナルティを抑制 Yuki Kondo @ TTI-J 22
Section 1.論文情報・概要 2.導入・先行研究 3.提案手法 3-1. アーティファクトの生成過程分析 3-2. 局所統計量解析に基づくアーティファクトマップ生成 3-3. Locally discriminative learning (LDL) 4.実験結果 5.結論・所感 Yuki Kondo @ TTI-J 23
新たに提案するLossと学習方法 • 生成した𝑴𝒓𝒆𝒇𝒊𝒏𝒆 を用いたartifact discrimination loss 𝐿𝑎𝑟𝑡𝑖𝑓 を提案. • さらに𝐿𝑎𝑟𝑡𝑖𝑓 を既存のGANSRモデルに導入したパイプラインを Locally discriminative learning(LDL)として提案. [ パイプライン ] [ 最終的な損失関数 ] 既存のGANSRモデルへの拡張が容易 Yuki Kondo @ TTI-J 24
LDLの導入による学習の安定性の変化 • GANSRモデルRRDB[2]をベースライン,そのベースラインにLDLを導入したモデ ルを比較 • 学習時の各Typeのパッチ画像に対する 平均絶対値誤差(MAD)を評価. • 破線で示すLDL導入モデルの比較結果より • Type A : 変動の縮小,安定化 • Type B :変動の縮小,安定化 • Type C : 平均値・変動値の大きな 低下,安定化 [2] X. Wang + ECCVW 2018 Yuki Kondo @ TTI-J 25
Section 1.論文情報・概要 2.導入・先行研究 3.提案手法 4.実験結果 5.結論・所感 Yuki Kondo @ TTI-J 26
SOTAとの定量比較 ・3種のバックボーンモデルそれぞれにLDLを適用し,知覚的品質,信号忠実度共にSOTAを達成 Backbone SRResNet-like RRDB Yuki Kondo @ TTI-J SwinIR 27
SOTAとの定性比較 Type Cの画像のような エイリアシングが生じやすい 規則的なパターンを持つ画像の 定性比較 ・従来手法に比べ,提案手法(f)は ・不快なアーティファクトを抑制 ・規則的なパターンを 忠実に再構築 Yuki Kondo @ TTI-J 28
実世界のためのSISRへの適用 合成LR画像では表現されない未知の複雑な劣化に対応した従来手法「BSRGAN」および 「RalESRGAN」をベースラインとして,提案手法を導入した「RalESRGAN+LDL」を比較 ・BSRGAN : アーティファクトの発生を抑えているが,全体的にぼやけた滑らかな画像を生成 ・RealESRGAN : ディティールはシャープだが,アーティファクトが発生 ・RalESRGAN+LDL : ディティールをシャープにしつつ,アーティファクトを抑えることに成功 Yuki Kondo @ TTI-J 29
Ablation sutdy LDLの主要コンポーネントの有効性をAblation studyによって検証 ⇒ #5の実験結果が,信号忠実度の評価指標PSNRと知覚的品質の評価指標LPIPSの両者ともに, 最も良好な性能を示したことから,コンポーネントは期待通りに機能したことが確認された Yuki Kondo @ TTI-J 30
Section 1.論文情報・概要 2.導入・先行研究 3.提案手法 4.実験結果 5.結論・所感 Yuki Kondo @ TTI-J 31
結論 [ 本論文の貢献 ] (1) GANを用いたSISR法におけるアーティファクトの生成を分析 (2) アーティファクト生成の問題に対処するLDLを提案 [ LDLの特性 ] ・アーティファクトに明示的なペナルティを与えつつ,ディティールを犠牲にしない ・従来のGAN-SRモデルに容易に拡張可能 [ 実験結果 ] ・合成および現実のSISRタスクの両方において,LDLを導入することで,既存のGAN-SR手法を 定量的にも定性的にも上回ることが実証された. [ 残存課題 ] ・密集した窓の周辺にアーティファクトが残っている. ⇒より効果的な設計を検討する必要あり Yuki Kondo @ TTI-J 32
所感 ・SR以外にもインペインティングやその他の画像生成タスクで応用可能 ・高周波成分に注目した議論が中心となっていたため,局所フーリエ解析などを 応用し,フーリエ空間上でType BとType Cの傾向解析を行うと,新たな アーティファクトマップ生成手法を提案できる可能性あり. ・SRが困難な画像を明確にカテゴライズしたうえで,トイプロブレムや局所統計量を 用いた解析によって,仮説から実装,検証までがクリアだった. ⇒ 近年SRの研究もデータセット全体の最適化から,Hard example caseを 取り上げて,そのケースを重視した提案が増加しているように感じる. ⇒ 出力画像の定性評価の考察を深め,このような問題設定へとつなげると良い. Yuki Kondo @ TTI-J 33
輪読会での議論のまとめ・議論後の再考 ・Type Cは主に規則的なパターンであり,人間はそのようなパターンを過去の経験に 基づいて,推定していると考えられる.このような事前知識を利用する方法は 考えられないか? ⇒ Reference baseのSRが近しいアプローチと考えられ,人間の経験に 基づく記憶が,参照されるデータ集合と置き換えられる.このアプローチは 本研究でも確認されたSRが難しいケースにおいて有効と考える. その際,局所的に復元困難領域をセマンティックに分類・認識すること, およびその領域に類似する画像の取得などが課題になると考えられる. ・Type Cのビルの窓や橋の鉄骨など,規則的なパターンに対するさらに 効果的なアプローチの検討 ⇒ フーリエ畳み込みを用いた手法[G. Matthew+ WACV2022]が インペインティングで規則的な構造の復元に成功している. フーリエ畳み込みが,上記の問題にも有効である可能性が高い. Yuki Kondo @ TTI-J [G. Matthew+ WACV2022] 34