【DL輪読会】LAR-SR: A Local Autoregressive Model for Image Super-Resolution

>100 Views

June 17, 22

#Deep Learning #Super Resolution #Autoregressive Model #Image Enhancement #Artificial Intelligence

スライド概要

2022/06/17
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 84.7K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 54.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 38.8K

【拡散モデル勉強会】拡散モデルのサンプラーまとめ

Deep Learning JP 33.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 32K

各ページのテキスト

DEEP LEARNING JP [DL Papers] LAR-SR: A Local Autoregressive Model for Image SuperResolution Presenter: Kazutoshi Akita (Toyota Technological Institute, IntelligentInformation Media Lab) http://deeplearning.jp/ 1

http://deeplearning.jp/

論文情報 • 論文名：LAR-SR: A Local Autoregressive Model for Image Super-Resolution (CVPR2022) • 著者：Baisong Guo1, Xiaoyun Zhang1, Haoning Wu1, Yu Wang1,2, Ya Zhang1,2, Yan-Feng Wang1,2 1Cooperative 2Shanghai Medianet Innovation Center, Shanghai Jiao Tong University, AI Laboratory • URL: https://openaccess.thecvf.com/content/CVPR2022/html/Guo_LAR-SR_A_Local_Autoregressive_Model_for_Image_Super-Resolution_CVPR_2022_paper.html ※本資料の図は，言及がなければ自作あるいは上記論文からの引用 2

前提知識 • 超解像（Super Resolution, SR） – 画像を綺麗に拡大する技術超解像 (SRNet) 低解像画像（LR画像）超解像画像（SR画像） 3

前提知識 • これまでの超解像・低解像化・ブラー SRNet 低解像画像（LR画像）高解像画像（HR画像）超解像画像（SR画像） Loss (e.g., MSE, L1) 4

前提知識 • MSE/L1損失による学習では，SR画像がボケる – 1つのLR画像に対して複数の妥当なHR画像が対応するためこれに対処するため，確率モデルを利用した超解像が注目されている 5

前提知識 • 確率モデルは様々 – GAN • 実データを指定した確率分布（e.g., ガウス分布）に直接埋め込み • 欠点：学習が困難 or 不安定 – Normalizing Flow • 単純な確率分布からの変換で実データ分布を表現 • 欠点：ネットワーク構造に制限 6

概要 • 確率モデルとして，自己回帰（Autoregressive; AR）モデルを利用した超解像手法を提案 • 自己回帰モデルを局所的なパッチ内でのみ使用することで，計算コストの高さを解消 • 複数の超解像データセットにおいてベースラインを上回る性能 7

自己回帰モデル • i番目のモデル出力が，i-1番目までのモデル出力に依存する確率モデル 𝑝 𝑥 = ෑ 𝑝(𝑥𝑖 |𝑥1, … , 𝑥𝑖−1) • メリット – 特定の分布を仮定しないため，実データの分布を忠実に再現できるポテンシャルがある – 安定的な学習が可能 8

自己回帰モデル • 自己回帰モデルによる画像生成 – 例：Pixel RNN [1] [1]より引用 • 生成したい画像のピクセル数が増えると計算時間が膨大に [1] V. Oord, et al., "Pixel recurrent neural networks." International conference on machine learning. PMLR, 2016. 9

10.

提案手法 • 基本アイデア – 画像の局所パッチ内でのみ自己回帰モデルを利用して並列化可能にし，計算効率を改善 – 低解像画像で遠く離れた箇所との依存関係（画像構造）がすでに与えられている – 局所パッチ内での，生成したいテクスチャにおいてのみ依存関係がある 10

11.

提案手法 • モデル概要 11

12.

提案手法 • Stage1: VQVAE – 高解像テクスチャのコードブックを作成 12

13.

提案手法 • Stage2: Local Autoregressive (LAR) module – 低解像画像を条件付けて，パッチ内でVQVAEのコードブックのindexを推定 13

14.

実験結果 • 一般画像超解像（DIV2K） 14

15.

実験結果 • 一般画像超解像（DIV2K） • 指標 – PSNR：再構成誤差 – SSIM：標準偏差などに基づいた GTとの差の指標 – LPIPS：知覚的品質の指標 15

16.

実験結果 • 顔画像超解像 16

17.

実験結果 • 顔画像超解像 17

18.

実験結果 • パッチサイズ（＝自己回帰モデルの再帰回数）による性能比較 18

19.

実験結果 • 画像全体に自己回帰モデルを適用した場合 19

20.

実験結果 • 各ステージにおいてcoarse-SR（≒画像構造による条件付け）の有無による比較 20

21.

まとめ • 自己回帰モデルを利用した超解像を提案 • 低解像画像（≒画像構造）を条件付けることで，局所パッチ内でのみ自己回帰モデルを使用すればよく，計算効率を改善 • 一般画像超解像・顔画像超解像において従来手法を上回る性能を達成 21