274 Views
December 16, 22
スライド概要
2022/12/16
Deep Learning JP
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Investigating Tradeoffs in Real-World Video Super-Resolution Presenter: Kazutoshi Akita (Toyota Technological Institute, IntelligentInformation Media Lab) http://deeplearning.jp/ 1
論文情報 • 論文名:Investigating Tradeoffs in Real-World Video Super-Resolution (CVPR2022) • 著者:Kelvin C.K. Chan, Shangchen, Zhou, Xiangyu Xu, Chen Change Loy S-Lab, Nanyang Technological University • URL: https://openaccess.thecvf.com/content/CVPR2022/papers/Chan_Investigating_Tradeoffs_in_Real-World_Video_Super-Resolution_CVPR_2022_paper.pdf ※本資料の図は,言及がなければ自作あるいは上記論文からの引用 2
Video Super-Resolution; VSR • Video Super-Resolution – 動画の空間解像度を高めるタスク – 複数フレームを入力するタイプの超解像の一つ • Multi-frame Super-Resolution VSR手法の一例(BasicVSR)[1] – 単画像超解像(Single-Image Super-Resolution; SISR)よりも 入力枚数が多いため,VSRのほうがより綺麗な画像を出力 できることが期待される [1] K. Chan, et al., “BasicVSR: The Search for Essential Components in Video Super-Resolution and Beyond”, CVPR2021. 3
VSRの課題① • 入力シーケンス長が長いと,不自然・不快な見た目(アーティファクト)が出る場合がある – 特に,学習時と推論時で劣化過程が異なる場合(Real-World Super-Resolusion)に顕著 4
VSRの課題② • 学習のコストが非常に高い – 可能ならば大きいサイズで長いシーケンスのGT動画で,大きいバッチサイズ学習したい • 例えば1280×720の解像度で30フレームのシーケンスをバッチサイズ32で学習など – しかし,このようなデータでの学習は, • 動画の読み込み(= I/O)がボトルネックになる • 長いシーケンスでは逆伝搬の計算コストが重い(特にRNN系) • etc. 5
1. アーティファクト抑制 • 一般的な超解像の学習方法 ・低解像化 ・ブラー SRNet 低解像画像 (LR画像) 高解像画像 (HR画像) 超解像画像 (SR画像) Loss (e.g., MSE, L1) 6
1. アーティファクト抑制 • Real-World Super-Resolutionでは,シーケンス長が長くなるにつれてアーティファクト発生 – Non-Blind VSR:学習時と同じ劣化過程のテスト画像 – Real-World VSR:学習時と異なる劣化過程のテスト画像 7
1. アーティファクト抑制 • VSRは,低解像フレームから「画像の詳細」を抽出して統合する – Non-Blind VSRでは,低解像フレームのもつ「画像の詳細」が特定できる エッジ? – Real-World SRでは,入力の「ノイズやアーティファクト」と「画像の詳細」が区別できない エッジ? 8
1. アーティファクト抑制 • Pre-cleaning – 事前に低解像画像からノイズを除去しておく – 以下2つのlossで学習 𝜌: 画像間のL1損失 𝑥𝑖 : cleaning後の画像 𝑦𝑖 : 最終的な超解像結果 𝑧𝑖 : GT 9
1. アーティファクト抑制 • Pre-cleaningで画像のノイズを除去可能 • しかし,cleaningの程度は慎重に設計する必要がある – 過度なcleaningは重要な画像の詳細を消す可能性がある 10
1. アーティファクト抑制 • Recurrent cleaning – cleaningモジュールを再帰的に利用 𝐶: cleaningモジュール – 再帰回数を変更することで cleaningの程度を制御可能に 11
1. アーティファクト抑制 • • 1枚の画像でcleaningの再帰回数と最終的なSR結果の関係を確認 – NIQE: 人が見て綺麗かどうかを評価する指標 – 回数少:ノイズが除去されずアーティファクトによってSR画像が汚く – 回数多:画像詳細まで除去され,SR画像がぼける 画像ごとに適切な再帰回数を選択するとで, 画像詳細は残しつつアーティファクトが出ないcleaningが可能? 12
1. アーティファクト抑制 • Dynamic Refinement – 再帰回数を適応的に変化 – 1回のcleaningで変化が一定以下ならば打ち切り – 著者:「More elaborative designs of the refinement scheme are left as our future work.」 13
2. 学習コスト削減 • 学習コストの主な原因 – シーケンスの読み込みが重い – 多様な劣化に対応するため,学習回数が多い • これらの対処として,新たな学習手法を提案 14
2. 学習コスト削減 • 従来 – シーケンス全体を読み込み,全フレームを同じ劣化過程で低解像度化 • 提案① – シーケンス半分を読み込み,flipして後ろに結合する • 読み込みで発生するデータアクセスが半分に • 提案② – 各フレームを別々の劣化過程で低解像度化 • 1シーケンスの学習で複数の劣化過程を学習可能に 15
2. 学習コスト削減 • 提案②:各フレームを別々の劣化過程で低解像度化 – 動画としての一貫性が失われる – 劣化が徐々に変化していくように設計 • ランダムウォークっぽく 16
2. 学習コスト削減 • 実験結果 – 1iterationにかかる時間を40%削減 – さらに高精度なVSRを実現 17
2. 学習コスト削減 • ネットワークの計算コストの主な要因 – バッチサイズ 𝐵 ⇒ – シーケンス長 𝐿 多様な劣化に対して汎化しやすく ⇒ 長いシーケンスを用いて高精度化が期待 • 提案する学習方法を用いた場合,𝐵 × 𝐿 一定の条件下で,どちらが結果に大きく影響を与え るかを確認 18
2. 学習コスト削減 • シーケンス長 𝐿が短い場合に 画像に色のアーティファクトやブラー • 提案する学習手法では バッチサイズが小さくても シーケンス長を長くしたほうが良い 19
従来手法との比較 • 他手法と比較して, – 計算コストの低減 – 人が見て綺麗かどうかの指標において最も良い精度 20
従来手法との比較 21
まとめ • VSRにおける①アーティファクト発生 ②計算コストが膨大 という問題について – Pre-cleaningによるアーティファクトの抑制 – 計算コストを少なくしつつ性能を維持する新たな学習手法を提案 22