1.9K Views
November 17, 23
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] B-spline Texture Coefficients Estimator for Screen Content Image Super-Resolution Presenter: Kazutoshi Akita (Toyota Technological Institute, Intelligent Information Media Lab) http://deeplearning.jp/ 1
論文情報 • 論文名: B-spline Texture Coefficients Estimator for Screen Content Image Super-Resolution (CVPR2023) • 著者:Byeonghyun Pak, Jaewon Lee, Kyong Hwan Jin Daegu Gyeongbuk Institute of Science and Technology (DGIST), Korea • URL: https://openaccess.thecvf.com/content/CVPR2023/papers/Pak_B-Spline_Texture_Coefficients_Estimator_for_Screen_Content_Image_Super-Resolution_CVPR_2023_paper.pdf ※本資料の図は,言及がなければ自作あるいは上記論文からの引用 2
前提知識 • 超解像(Super Resolution, SR) – 画像を綺麗に拡大する技術 超解像 (SRNet) 低解像画像 (LR画像) 超解像画像 (SR画像) 3
前提知識 • Super-Resolution with Neural Field – 一般的なCNNでは整数倍の拡大にしか対応できない – Neural Fieldによる連続表現を用いた 任意倍率の超解像が多く存在 𝐬 𝐱, 𝐈 𝐋𝐑 ; Θ = 𝑤𝑗 𝑓𝜃(𝐳𝐣 , 𝐱 − 𝐱 𝐣 ) , 𝑗∋ℐ where 𝐳 = 𝐸𝜑 (𝐈 𝐋𝐑). 出典: Y. Chen et al., “Learning Continuous Image Representation with Local Implicit Image Function”, CVPR2021. 4
前提知識 • Spectral bias – ReLU activationによるMLPは高周波成分の表現が上手くいかない – 高周波成分を明示的に予測させる構造により改善可能と報告 • 多くがフーリエ基底ベースの周波数表現を用いて改善 • SIREN[1]: activationをsinに変更 • LTE[2]: 周波数成分を予測 [1] V. Sitzmann et al., “Implicit Neural Representations with Periodic Activation Functions”, NeurIPS 2020. [2] J. Lee et al., “Local Texture Estimator for Implicit Representation Function”, CVPR2022. 5
研究背景 • Screen Content Image Super-Resolution (SCI SR) – 文章や図などによって構成された画像(Screen content image; SCI)に着目したSR – Natural imageと異なり,強いエッジや平坦な画素値の分布が特徴 6
研究背景c • Gibbs phenomenon – 有限個のフーリエ基底(≒周期関数)の足し合わせで表現した場合, 不連続点付近でオーバーシュートする 出典:https://ja.wikipedia.org/wiki/%E3%82%AE%E3%83%96%E3%82%BA%E7%8F%BE%E8%B1%A1 7
研究背景 • Gibbs phenomenon – 有限個のフーリエ基底(≒周期関数)の足し合わせで表現した場合, 不連続点付近でオーバーシュートする SCI Super-Resolutionにおいてはフーリエ基底による表現は最適ではない 8
提案手法 • B-spline基底による連続表現を用いたSCI SR手法を提案 9
提案手法 • B-spline – いくつかの制御点から滑らかな曲線を描く手法 𝑛 𝐂 𝑡 = 𝐏𝑖 𝑁𝑖,𝑝(𝑡) 𝑖=0 出典:https://mathworld.wolfram.com/B-Spline.html 𝑁𝑖,0 𝑡 = ቊ 𝑁𝑖,𝑗 1 if 𝑡𝑖 ≤ 𝑡 < 𝑡𝑖+1 and 𝑡𝑖 < 𝑡𝑖+1 0 otherwise 𝑡 − 𝑡𝑖 𝑡𝑖+𝑗+1 − 𝑡 𝑡 = 𝑁 𝑡 + 𝑁 (𝑡) 𝑡𝑖+𝑗 − 𝑡𝑖 𝑖,𝑗−1 𝑡𝑖+𝑗+1 − 𝑡𝑖+1 𝑖+1,𝑗−1 10
提案手法 • B-spline – 定性的な説明 • いくつかの制御点𝐏から knot vectorと呼ばれる点を求める – knot 𝑡は曲線を軸をとして,任意の値をユーザーが決定 出典:https://mathworld.wolfram.com/B-Spline.html – 𝑡が決まれば,制御点の足し合わせによってknot vectorが計算により求められるように設計 • knot vectorを通るように滑らかな曲線を引く • 転じてknotが決まれば制御点の足し合わせによって曲線を求められる 𝑛 𝐂 𝑡 = 𝐏𝑖 𝑁𝑖,𝑝(𝑡) 𝑖=0 重み 基底 11
提案手法 • B-spline – 性質 • knotの決め方によって,どの制御点を重要視するかが決められる – SCIのような強いエッジや平坦な画素値の分布も適切に表現可能 • 基底が周期関数ではないため,gibbs phenomenonによる悪影響がない 12
提案手法 • B-splineによるNeural Field – B-splineの一般化表現: – Neural FieldによるSRの定式化: – 提案手法: 13
提案手法 • 全体像 14
実験結果 • 定性評価 15
実験結果 • 定量評価 – 整数倍倍率 – PSNR 16
実験結果 • 定量評価 – 任意倍率 – PSNR 17
実験結果 • 定量評価 – テキスト認識精度 18
実験結果 • Gibbs phenomenon 19
実験結果 • Natural Image 20
まとめ • SCIに着目したSR手法を提案 • B-spline基底表現により,フーリエ基底で発生するGibbs phenomenonによる問題に対処 • SCI SRにおいてPSNR,テキスト認識精度で従来手法を上回る 21