【DL輪読会】Masked Diffusion as Self-supervised Representation Learner　

10.2K Views

October 06, 23

#Deep Learning #MDM #Segmentation #Self-supervised Learning #Representation Learning

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 89.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 64.1K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60.7K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 45.3K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 44.4K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 43.3K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Masked Diffusion as Self-supervised Representation Learner Yuta Oshima, Matsuo Lab http://deeplearning.jp/

http://deeplearning.jp/

Masked Diffusion as Self-supervised Representation Learner 書誌情報著者 • Zixuan Pan, Jianxu Chen, Yiyu Shi 概要 • 従来の拡散モデルに変更を加え，表現学習に特化したモデルを作成． • 表現を用いた下流タスク（主にセグメンテーション）の性能が良い． 2

背景 Denoising Diffusion Probalistic Model (DDPM) [1] • データx0 に徐々にガウシアンノイズを加えていき，完全なガウシアンノイズ xT ~𝑁(xT ; 0, 𝐼)にすることを考える（拡散過程）． • 生成は，拡散過程を逆向きに辿る（逆過程）．逆過程はNNでモデル化する． • 拡散モデルは高品質な生成のアプリケーションがよく研究されているが，本研究では，拡散モデルを用いた表現学習が目的． 3

背景 Masked Autoencoders (MAE) [2] • 自己教師あり表現学習手法の一つ． • 入力画像をパッチに分割し，固定のマスク率でパッチを[mask]する． • 可視部分を用いて，欠損部分を予測する（マスク予測）ことで事前学習． • 本研究でもマスク予測により表現学習を行なっている． 4

背景 Diffusion Models as Masked Autoencoder (DiffMAE) [3] • MAEのマスク予測をノイズ除去過程とみなして表現学習を行う． • MAEよりも生成品質は向上したが，表現を用いた分類やセグメンテーションで，MAEにわずかに劣る． • 一方，本研究では，セマンティックセグメンテーションにおいて，MAEを凌駕． 5

手法 Masked Diffusion Model (MDM) を提案 • 従来のガウスノイズによる拡散モデルをやめ，マスク付き拡散モデルを導入． • 入力画像をパッチに分け，タイムステップ𝑡 において，マスク率 𝑅𝑚 = 𝑡 𝑇+1 でマスキング．𝑡 が小さくなると，ガウシアンノイズではなく，マスクが減る． • 表現学習に特化したモデルであり，DDPM等で行われる多段階の生成はできない． 6

手法 Masked Diffusion Model (MDM) を提案 • 従来のガウスノイズによる拡散モデルをやめ，マスク付き拡散モデルを導入． • MAEとは異なり，マスクを含めて画像全体をUNetに入力する． • 再構成誤差にはMSE Loss ではなく，SSIM Loss を用いる． • SSIMを用いることで，より意味のある表現を獲得できたと主張している． 7

手法 Masked Diffusion Model (MDM) を提案 • 表現抽出器が学習されたら，重みを凍結し，下流タスクを学習する． • 本論文では，下流タスクとしてセグメンテーションを主に扱う． • セグメンテーションの学習に用いるデータは，必ずしもMDMの学習に用いたデータの部分集合でなくても良い．ドメイン（医療画像，顔画像，etc…）は同一でないといけない． 8

実験先行研究との比較 • 医療画像のセグメンテーション • 全体の10%のラベルしか利用できない場合でも，高精度を達成． 9

10.

実験先行研究との比較 • 顔画像のセグメンテーション • DatasetGAN，DatasetDDPMはGANやDDPMを用いた教師ありのセグメンテーション手法． 10

11.

実験先行研究との比較 • まとめ • MDMは4つ全てのデータセットで，DDPMより優れる． • 拡散モデルによる表現学習においては，必ずしもノイズ除去は必要ない可能性． • MDMは，MAEよりも優れる． • tを変えることでさまざまなマスク率で学習できることが，頑健で意味のある表現学習に有利な可能性． • MDMは利用可能なラベルが少ない場合でもうまく動作する． • 医療画像のセグメンテーションなど，アノテーションコストが高い場面で有益． 11

12.

実験アブレーション • MDMとDDPMにおいてtを固定して検証． • MDMでは𝑡 = 50 ，DDPMではt = 250で固定する． • MDMの方が，DDPMより， tを動かすことで大きな恩恵を受けるうえ，性能も高い． • 拡散モデルで表現学習をしたい場合，必ずしもノイズ除去である必要はない可能性を強調． 12

13.

実験アブレーション • 損失関数について • SSIM Loss と MSE Lossを比較し，SSIM Lossの優位性を確認． • また，DDPMに関しては，ノイズ予測型の損失関数の方が，𝑥0 を直接予測する型の損失関数(†) よりも，表現学習において優れることを示した． 13

14.

まとめ • 表現学習に特化した拡散モデルである MDMを提案． • マスク予測で学習される拡散モデル． • タイムステップtが変化すると，ノイズの大きさではなくマスク率が変化． • 主にセグメンテーションで表現の性能を評価． • 医療画像，顔画像のセグメンテーションで先行研究を上回る結果． • 少数データでも高性能． 14

15.

感想興味深かった点 • 少数の医療画像で高い性能を出していたので応用面で期待が高そう．考える余地のある点 • “Masked Diffusion as Self-supervised Representation Learner” というタイトルだが，評価に用いたタスクはセグメンテーションだけ． • 表現学習というからには，複数のタスク（分類，重要点推定，深度推定など）で優位性を見たかった． • 筆者はこれまで医療系の深層学習の研究を多く出していたので，多分筆者的にはセグメンテーションがうまくいったから満足だったの可能性がある． • ノイズ除去は表現学習に必要ないと主張していた． • デノイジングにより低周波から高周波の情報を扱えることが拡散モデルの強みだと考えていた． • 表現学習においては必ずしもそうではないのか． 15

16.

参考文献 [1] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. In Hugo Larochelle, Marc’Aurelio Ranzato, Raia Hadsell, Maria-Florina Balcan, and HsuanTien Lin (eds.), Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020, NeurIPS 2020, December 6-12, 2020, virtual, 2020. URL https://proceedings.neurips.cc/paper/2020/hash/ 4c5bcfec8584af0d967f1ab10179ca4b-Abstract.html. [2] Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Dollar, and Ross B. Girshick. Masked ´ autoencoders are scalable vision learners. In IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2022, New Orleans, LA, USA, June 18-24, 2022, pp. 15979–15988. IEEE, 2022. doi: 10.1109/CVPR52688.2022.01553. URL https://doi.org/10.1109/ CVPR52688.2022.01553. [3] Chen Wei, Karttikeya Mangalam, Po-Yao Huang, Yanghao Li, Haoqi Fan, Hu Xu, Huiyu Wang, Cihang Xie, Alan Yuille, and Christoph Feichtenhofer. Diffusion models as masked autoencoder. arXiv preprint arXiv:2304.03283, 2023. 16

17.

背景 Denoising Diffusion Probalistic Model (DDPM) • データx0に徐々にガウシアンノイズを加えていき，完全なガウシアンノイズ xT~𝑁(𝑥𝑇; 0, 𝐼)にすることを考える（拡散過程）． • 生成は，拡散過程を逆向きに辿る（逆過程）．逆過程はNNでモデル化する． 17