【論文サーベイ】Data Augmentation With Diffusion Models

8.8K Views

October 25, 23

#データ拡張 #ディフュージョンモデル #テキストから画像生成 #転移学習 #Few-shot学習

スライド概要

tf63

@8590143908

スライド一覧

Web Developer / Research on generative models and continual learning

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文紹介】Classifier-Free Diffusion Guidance

tf63 17.3K

【論文紹介】Instant Neural Graphics Primitives with a Multiresolution Hash Encoding

tf63 10.3K

MLやってる人向けに最低限理解してほしいDocker勉強会

tf63 7.1K

【論文サーベイ】Score-Based Generative Model

tf63 6.2K

【論文サーベイ】Stochastic Differential Equations and Diffusion Models

tf63 5.6K

【論文紹介】High-Resolution Image Synthesis with Latent Diffusion Models

tf63 3.4K

各ページのテキスト

Data Augmentation with Diffusion Models Overview - Diffusion Modelを使ったデータ拡張手法 Motivation - 少数データから識別器を学習させたい - 大規模Diffusion Modelの生成画像は転移学習に利用できる ? 1

Data Augmentation with Diffusion Models Is synthetic data from generative models ready for image recognition? R. He, S. Sun, X. Yu, C. Xue, W. Zhang, P. Torr, S. Bai, X. QI [ICLR’23] AN IMAGE IS WORTH ONE WORD: PERSONALIZING TEXT-TO-IMAGE GENERATION USING TEXTUAL INVERSION R. Gal, Y. Alaluf, Y. Atzmon, O. patashnik, A. H. Bermano, G. Chechik, D. Cohen-Or [ICLR’23] Effective Data Augmentation With Diffusion Models B. Trabucco, K. Doherty, M. Gurinas, R. Salakhutdinov [arxiv’23] 2

Is synthetic data from generative models ready for image recognition? R. He, S. Sun, X. Yu, C. Xue, W. Zhang, P. Torr, S. Bai, X. QI [ICLR’23] Motivation - 識別タスクにおけるzero-shot, few-shotの実験設定を Diffusion Modelの生成画像で補填したい Novelty - 従来のGANを使った手法は小規模で限定的であったが， - text-to-imageの生成によって様々な識別タスクへの応用が可能 3

https://openreview.net/forum?id=nUmCcZ5RKF

Method: text-to-imageの生成によるデータ拡張手法 Basic strategy (B) - ラベルをプロンプトとする (例 Language Enhancement (LE) - ラベルからプロンプトをword-to-sentenceモデルで生成 -> 生成の多様性を確保 (例 CLIP Filter strategy (CF) - CLIPのconfidenceスコアが低い生成画像を取り除く 4

生成したデータをどのように使う? -> CLIPのチューニング Method: Classifier Tuning [Wortsman+, 2022] - k-クラス分類の問題で - プロンプトを生成し - CLIPのtext-encoderに入力 - 識別器の重み - 固定のimage-encoderと合わせて識別器を構築するを得る 5

https://arxiv.org/abs/2109.01903

Experience (zero-shot) Setup - 17のデータセットで実験 - 1クラスにつき2000枚の画像を生成 - 1クラスにつき200個のプロンプトを生成 (LE) - ablationで最も良かったLE + CF + (SCE)を採用 Model - GLIDE (Diffusion Model), CLIP-RN50, CLIP-ViT-B/16 6

Result (zero-shot) 7

AN IMAGE IS WORTH ONE WORD: PERSONALIZING TEXT-TO-IMAGE GENERATION USING TEXTUAL INVERSION R. Gal, Y. Alaluf, Y. Atzmon, O. patashnik, A. H. Bermano, G. Chechik, D. Cohen-Or [ICLR’23] Method: Textual Inversion - 4~5枚の画像からコンセプトを抽出をプロンプトに組み込んで画像生成が可能 8

https://openreview.net/pdf?id=NAQvF08TcyG

Effective Data Augmentation With Diffusion Models B. Trabucco, K. Doherty, M. Gurinas, R. Salakhutdinov [arxiv’23] Motivation - 回転や反転によるデータ拡張はセマンティクスを無視している - 画像変換でセマンティクスを保持したデータ拡張がしたい 9

https://arxiv.org/abs/2302.07944

10.

Effective Data Augmentation With Diffusion Models B. Trabucco, K. Doherty, M. Gurinas, R. Salakhutdinov [arxiv’23] Novelty: セマンティクスを維持した画像変換手法を提案 10

https://arxiv.org/abs/2302.07944

11.

Method 11

12.

Result 12

13.

まとめ - zero-shot, few-shotの環境下でDiffusion Modelの生成画像は有効 - text-to-imageの生成モデルのおかげで多様なデータ拡張が可能課題 - プロンプトをどうやって用意する? - 生成画像を利用するのは本当に適切? 13