[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing

>100 Views

January 07, 22

スライド概要

2022/01/07
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] GLIDE: Guided Language to Image Diffusion for Generation and Editing Xin Zhang, Matsuo Lab http://deeplearning.jp/

2.

書誌情報 ● タイトル: ○ GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models(arxiv) ● 著者:Alex Nichol, Prafulla Dhariwal Aditya Ramesh et al. (OPENAI) ● 20 Dec 2021 ● 概要 ○ テキストからリアルな画像を生成するDiffusion Model ○ 2種類の条件付けの方法で、複数の工夫を取り入れた実装 ○ 綺麗な画像の生成に成功し、小さめなモデルを公開した 2

3.

Introduction

4.

CLIP + Generative Model DALL-E (dVAE) StyleCLIP (StyleGAN)

5.

GANは主流だが、訓練時の安定性と生成画像の多様性に問題 - 多様性と忠実度はトレードオフであり、GANは多様性を犠牲にしているから忠実度が高い。 それトレードオフをコントロールすることで、BigGANにFIDで勝った 画像生成でBigGANに勝った?!Diffusion Modelsについて

6.

Diffusion Modelで色々できるようになってきた! - 多くのタスクは結局Image-to-Imageの形式に落とせる Diffusion Modelはマルチタスクができる(タスク特化の学習しなくてもよい) 4種類の画像生成タスクへのチャレンジ!拡散モデルPaletteについて

7.

CLIP + Diffusion Model: GLIDE

8.

GLIDE: Text-Guided Diffusion Models

9.

DDPM(Denoising Diffusion Probabilistic Models) 拡散モデル(DDPM)には、二つのプロセスがある 1. diffusion/forward process a. 画像にガウスノイズを加え続けて、画像 を完全なノイズにする 2. reverse process a. ガウスノイズを取り除いて、次のステッ プの画像を生成していき、最終的に綺麗 な画像が得られる モデル:ノイズを予測することを学習させる - ノイズが予測するには、ノイズでないところを 認識する必要がある - 生成する物体が理解できる

10.

Guided Diffusion 2種類のガイド方法を用いた CLIP(Classifier) Guidance - 分類モデルの損失勾配で重みづける - CLIPの潜在空間での類似度を用いる 特徴:二つのモデルが必要だが、同時に学習する必 要はない。 - Diffusion Modelと別にClassifierを用意 して、Classifierの知識を利用して画像を生 成。 Classifier-free guidance - 2回のノイズ予測で条件付けを行う - Captionで重みづける 特徴:一つのモデルで済むが、Diffusion Modelを 異なるGuidanceする時に再訓練が必要 - Diffusion Modelを学習する際に、 Guidanceを付けているため (1)

11.

GLIDE Text-Conditional Diffusion Models Fine-Tuning for classifier free guidance Image Inpainting (Fine-tuning) - Add 4 channels (RGB channels, a mask channel) Noised CLIP models - Trained Image Encoder with noised image at 64x64 resolution.

12.

Experiments

13.

定量評価 - 忠実度(解像度)と多様性のトレードオフは やはり存在する。 - Classifier-freeの方が精度が良さそう - Diffusion Modelの方が(GAN,VAEより)本 物っぽく生成できる!?

14.

Text to Image

15.

Image Editing

16.

Image Editing 凄すぎる・・・

17.

Image Editing(with SDEdit model) SDEdit

19.

Conclusion

20.

Safety Considerations & Limitations Released small model trained on a smaller, filtered dataset. Fail to capture certain prompts which describe highly unusual objects or scenarios.

21.

Impressions - Video Generation系の研究に期待 絵が下手でも大丈夫 an cartoon of Mount Fuji an oil painting of happy new year