【拡散モデル勉強会】Diffusion Models for Non-autoregressive Text Generation: A Survey

8.3K Views

May 14, 24

#自然言語処理 #テキスト生成 #拡散モデル #非自己回帰モデル #サーベイ論文

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.4K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.1K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 49.4K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.1K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 46.9K

各ページのテキスト

DEEP LEARNING JP Diffusion Models for Non-autoregressive [Diffusion Papers] Text Generation: A Survey ⾼城頌太（東京⼤学⼯学系研究科松尾研 D1） http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報タイトル： Diffusion Models for Non-autoregressive Text Generation: A Survey https://arxiv.org/abs/2303.06574 IJCAI 2023 Survey Track 著者： Yifan Li, Kun Zhou, Wayne Xin Zhao, Ji-Rong Wen 概要： Diffusionを⽤いたテキスト⽣成に関するサーベイ 2

テキスト⽣成のアプローチ • ⾃⼰回帰モデル(Autoregressive model: ARモデル) – 前から順に単語を⽣成 • ⾮⾃⼰回帰モデル(Non-autoregressive model: NARモデル) – 各単語を同じタイミングで出⼒特にNARモデルに対して拡散モデルを適⽤した⼿法がいくつか提案されている (※ARモデルでも拡散モデル適⽤する⽅法もあり) 3

テキスト⽣成のためのdiffusion modelの歴史 • Image, Video, Audioでdiffusion modelが⼤きな成功を集めているが，textではまだうまくいっていない • Diffusionを⽤いたテキスト⽣成に関する論⽂も年々増えてはいる Diffusion models in text generation: a survey 4

Diffusion Model Forward diffusion process Loss function Reverese diﬀusion process 5

Text Diffusion Models • 与えれた⼊⼒データに基づいて，ランダムノイズを⽬的のテキストに付与する • ノイズの掛け⽅は離散 or 連続にかける⽅法がある • ARモデルと⽐較するとNARモデルは推論時間は短縮されるが，NARモデルだと単語の依存関係を考慮できないため精度は低下する 𝒴: target text, c: context, t: timestep 6

Diffusion Modelを離散のテキストに適応 • Discrete Text Diffusion Model – tokenのように離散的なものを扱うモデル – token⾃体にノイズをかけそれを取り除くように学習 • Continuous Text Diffusion Model – embeddingのような連続的な値をもつものを扱うモデル – embeddingに対してノイズをかけ，それを取り除くように学習 7

Discrete Text Diffusion Model: D3PM • 離散値に対して拡散モデルを適⽤するために提案 • カテゴリ分布に対して拡散モデルを適⽤し，ノイズ付与する操作の代わりに独⾃な操作を導⼊(Q: 遷移確率⾏列) Forward diffusion process where 式変形: https://beckham.nz/2022/07/11/d3pms.html 8

Discrete Text Diﬀusion Model: D3PM Qの具体的な処理について • Uniform – ⼀様分布を加え，⼀定の確率で他の語彙に変化させる操作 • Absorbing state – ⼀定の確率でトークンが[MASK]になるようにする操作 • Discretized Gaussian – 通常の拡散モデルと同様にガウシアンノイズを加える操作 • Token embedding distance – ⼀定の確率で類似性が⾼いトークンに変化させる Structured Denoising Diffusion Models in Discrete State-Spaces 9

10.

Discrete Text Diffusion Model: D3PM 実験結果では，absorbing stateが最もNLLが低い 10

11.

Continuous Text Diffusion Model: Diffusion-LM • 単語のembeddingに対して拡散モデルを適⽤させる • 離散のテキストから埋め込みへ変換するEmbedding Stepと埋め込みからテキスト変換するRounding Stepを同時に学習 Embedding Step Rounding Step Loss function 11

12.

Continuous Text Diffusion Model: Diffusion-LM 学習時の⼯夫について Reducing Rounding Errors - 全ての時刻tでxtからx0を予測することによって単語のembeddingを学習する Controllable Text Generation - 制約を満たすように 12

13.

Continuous Text Diﬀusion Model: Diﬀusion-LM • Infilling taskで⽐較⼿法より⾼いスコア • ARモデルにはHuman Evalでは負けている 13

14.

拡散モデルにおけるテキスト⽣成のポイント • Denoising Network – 基本的にはTransformerベースのモデルを使⽤ – 事前学習モデルを使⽤することで性能改善(BERT, RoBERT) • Noise Schedule – ノイズをどのように付与するか – LinearSchedule, Cosine Shcedule, Mutual Information Schedule, Sqrt Schdule… • Objective Function – X0-parameterized Loss • hogehoge – AuxialiaryLoss • hogehoge • Conditioning Strategy – Unconditional Generation – Attribute to text generation – Text to text generation 14

15.

事前学習済みモデルの使⽤ • 事前学習済みモデルをDenoising Networkとしての利⽤ – DiffusionBERT, Diffusion-NAT • 潜在空間への埋め込みに事前学習済みモデルを使⽤ – LD4LG, LatentOps • Text Diffusion Modelに特化した事前トレーニング – continuous paragraph denoising (CPD) 15

16.

潜在空間への埋め込みに事前学習済みモデルを使⽤: LD4LG • 事前学習済みのBARTやT5を⽤いて潜在表現上でデノイジング 16

17.

潜在空間への埋め込みに事前学習済みモデルを使⽤: LD4LG 17

18.

Text Diffusion Modelの種類 18

19.

Text Diffusion Modelの結果⽐較 Diffusion models in text generation: a survey 19

20.

Thank you. 20