【拡散モデル勉強会】Compositional Abilities Emerge Multiplicatively: Exploring Diffusion Models on a Synthetic Task

6.4K Views

June 18, 24

#拡散モデル #構成的汎化 #概念グラフ #深層学習 #NeurIPS2023

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 86.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.8K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 57.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 40.5K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 35.3K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 34.8K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Compositional Abilities Emerge Multiplicatively: Exploring Diffusion Models on a Synthetic Task Gouki Minegishi, Matsuo Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

概要 • • • • • Neurips2023 Accept 拡散モデルは構成的汎化能力があると言われているしかし，この能力がどういう条件下で構成的汎化が可能かはわかっていない本研究はこの謎について実験的に検証する The code is available: https://github.com/phys-ai/concept_graphs 2

https://github.com/phys-ai/concept_graphs

背景 • • ⽣成モデルすごい – e.g., ⾼品質な画像⽣成，3次元⽣成，動画⽣成，テキスト⽣成… – 特に拡散モデルの汎化能⼒に注⽬する構成的汎化能⼒ – 現実世界の構成性を鑑みると，Out-Of-Distributionのデータに対してはモデルの構成的汎化能⼒が重要である • 訓練データにない属性（⾊・形など）の組み合わせも⽣成可能 – しかし，どのサンプルが可能でどのサンプルが不可能かはよくわかっていない • e.g., ⻘いパンダは⽣成できない 3

関連研究 • 拡散モデル – 画像⽣成のSOTA – (画像，テキスト)のペアで学習されることが多い．この場合のテキストはLLMのembeddingが使われることが多く，新しい画像を⽣成したり，既存の画像を編集したりすることができる – 「アボカドイス」など絶対学習データにないものを⽣成できる[1] • アボカドと椅⼦を組み合わせて⽣成している • 構成的汎化性能 – 構成性という実世界の特性[2,3] – ⼈間は世界を⾊や形などプリミティブな要素に分解して認識し，またそれを組み合わせて新しいものを作り出す[4,5] – 機械学習もこれに触発され構成性を取り⼊れた研究が盛ん • Object-Centric[6], 構成性のベンチマーク[7,8]，CLIPの構成的認識[9] – この研究では特に拡散モデルの構成的汎化性能について 1) どの概念は分解して学習されるのか？ 2) またモデルが組み合わせて学習できる概念とそうでない概念の違いは何か？ 4

概念グラフ • 概念変数 – サンプル(Objects)に含まれる概念の集合 𝑉 = {𝑣! , 𝑣" , … , 𝑣# } – 形，⾊，⼤きさ，位置，⾓度… • 概念値 – ある概念変数の値 𝑣$ ∈ 𝑉, 𝐶$ = {𝑐$! , 𝑐$" , … , 𝑐$%! } – {円，三⾓形，四⾓形}, {⾚，⻘，⻩⾊}… • 概念クラス – 概念値の組み合わせ C = (𝑣! = 𝑐! , 𝑣" = 𝑐" , … , 𝑣& = 𝑐& ) – 𝑝個の概念を𝑝個の概念値で設定，𝑛 − 𝑝個の概念変数は⾃由 • 概念距離 – ２つの概念クラスの距離を𝑑 𝐶 ! , 𝐶 " • 概念グラフ ! " = ∑#$ 𝐼(𝑐$ , 𝑐$ ) , 𝑤ℎ𝑒𝑟𝑒 𝐼 𝑐!$ , 𝑐"$ = 1 𝑖𝑓 𝑐!$ ≠ 𝑐"$ , 𝑒𝑙𝑠𝑒 0. – 概念クラスをノード(𝑛$ ∈ 𝑁)，概念距離をエッジ(𝑒$ ∈ 𝐸)の重みとするようなグラフ：𝐺 = (𝑁, 𝐸) 5

モデルの性能と構成的汎化の定義 • 学習する概念クラス集合 𝐶! = {𝐶! , 𝐶" , … , 𝐶# } • モデルの性能 – ある概念変数𝑣$ を所望の概念値𝑐$ に変更する能⼒ • 構成的汎化 * – 学習する概念クラス集合のどれとも概念距離が１以上のクラスCを⽣成する能⼒ , 𝐶$ ≥ 1 ∀𝐶$ ∈ 𝐶! 𝐶, 𝑠𝑢𝑐ℎ 𝑡ℎ𝑎𝑡 𝑑 𝐶, 6

実験設定と評価⽅法 • モデル – 条件付けUnet – 概念値のone-hotベクトルをembeddingしてtime embeddingに⾜す • 概念グラフ – 概念変数（形，⾊，⼤きさ） – 概念値 {円，三⾓}, {⾚，⻘}, {⼤，⼩} • 評価⽅法 – 拡散モデルが⽣成したデータでそれぞれの概念変数に対して2値分類 – それぞれの精度の掛け算をモデルのaccuracyとする 7

実験 • モデルが概念を学習する順序について • どういった条件下で構成的汎化に失敗するか？ 8

概念距離と概念の獲得順序 • 訓練データとの概念距離順に精度が上がる a) ⻘：訓練データ，ピンク：概念距離１，ダークピンク：概念距離２ b) 概念距離に⽐例して突如構成的汎化性能を獲得する c) 形やサイズは学習序盤で獲得される - 概念距離が遠い概念クラスの⾊は特に獲得が遅い 9

10.

乗法的創発現象説 • それぞれ概念の獲得順序 a) 概念ごとの精度を掛け算ではなく⾜し算（平均）にすると滑らかになる • 概念ごとに獲得されるタイミングが異なる b) 今回は⾊が⼀番最後に獲得される • 111のデータに関しては⾊の概念の獲得がボトルネックになっている • 「構成的能⼒は乗法的に現れる」 – ⼤規模NNの能⼒がサイズと計算量のスケールによって⾮線形的に増加するのはタスクの構成性に起因しているのではないか？ – 構成的なタスクでは全ての関連するタスクの習得を必要とされる • 個々の原⼦的な能⼒の積として創発現象が起こる • AND回路のような感じ 10

11.

トイモデルによる分析 • 複雑な能⼒がどのように原⼦的な能⼒の集合から創発するか？ – 𝑛個の原⼦的な能⼒ – 各能⼒が特定の時間ステップで獲得される確率を𝑝 – 能⼒の学習ダイナミクスをベルヌーイ分布としてモデル化 – 𝑡ステップまでにある能⼒が学習される確率 : 1 − 1 − 𝑝 ! – 𝑡ステップまでに𝑛個の能⼒を獲得する確率 : 𝑃 𝑛 = 1 − 1 − 𝑝 ! " a) 拡散モデルの学習ダイナミクスと酷似 – 構成性が増すにつれて急激な学習ダイナミクス – 𝑃 𝑛 ≥ 0.95となる時間は b) タスクの構成性に対して獲得する時間は対数的 11

12.

実験 • モデルが概念を学習する順序について • どういった条件下で構成的汎化に失敗するか？ 12

13.

頻度の重要性 • 訓練データのサンプルの頻度を変更する a) 001のデータを少なくする（⾊が学習しにくい） - 001より先に110が学習される 001が10sample学習されると急に⾊の概念を学習し始める b) 100のデータを少なくする（形が学習しにくい） - • 100より先に011が学習される 100が90sample学習されると形状の概念を学習し始めるデータフィルタリングに対する⽰唆 – – – 特定の概念を学習したくないことはよくある（著作物など）しかし完全にその概念を排除するフィルタリングは難しい特定の概念に関するサンプルが臨界点以下であれば含まれていても問題ないのでは？ 13

14.

Fine-tuningによる間違った汎化 • 訓練データで概念クラスが隣接しない場合 a) 全ての概念は含まれるのにうまく汎化できない • Fine-tuningで調整できるか？ b) 新しく導⼊された概念が上書きして既存の概念を忘れてしまう – Fine-tuning では修正できない？ • すでに学習されたバイアスはFTではどうにもならない？ 14

15.

実データでの検証 • Celeb Aでの検証 a)（性別，笑顔，⾦髪）の概念変数で検証 b) 概念距離に⽐例して学習される c) 性別はデータセットに偏りがあり（⼥性が多い），訓練データに先⾏する場合がある - この場合の男性など訓練データに少ない概念は後から出現するので，初期収束を超えて拡散モデルを学習させる必要がある 15

16.

まとめ • 拡散モデルの構成的汎化能⼒のための概念グラフというフレームワークの導⼊ • 構成的汎化失敗パターン（⻘いパンダが⽣成できない理由） 1) 概念距離が遠い：概念の獲得は順次進⾏するので多くの学習ステップが必要 2) 特定の概念が訓練データに少ない：訓練を丸覚えした後でも学習ステップが必要 3) Fine-tuningよる概念の獲得は難しい（データの丸覚えなら可能） 16

17.

参考⽂献 1. https://www.casualganpapers.com/discrete-text-to-image-vaetransformer/DallE.html 2. https://library.oapen.org/bitstream/handle/20.500.12657/26040/11283 .pdf?sequ 3. https://proceedings.mlr.press/v139/zhang21a/zhang21a.pdf 4. https://journals.plos.org/ploscompbiol/article/file?id=10.1371/journal. pcbi.1000858&type=printable 5. https://arxiv.org/pdf/2212.10537 6. https://arxiv.org/abs/2006.15055 7. https://arxiv.org/pdf/2208.00005 8. https://arxiv.org/pdf/2212.10015 9. https://arxiv.org/pdf/2212.10537 10. 17