【DL輪読会】DreamFusion: Text-to-3D using 2D Diffusion

2.5K Views

October 28, 22

スライド概要

2022/10/28
Deep Learning JP
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] “DreamFusion: Text-to-3D using 2D Diffusion” Presenter: Takahiro Maeda D2 (Toyota Technological Institute) http://deeplearning.jp/

2.

目次 1. 2. 3. 4. 5. 6. 書誌情報 概要 研究背景 提案手法 実験結果 考察・所感 2

3.

1. 書誌情報 紹介論文 タイトル: DreamFusion: Text-to-3D using 2D Diffusion 出典: ArXiv (2022.9) 著者: Ben Poole et. al. 所属: Google Research, UC Berkeley 選書理由 3Dメッシュを生成するDiffusion modelに興味があった ※引用は最後にまとめてあります.特に明示が無い場合は,紹介論文,動画から引用 3

4.

2. 概要 DreamFusion • 3Dモデル(NeRF)を 生成するDiffusionを 提案 • 3Dモデルのデータセット は必要なし 4

5.

3. 研究背景 • ビデオゲームやCG映画は,大量の高精細な3Dモデルが必要 • これまでは,モデリングソフトなどを用いて人手で3Dモデルを作成 サメ • 機械学習により生成する試みはあったが,データセットが少量のため困難 • 発展が著しい Diffusionによる画像生成 + NeRFによる3次元形状推定 を組み合わせれば,大量の3Dモデルを生成できるのでは? Stable Diffusion [1] NeRF[2] 5

6.

4. 提案手法 手法概要 学習済みImagen (txt2img) を用いて,NeRFのパラメータを更新 細かな3次元形状を学習するためのポイント • 様々なカメラや光源を用いてレンダリングした画像を使用(structure from X) • 光源を変更するために,NeRFがalbedo(表面の色)を推定 6

7.

4. 提案手法 • 学習時の工夫のablation (ⅰ) (ⅱ) (ⅲ) (ⅳ) 視点変更 プロンプトに視点情報追加 光源変更 テクスチャ(albedo)を消した画像も入力 7

8.

4. 提案手法 • Classifier-free diffusion guidance[4] (CFG) – テキストへの忠実性をコントロールする手法 – Stable Diffusion, GLIDE, Imagenなどの有名な手法で採用されている – Diffusionの損失関数 ℒ diff 𝜙, 𝒙 = 𝔼[𝜔𝑡 𝝐𝜙 𝒛𝑡 ; 𝑦, 𝑡 − 𝝐 ] 変更する推定ノイズ – classifier diffusion guidance[3] 𝝐ො 𝜙 (𝒛𝑡 ; 𝑦, 𝑡) = 𝝐𝜙 𝒛𝑡 ; 𝑡 − 𝜔𝑡 𝜎𝑡 𝛻𝒛 𝑡 log 𝑝(𝑦|𝒛𝑡 ) テキストへの画像の忠実度を測るclassifierの勾配 – classifier-free diffusion guidance[4] 𝝐ො 𝜙 𝒛𝑡 ; 𝑦, 𝑡 = 1 + 𝜔 𝝐𝜙 𝒛𝑡 ; 𝑦, 𝑡 − 𝜔𝝐𝜙 𝒛𝑡 ; ∅, 𝑡 テキストを条件付けした 推定ノイズ テキストを条件付けしない 推定ノイズ stable diffusion 𝜔 = 7.5 DreamFusion 𝝎 = 𝟏𝟎𝟎

9.

4. 提案手法 guidance weight 𝜔 が低い →プロンプト忠実度が低い →視点ごとに多様な画像を生成 →3次元形状が学習難 9

10.

4. 提案手法 • Score Distillation Sampling (SDS) – Diffusion + NeRFの高計算負荷を緩和する高速化手法 – 色飽和した画像が出力されるため,画像生成には不向き – Diffusionの損失関数の微分 𝛻𝜃 ℒ diff 𝜙, 𝒙 = 𝔼[𝜔 ′ 𝑡 𝝐ො 𝜙 𝜕𝝐ො 𝜙 𝒛𝑡 ; 𝑦, 𝑡 𝜕𝒙 𝒛𝑡 ; 𝑦, 𝑡 − 𝝐 ] 𝜕𝒛𝑡 𝜕𝜃 推定ノイズ誤差 ただし, 𝜕𝒛𝑡 𝜕𝒙 = 𝜕(𝛼𝑡 𝒙+𝜎𝑡 𝝐) 𝜕𝒙 ノイズ推定器の 勾配 NeRFの勾配 = 𝛼𝑡 𝑰は省略,𝒙 = 𝑔(𝜃) (NeRF) – Score Distillation Sampling 𝛻𝜃 ℒ diff 𝜙, 𝒙 = 𝔼[𝜔 ′ 𝑡 𝝐ො 𝜙 𝒛𝑡 ; 𝑦, 𝑡 − 𝝐 削除 𝜕𝒙 ] 𝜕𝜃 10

11.

• Score Distillation Sampling (続き) 𝜕𝒙 𝛻𝜃 ℒ diff 𝜙, 𝒙 = 𝔼[𝜔 𝑡 𝝐ො 𝜙 𝒛𝑡 ; 𝑦, 𝑡 − 𝝐 ] 𝜕𝜃 – ノイズ推定器の勾配の無視により高速化し,現実的な計算コストに – かなり場当たり的な手法では? ′ • 著者らはProbability Density Distillation Loss[5]と同等だと証明した • 後付け感はぬぐえていない • 話題性に乗ったスピード感のある論文なためしょうがない 色飽和の例 – 勾配無視により色飽和した画像が生成されやすいらしい – 色飽和した単調な背景が生成されやすいため,NeRFの学習が安定化するので は? 11

12.

5. 実験結果 12

13.

6. 考察・所感 • Limitation – 計算負荷の都合上,64×64の生成画像を用いており,形状は細かくない – 平面に絵が描いてあるような形状が学習されることがある – 提案する手法によって生成される形状は,Seedによってあまり変化がない • 所感 – Stable Diffusion版実装が存在 – Imagenから半年で3Dモデルへの拡張が提案されており,スピード感がある – NeRFには複数視点の画像が必要なため,Diffusionの多様性を狭めなければ学 習が成功しない印象.(もったいない!) – 背景を固定するなどの詳細なプロンプトを与えることができれば解消可能? 13

14.

引用 [1] Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022. [2] Mildenhall, Ben, et al. "Nerf: Representing scenes as neural radiance fields for view synthesis." Communications of the ACM 65.1 (2021): 99-106. [3] Dhariwal, Prafulla, and Alexander Nichol. "Diffusion models beat gans on image synthesis." Advances in Neural Information Processing Systems 34 (2021): 8780-8794. 14

15.

引用 • [4] Ho, Jonathan, and Tim Salimans. "Classifier-free diffusion guidance." arXiv preprint arXiv:2207.12598 (2022). • [5] Oord, Aaron, et al. "Parallel wavenet: Fast high-fidelity speech synthesis." International conference on machine learning. PMLR, 2018. 15