106 Views
February 26, 25
スライド概要
DL輪読会資料
拡散モデルの潜在空間の理解 について Yuya Takeda
背景 ‣ 拡散モデルの潜在空間は未だによく分かっていない • 潜在的な方向から方向に沿って走査すると.結果に奇妙な変化が生じる • 拡散された画像を潜在変数としてきたが,それでControlできるかも怪しい ‣ 埋め込みが最終的な画像に直接接続されていないため,SytleGANのようにい かない • Forwardノイズを予測している • 複数の再帰的タイムステップ 2
潜在空間研究について ‣ CLIPを使った手法はあるものの, 拡散モデルの潜在空間研究はあまり 進んでおらず,Unsupervisedな ものは無かった [Kim+ 22] ‣ リーマン幾何学を用いて,潜在空間を直接解析・操作する研究が 韓国の研究者を中心に発表されている ff ff Kim, G., Kwon, T., & Ye, J. C. (2022). Di usionclip: Text-guided di usion models for robust image manipulation. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 2426-2435). 3
潜在空間研究について ‣ Asymmetric Reverse Process(Asyrp) • [Kwon+ 22]は、拡散カーネルの中間特徴空間を、指定さ れた非対称サンプリング過程と対になった意味的潜在空間 h-space(H) として採用 • 潜在変数x̲tを直接扱うのではなく、代理変数hにのみ依存 ff Kwon, M., Jeong, J., & Uh, Y. (2022). Di usion models already have a semantic latent space. arXiv preprint arXiv:2210.10960. ICLR 2023 notable top 25% 4
Controlの研究について ‣ DragDi usion • 手法 - ユーザーが指定したポイントの移動に基づいて、UNetの中間特徴が持つセマンティックな幾何学的情報を活用し潜在変数 を更新 - 元の画像の特徴を保持するためLoRA - Reference Latent Control:一貫性を維持するため、参照となる潜在表現を制約として組み込み、潜在空間の操作を制御 • 1つの時間ステップの潜在変数のみの最適化で、効率的かつ正確な空間制御を実現 ff ff ff Shi, Y., Xue, C., Liew, J. H., Pan, J., Yan, H., Zhang, W., ... & Bai, S. (2024). Dragdi usion: Harnessing di usion models for interactive point-based image editing. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 8839-8849). 5
Controlの研究について ‣ DragDi usion ff ff ff Shi, Y., Xue, C., Liew, J. H., Pan, J., Yan, H., Zhang, W., ... & Bai, S. (2024). Dragdi usion: Harnessing di usion models for interactive point-based image editing. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 8839-8849). 6
Controlの研究について ‣ DragonDi usion • 手法 - 中間特徴間の強い対応関係を活用して、編集信号を勾配に変換する「特徴対応損失」を構築 し、中間表現を修正 - セマンティックおよび幾何学的な整合性を考慮するため、 マルチスケールガイダンスを導入 - 編集前後の画像の一貫性を維持するため、クロスブランチ・セルフアテンション機構を追加 • モデルのFTや追加のモジュールが不要 ff ff ff Mou, C., Wang, X., Song, J., Shan, Y., & Zhang, J. (2023). Dragondi usion: Enabling drag-style manipulation on di usion models. arXiv preprint arXiv:2307.02421. ICLR 2024 Spotlight 7
Controlの研究について ‣ DragonDi usion • オブジェクトの移動、サイズ変更、外観の置換、コンテンツのドラッグなどが可能 ff ff ff Mou, C., Wang, X., Song, J., Shan, Y., & Zhang, J. (2023). Dragondi usion: Enabling drag-style manipulation on di usion models. arXiv preprint arXiv:2307.02421. ICLR 2024 Spotlight 8
潜在空間を直接解析・操作 ‣ [Park+ 23a] • リーマン幾何学を用いて、得られた画像を操作するXの 意味的な潜在方向を特定 - 方向は、モデルの中間特徴空間であるXからHへの写像 のヤコビアンの特異値分解に由来 • Hの同質性を利用することで、大域的な意味方向を発見 - 面倒なサンプルごとのヤコビアン計算を除去し、一般 的な制御可能性を可能に • XとHの解析 - Xの球面線形補間は、Hにおいてほぼ測地線であるた め、サンプル間の滑らかな補間を導く - 初期のタイムステップは低周波成分を生成し、後期の タイムステップは高周波成分を生成 (既存の研究で間接的には示されている) ff Park, Y. H., Kwon, M., Jo, J., & Uh, Y. (2023a). Unsupervised discovery of semantic latent directions in di usion models. arXiv preprint arXiv:2302.12469. 9
潜在空間を直接解析・操作 ‣ 意味的方向の可視化[Park+ 23b] • プルバック計量の固有ベクトルを解析し、X内の意 味的潜在方向を特定 • これらの方向は、画像の特定の属性(例:ポー ズ、髪の色など)に対応し、編集操作に利用可能 ff Park, Y. H., Kwon, M., Choi, J., Jo, J., & Uh, Y. (2023b). Understanding the latent space of di usion models through the lens of riemannian geometry. Advances in Neural Information Processing Systems, 36, 24129-24142. 10
11
aの方 ‣ 属性変化の具体例 •データセットごとに特徴的な主成分方向が存在し、 それらの方向は高い類似性を持つ(均質性) →拡散過程の中間表現がデータセットごとに構造化 されていることを示唆 •早いタイムステップでは、少数の主要な方向が情報 を持つが、時間が進むにつれて多くの方向に情報が 広がる →拡散モデルが時間とともに情報をどのように再分 配するかを示唆 12
aの方 ‣ タイムステップ別の編集結果 13
aの方 ‣ Stable Di usionでの実験 • DDIMだけでなく、Stable Di usionでも使える ff ff 14