2.4K Views
October 30, 24
スライド概要
DL輪読会資料
OmniGen: Unified Image Genera/on 2024/10/30 Hiroto Osaka
Paper Detail q Title:OmniGen: Unified Image Generation q Author q Shitao Xiao, Yueze Wang, Junjie Zhou, Huaying Yuan, Xingrun Xing, Ruiran Yan, Shu7ng Wang, Tiejun Huang, Zheng Liu q Abstract q VAE・Transformer で構成されたシンプルなモデル q 全てのタスクを画像生成タスクとして単一のフレ ームワークで処理できる q Code q h.ps://github.com/VectorSpaceLab/OmniGen [1] OmniGen: Unified Image Generation 2
Background q q 人工汎用知能(AGI)の追求 q 単一のフレームワークで多様なタスクを処理できる生成基盤モデル q NLP における LLM (ChatGPT, Claude, Gemini...) Visual GeneraAon において、上記のようなモデルは存在していない q Text-to-Image:StableDiffusion, DALL-E, Imagen q 特定のタスク:ControlNet, T2i-Adapter, InstructPix2Pix q 包括的な知識の理解と生成能力の欠如(普遍的なモデルには必要) ① 汎用的な生成モデル「OmniGen」 ② 包括的な画像⽣成データセット「X2I」 3
OmniGen – Model Design ▍ 現状の問題点 q 能⼒拡張を⽬的としたネットワーク構造の追加 q Text-to-Image 以外への応⽤の際は追加のネットワーク 構造の設計・統合が必要 q タスク特化型のネットワーク q ネットワークは特定のタスクに依存しており、他のタ スクに再利⽤が難しい [2] Adding conditional control to text-to-image diffusion models ▍ 設計原則 q 普遍性:あらゆる形式の画像・テキスト入力を受け入れる q 簡潔性:過度に複雑な構造やコンポーネントの追加を避ける [3] Ip-adapter: Text compa;ble image prompt adapter for text-toimage diffusion models 4
OmniGen – Model Design ▍ モデルアーキテクチャ ② Transformer ③ Bidirectional Attention パッチ化された画像は全体でモデル化 ⼊⼒条件に基づいて画像を⽣成 ① VAE 画像から視覚特徴を抽出 5
OmniGen – Training Strategy ▍ 学習⽅法 q Rectified Flow を使⽤ q 変更が⽣じる領域で損失を増幅するように設計 (画像編集タスク) ▍ パイプライン q 徐々に解像度の⾼いデータを使⽤するようにしてモデルを学習 Data-Efficient Aesthe@c 6
X2I Dataset - Text to Image q X2I = Anything to Image q X2I は全体約1億枚の画像で構成されている q Text-to-Image に関して、豊富なオープンデータセットをマージして作成 q Recap-DataComp, SAM-LLaVA, ShareGPT4V, etc. q 学習の中盤以降は、⾼品質な画像のみを使⽤する q 詳細なキャプションを InternVL2 [4] により⽣成している 7
X2I Dataset - Mul?-modal to Image ▍ Common Mixed-modal Prompts q q 複数の Task からデータを収集 q Image EdiAng q Human MoAon q Virtual Try-on q Style Transfer 空間制御のための視覚条件データ q Canny, HED, Depth, Skelton, Bounding Box, SegmentaAon これらのデータをマルチモーダルな入力として受け取り、条件に従った画像を生成 8
X2I Dataset - Mul?-modal to Image ▍ Subject-driven Image Generation q q ⼤規模な基盤データセット q GRIT-Entity q Copy & Paste に陥る可能性 ⾼品質な⾼度データセット q Web Images q ノイズを VLM により検知 9
X2I Dataset - Mul?-modal to Image ▍ Computer Vision Tasks q Low-level vision tasks q q 低照度画像の強調, ぼかし除去など ▍ Few-shot to Image q 各タスクに対しランダムに例を選択 q 訓練リソースの制約で One-Shot High-level vision tasks q Canny, セグメンテーションなど 10
Experiment - Image Genera?on q プロンプト記述に従って任意のアスペクト⽐の画像を⽣成 q それぞれのタスクで競争⼒のある結果を残した q GenEval ベンチマークで評価 ➡ SD3 と同等の性能を⽰す q パラメータ数を⼤幅に削減しているところがポイント 11
Experiment - Image Genera?on ▍ Image Edit ▍ DreamBooth ▍ Visual Conditional Controls 12
Experiment - Computer Vision Tasks q Vision Tasks を処理できることを確認 q 単に視覚的条件を処理する能⼒にとどまらず、 視覚条件を解釈し新しい画像⽣成に直接応⽤できる汎⽤的な理解能⼒を備えていることを⽰す 13
Further Analysis Q: LLM と同じような汎化能⼒を持つのか? ▍ Emerging Capabilities q q タスクの明⽰的 / 暗黙的な複合化 q 別タスクの同時処理 q 同タスクの複数の指⽰ In-Context Learning q 未知のタスク q 未知のドメイン 14
Further Analysis ▍ Reasoning Ability q 明確にオブジェクトを指定しない指⽰での推論性能の確認 q 対象物を推論した後に編集などのタスクも実⾏可能 q 具現化知能分野(Robot など)での応⽤が期待される 15
Further Analysis ▍ Chain of Thought q 段階的に画像を⽣成し、徐々に画像を洗練させる Step by Step の描画プロセス q PAINTS-UNDO5 モデルを使⽤してデータセットを作成し Fine-tuning q 誤った修正を取り⼊れて最終的な画像が乱れてしまい、品質は向上せず
Limita?ons q テキストレンダリング能⼒ q q q ⻑いテキストを正確に⽣成できない 細部の正確性 q ⼈間の⼿などの細部 q 顔特徴の不⼀致 未学習の画像タイプへの対応 q 法線推定⽤の画像 17
Summary & Impression ▍ Summary q 多様なタスクを1つのモデルで処理できる OmniGen q VAE と Transformer で構成されたシンプルなアーキテクチャで、テキストと画像の任意の⼊⼒に対応 q 統一的なデータセットで学習を行うことで異なるタスク間での知識の共有と転移を可能に ▍ Impression q Transformer モデルにしかできない拡張方法 q 今後の汎用的な生成モデルへの先駆けとなる論文になりそう 18
References 1. Xiao, S., Wang, Y., Zhou, J., Yuan, H., Xing, X., Yan, R., Wang, S., Huang, T., & Liu, Z. (2024). OmniGen: Unified Image Genera7on. arXiv preprint arXiv:2409.11340. 2. Zhang, L., Rao, A., & Agrawala, M. (2023). Adding condi7onal control to text-to-image diffusion models. In Proceedings of the IEEE/CVF Interna7onal Conference on Computer Vision (pp. 3836-3847). 3. Ye, H., Zhang, J., Liu, S., Han, X., & Yang, W. (2023). Ip-adapter: Text compa7ble image prompt adapter for text-to-image diffusion models. arXiv preprint arXiv:2308.06721. 4. Chen, Z., Wang, W., Tian, H., Ye, S., Gao, Z., Cui, E., ... & Qiao, Y. (2024). How far are we to gpt-4v? closing the gap to commercial mul7modal models with open-source suites. arXiv preprint arXiv:2404.16821. 19
Appendix
Result – Text-to-Image Task 21
Result – Subject Driven Generation 22