4K Views
April 04, 24
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] MoAI: Mixture of All Intelligence for Large Language and Vision Models Kim Yongmin, M2, Yamashita・An Lab, The University of Tokyo http://deeplearning.jp/ 1
書誌情報 § タイトル: MoAI: Mixture of All Intelligence for Large Language and Vision Models § 著者: Byung-Kwan Lee, Beomchan Park, Chae Won Kim, and Yong Man Ro § 所属: Korea Advanced Institute of Science and Technology (KAIST) § 発表⽇: 2024/03/12 (arxiv) § 概要: VLMに外部のCVモジュールから多様な視覚的な情報を活⽤して,精度を向上 § 選定理由: 複数の⼩さい外部モジュールを融合して,精度を⼤幅に向上して,話題 新しいパラダイムになる可能性あり § 実装: https://github.com/ByungKwanLee/MoAI 2
概要 § 既存のVLMは画像中にある詳細な情報を捉えるのが苦⼿ 3
概要 § 本研究では複数の外部のCVモジュールを内部に打ち込んで,効率的(MoE)に⽤いて,性能を向上 § ⼩さいCVモジュールを融合することで,Open-sourceモデルでSOTAを達成. § Closed モデルにおいても,⼀部のベンチマークではSOTAを達成 各種ベンチマークの性能評価 4
⼿法 § 今回の⼿法は⼀つのモジュールではなくて,複数のモジュールを効率的(MoE)に内部に融合 特徴融合 & VLM本体 画像特徴部 ⾔語特徴部 CV モジュール部 モデルの全体図 5
⼿法 § 画像および⾔語の基盤モデル § Vison Backbone: CLIP-L/14 § Language Backbone: InternLM-7B CLIP-L/14 InternLM-7B 6
⼿法 § CVモジュール § Panoptic Segmentation (PS) (Instance Segmentation + Segmentation) § Open-World Object Detection (OWOD) § Scene Graph Generation (SGG) § Optical Character Recognition (OCR) § CVモジュールの出⼒を全て,⾔語化(Verbalization)して,⾔語トークンモとしてモデルに挿⼊ 7
⼿法 § Panoptic Segmentation (PS) – Mask2Former (model size: 106M) § 物体の位置情報 Bounding Box 抽出 結果の⾔語化 𝐴!" Auxiliary Token Segmentation結果を Flattenして挿⼊ 8
⼿法 § Open-World Object Detection (OWOD) – OWLv2 (model size:154M) § PSモデルは検出可能な物体クラスに限界が存在 → PSモデルで検出できなかったものを検出して,補助 結果の⾔語化 𝐴#$#% OWODのAuxiliary Token 9
⼿法 § Scene Graph Generation (SGG) – panoptic SGG (model size: 44M) § 画像中にあるものらの関係情報 結果の⾔語化 𝐴"&& SGGのAuxiliary Token 10
⼿法 § Optical Character Recognition (OCR) – PaddleOCRv2 (model size: 18M) § 画像の中にあるテキスト情報 結果の⾔語化 𝐴#'( OCRのAuxiliary Token 11
⼿法 § これらのAuxiliary Tokensを𝐴(固定⻑)に圧縮して,MoAI-Mixer (VLMの本体) に挿⼊ § MoAI-Compressor: Transformer Encoder, 𝐴)*+,- : Compressed Learnable Tokens (固定⻑) 12
⼿法 § ⼊⼒は𝐴, 𝐼𝑀𝐺, 𝐿𝐴𝑁𝐺3つが存在 § この3つの組み合わせるExpertモジュール (Cross Attention, Self-Attention) をそれぞれの6つ採⽤ 例)AUX(k/v) + IMG(q) → 𝐼./0 , IMG(k/v) + LANG(q) → 𝐿12& § Expertを明⽰的に定義* 画像特徴 ⾔語特徴 13
⼿法 § これらの6つのExpertを⾔語と画像に分けて,Mixture of Expert (MoE)で選択 § MoEで出⼒されたものをTransformer Decoder Blockに挿⼊ § Transformer Decoder BlockにはLoRAを⽤いて,軽量化 14
⼿法 § Visual Instruction tuningで訓練 § 学習の安定化のために2つのステップに分けて訓練 1. MoeのGating Networkは訓練せず,各Expertをサンプリングして,全てのExpertを学習 2. MoEのGating Network込みで全体を訓練する 15
実験結果 § 各種ベンチマークでの結果 (Zero-shot) § 全てのデータセットでの評価でOpen VLMsの中でもっともいい性能( は例外) § ⼤きいサイズモデルと⽐較しても,性能がいい 代表的なVLMs InternLM-7B ベースのVLM 提案⼿法 16
実験結果 § もっと⼤きいモデルとClosedモデルらとの⽐較 (Zero-shot) § 複数のベンチマークで,もっと⼤きなモデルとClosedモデルらに対しても,⾼い性能を達成 ス コ ア パラメータ数 17
実験結果 § Ablation Study 位置情報 X 関係情報 X ⽂字情報 X 提案⼿法 § Ablation項⽬ § PS+OWOD: Existence,RecognitionとLocalizationが⼤幅に減少 (ものがあるかないか,認識) § SGG: PositionとSpatialが⼤幅いに減少 (空間配列) § OCR: OCRとTT(Text Translation)が⼤幅に減少 (⽂字認識) 18
実験結果 § Ablation Study § Ablation項⽬ § Training step choice § First: MoEをランダムサンプリングして訓練 § Second: Moeとモデルを同時に訓練 § Combined: First → Second § Selecting Top-k Experts: MoEで何個のExpertを採⽤するか § Gating network weights: MoeのGate Networkの重み 19
実験結果 § 実際の例 20
まとめ § 外部のCVモジュールを融合することで,効率的に精度を⼤幅に向上 § モデルサイズと⼤規模なデータセットより,シーンの精密な理解することがもっと重要 § ものを正確に認識して,それらの関係を把握することがキーポイント § もっと多様なモジュールを融合することを期待 21
感想 § Model Mergingの相違点 § 異なる構造を持ったモデルらを結合することが可能 § 学習コストが⾼いが,もっと多様性のあるモデルが作成可能 § モデルMergingより,説明性が⾼い § あるドメインに特化した⼩規模なモデルを融合することが新しいパラダームになる可能性が⾼い § VLMだけではなく,LLMドメインでの研究[Bansal+ 2024] 22
参考⽂献 § [2024 Bansal+]: R. Bansal et al., “LLM Augmented LLMs: Expanding Capabilities through Composition.” arXiv, Jan. 04, 2024. Accessed: Jan. 11, 2024. [Online]. Available: http://arxiv.org/abs/2401.02412 23