【DL輪読会】MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

6.6K Views

February 09, 24

#MoE-LLaVA #Mixture of Experts #大規模言語モデル #視覚言語モデル #MoE-tuning

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 84.7K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 54.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 38.9K

【拡散モデル勉強会】拡散モデルのサンプラーまとめ

Deep Learning JP 33.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 32K

各ページのテキスト

DEEP LEARNING JP [DL Papers] MoE-LLaVA: Mixture of Experts for Large Vision-Language Models Yuki Tashiro, Technical University of Munich, Informatics http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • タイトル︓MoE-LLaVA: Mixture of Experts for Large VisionLanguage Models • 出典︓https://arxiv.org/abs/2401.15947 • GitHub︓https://github.com/PKU-YuanGroup/MoE-LLaVA • Hugging Face︓https://huggingface.co/papers/2401.15947 • 著者︓Bin Lin, Zhenyu Tang, Yang Ye, Jiaxi Cui, Bin Zhu, Peng Jin, Junwu Zhang, Munan Ning, Li Yuan • 公開⽇時︓2024.01.29 2

3 論⽂概要 MoE-LLaVA: Mixture of Experts for Large Vision-Language Models 概要 • 課題︓LVLMでスケーリングすると精度向上するが，学習と推論コストも増加 • 提案︓MoE tuningを提案し，3BでLLaVA-1.5-7Bに匹敵する結果 • 貢献︓スパースLVLMのベースライン選定理由 • MoEをVLMでも適⽤している点 • ChatGPTと同等のパフォーマンスのMixtral-8x7bでもMoE技術を使⽤している点 • GENIACの松尾研プロジェクトをはじめとした特定のタスクの限られたリソースで⾼精度を出すモデルの⼀つの鍵になりそうな点 • 本モデルは 8xA100で1⽇以内で学習 MoE-LLaVAモデル図

Contribution • MoE-tuning︓Sparse化によるモデル劣化を防ぐための⼿法を提案 • MoE-LLaVA︓MoEベースのSparse LVLMで，計算コストを維持しながらパラメータ数を⼤幅に拡張したモデルを提案 • マルチモーダルな理解とハルシネーションの抑制の実証 • 3Bのスパースモデルで既存の7Bのモデル性能に匹敵 4

⼿法︓モデルアーキテクチャとMoE-tuning 5 MoE Forward • feed-forward NN(FFN)をコピーし複数のExpertsを作成 • ルーターはExpertsへの割り当て確率を予測する線形層 • 最も⾼い確率のk個のExpertsで処理トークンの連結画像→[CLIP-Large]→[MLP]→ビジュアルトークンテキスト→[Word Embedding]→シーケンストークン⽬的︓画像トークンをLLMに適応 • 画像トークンを擬似テキストトークンに • 画像を説明するように学習 • ※ここではMoEを使⽤しない⽬的︓LLM→LVLMにチューニングさせマルチモーダルな理解を学習⽬的︓スパース化 • 初期化し，FFNを複製しExpertを初期化 • ルーターはトークンとExpert間のマッチング重みを計算 • 各トークンは上位k個Expertで処理され出⼒はルータの重みとかけて計算 • 無限に広くし幅広い機能を持たせられる

Ablation Study：アーキテクチャ a. モデルのFFNのみをMoE tuningすることで短時間ですべての時と同等の性能 b. Expertの数を増やすと性能が上がる c. 使⽤するExpertsの数の増やすと1時間の学習時間の増加で性能が上昇 d. MoE層と密な層を交互にすることで精度が上昇全て学習させると学習時間は⻑く良い性能が出なかった 6

実験結果：①Zero-shot VQAタスクより少ない活性化パラメータで密なモデルと同等かそれ以上の性能を達成 SOTAモデルと同等→ 最近のVLMより良い→ 本⼿法→ 7

実験結果：②ルーティング分布特定の⽅法でタスクを分割することができるパターンをそれぞれExpertsが学習すると⽰唆 ※ScienceQAでMoE-LLaVA-2.7B×4-Top2を通した図 8

実験結果：③ルーティング分布 ExpertごとのText・Imageの分布が近い →モデルが異なるモダリティを同様に処理していることを⽰唆 9

10.

実験結果：④Token Pathway Experts別で特徴的な分布あり →特定の⽅法でタスクを分割可能な特定のパターンを学習 ex)Expert3が深めの層で⽀配的に学習しているなど 10

11.

Limitation • 16bitでは学習が不安定 • 活性化パラメータは少ないがそれより⼤きい実際のモデルをVRAMに載せる必要があるためハイメモリのGPUが必要 11

12.

12 まとめ • 3BでLLaVA-1.5-7Bと同等の性能 • ⼩規模モデルで⼤規模モデルに匹敵できる • 異なる能⼒に特化した複数のExpertsがあるため，マルチタスク・マルチモーダルな拡張を容易に可能感想 • MoEは⽐較的⻑い歴史（1991）があり2012以前の研究は興味深い • MoEはマルチモーダル化・特化型など⾊々応⽤できそう • 2/4にSegMoEというStable Diffusionに応⽤したものが発表される • ⾊々な⼩規模LLMにMoE tuningを⾏なっているため引き続きgithubを追跡したい • 現在 LLaVA-1.6を学習させているらしい

13.

Appendix：使⽤したデータセット 13

14.

Appendix：Ablation Study（LLaVAでないモデル）他の⾼効率モデルでも性能が向上 14

15.

15 参考⽂献 • 本論⽂︓https://arxiv.org/abs/2401.15947 • SegMoE︓https://huggingface.co/blog/segmoe • • Mixtral 8x7B︓https://mistral.ai/news/mixtral-of-experts/ • • ⽇本語解説記事︓https://note.com/npaka/n/nd2902893150b Paper︓https://arxiv.org/abs/2401.04088v1 Mixture of Expertsのまとめ記事︓https://huggingface.co/blog/moe