5.6K Views
February 09, 24
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] MoE-LLaVA: Mixture of Experts for Large Vision-Language Models Yuki Tashiro, Technical University of Munich, Informatics http://deeplearning.jp/ 1
書誌情報 • タイトル︓MoE-LLaVA: Mixture of Experts for Large VisionLanguage Models • 出典︓https://arxiv.org/abs/2401.15947 • GitHub︓https://github.com/PKU-YuanGroup/MoE-LLaVA • Hugging Face︓https://huggingface.co/papers/2401.15947 • 著者︓Bin Lin, Zhenyu Tang, Yang Ye, Jiaxi Cui, Bin Zhu, Peng Jin, Junwu Zhang, Munan Ning, Li Yuan • 公開⽇時︓2024.01.29 2
3 論⽂概要 MoE-LLaVA: Mixture of Experts for Large Vision-Language Models 概要 • 課題︓LVLMでスケーリングすると精度向上するが,学習と推論コ ストも増加 • 提案︓MoE tuningを提案し,3BでLLaVA-1.5-7Bに匹敵する結果 • 貢献︓スパースLVLMのベースライン 選定理由 • MoEをVLMでも適⽤している点 • ChatGPTと同等のパフォーマンスのMixtral-8x7bでもMoE技術を 使⽤している点 • GENIACの松尾研プロジェクトをはじめとした特定のタスクの限ら れたリソースで⾼精度を出すモデルの⼀つの鍵になりそうな点 • 本モデルは 8xA100で1⽇以内で学習 MoE-LLaVAモデル図
Contribution • MoE-tuning︓Sparse化によるモデル劣化を防ぐための ⼿法を提案 • MoE-LLaVA︓MoEベースのSparse LVLMで,計算コスト を維持しながらパラメータ数を⼤幅に拡張したモデルを 提案 • マルチモーダルな理解とハルシネーションの抑制の実証 • 3Bのスパースモデルで既存の7Bのモデル性能に匹敵 4
⼿法︓モデルアーキテクチャとMoE-tuning 5 MoE Forward • feed-forward NN(FFN)をコピーし複 数のExpertsを作成 • ルーターはExpertsへの割り当て確率を 予測する線形層 • 最も⾼い確率のk個のExpertsで処理 トークンの連結 画像→[CLIP-Large]→[MLP]→ビジュアルトークン テキスト→[Word Embedding]→シーケンストークン ⽬的︓画像トークンをLLMに適応 • 画像トークンを擬似テキストトークンに • 画像を説明するように学習 • ※ここではMoEを使⽤しない ⽬的︓LLM→LVLMにチューニングさせ マルチモーダルな理解を学習 ⽬的︓スパース化 • 初期化し,FFNを複製しExpertを初期化 • ルーターはトークンとExpert間のマッチ ング重みを計算 • 各トークンは上位k個Expertで処理され 出⼒はルータの重みとかけて計算 • 無限に広くし幅広い機能を持たせられる
Ablation Study:アーキテクチャ a. モデルのFFNのみをMoE tuningすることで短時間ですべての時と同等の性能 b. Expertの数を増やすと性能が上がる c. 使⽤するExpertsの数の増やすと1時間の学習時間の増加で性能が上昇 d. MoE層と密な層を交互にすることで精度が上昇 全て学習させると学習時間は⻑く良い性能が出なかった 6
実験結果:①Zero-shot VQAタスク より少ない活性化パラメータで密なモデルと同等かそれ以上の性能を達成 SOTAモデルと同等→ 最近のVLMより良い→ 本⼿法→ 7
実験結果:②ルーティング分布 特定の⽅法でタスクを分割することができるパターンをそれぞれExpertsが学習すると⽰唆 ※ScienceQAでMoE-LLaVA-2.7B×4-Top2を通した図 8
実験結果:③ルーティング分布 ExpertごとのText・Imageの分布が近い →モデルが異なるモダリティを同様に処理していることを⽰唆 9
実験結果:④Token Pathway Experts別で特徴的な分布あり →特定の⽅法でタスクを分割可能な特定のパターンを学習 ex)Expert3が深めの層で⽀配的に学習しているなど 10
Limitation • 16bitでは学習が不安定 • 活性化パラメータは少ないがそれより⼤きい実際のモデルをVRAMに載せる必要がある ためハイメモリのGPUが必要 11
12 まとめ • 3BでLLaVA-1.5-7Bと同等の性能 • ⼩規模モデルで⼤規模モデルに匹敵できる • 異なる能⼒に特化した複数のExpertsがあるため, マルチタスク・マルチモーダルな拡張を容易に可能 感想 • MoEは⽐較的⻑い歴史(1991)があり2012以前の研究は興味深い • MoEはマルチモーダル化・特化型など⾊々応⽤できそう • 2/4にSegMoEというStable Diffusionに応⽤したものが発表される • ⾊々な⼩規模LLMにMoE tuningを⾏なっているため引き続きgithubを追跡したい • 現在 LLaVA-1.6を学習させているらしい
Appendix:使⽤したデータセット 13
Appendix:Ablation Study(LLaVAでないモデル) 他の⾼効率モデルでも性能が向上 14
15 参考⽂献 • 本論⽂︓https://arxiv.org/abs/2401.15947 • SegMoE︓https://huggingface.co/blog/segmoe • • Mixtral 8x7B︓https://mistral.ai/news/mixtral-of-experts/ • • ⽇本語解説記事︓https://note.com/npaka/n/nd2902893150b Paper︓https://arxiv.org/abs/2401.04088v1 Mixture of Expertsのまとめ記事︓https://huggingface.co/blog/moe