【DL輪読会】Mixtral of Experts

5.6K Views

January 12, 24

#Mixtral 8x7B #大規模言語モデル #スパース混合エキスパートモデル #SMoE #オープンソース

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.4K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.1K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 49.4K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.1K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 46.8K

各ページのテキスト

“Mixtral of Experts” Yuta Sawada 1

書誌情報 ● 論文: https://arxiv.org/abs/2401.04088 ● 発行: Jan 2024 ● 概要 ○ スパース混合エキスパートモデル(SMoE)であるMixtral 8x7B ○ ほとんどのベンチマークでLlama2 70BとGPT-3.5を凌駕 ○ ファインチューニングとDPOを行ったモデルMixtral 8x7B-InstructはMTbench 8.30

https://arxiv.org/abs/2401.04088

Mixtral 8x7B Mistral 7BをMoEを用いて拡張したオープンソースLLM ● ライセンスはApatch 2.0で研究、商用利用ともに可能。 ● 32Kトークンのコンテキストウィンドウ ● Surpervised Fine tuningとDPOを用いて指示に従うように微調整されたチャットモデル Mixtral 8x7B-Instructも公開 ● 学習データは公開されず ● モデルサイズは47Bだが、推論時は13Bのみ使用。(モデルがトークンごとにパラメータの一部しか使用しない) ⇒ コストとレイテンシーを制御しながらモデルのパラメータを増やせる

Architecture – 全体 ✕ 32層 Transformer Block Input Embedding RMSNorm Attention RMSNorm Mixture of Experts Output

Architecture – Mixture of Experts

Architecture – Mixture of Experts (Router) Mixture of Experts 1.4 0.7 1.4 0.3 0.2 TopK(2) を選択 0.1 Input Linear Softmax 0.6 0.1 0.1 0.1 0.6 0.3

Architecture – Mixture of Experts (Experts) Mixture of Experts FeedForward ✕ 0.7 FeedForward FeedForward Routerで計算した重み(Top2)で加重平均 FeedForward Input SwiGLU FeedForward FeedForward FeedForward FeedForward ✕ 0.3 Output

Result (Mixtral 8x7B vs Llamaシリーズ) ほぼ全ての一般的なベンチマークにおいてLlama 2 70Bの性能を上回るか、それに匹敵する結果を得る ● 特に数学、コード生成、多言語ベンチマークにおいて上回る。 ● フランス語、ドイツ語、スペイン語、イタリア語においてLlama 70Bを大幅に上回る

Result (Mixtral 8x7B vs Llama2 70B vs GPT-3.5) ほぼ全ての一般的なベンチマークにおいてLlama 2 70B, GPT-3.5の性能を上回るか、それに匹敵する結果を得る(MT-benchはInstructモデル)

10.

Result (Mixtral 8x7B-Instruct) LMSysの人間評価では、claude-2, gpt-3.5, Gemini Proを上回る唯一のオープンソースモデルとなっている(表は2023年12月時点のもの) ※2024年1月12日時点でも唯一のモデルとなっている

11.

ルーティングの解析 MoEのルーターによるExpertの選択についてトークンごとに可視化し分析仮説: 特定のドメイン(生物学や哲学など)に特化したExpertがいるのでは？ ● ● ● The Pileの検証データセットを用いて各層におけるExpertsの割当の割合を可視化する(左グラフ) 結果、Arxiv, 生物学, 哲学で割り当ての分布がそこまで差異がない。数学のみ、分布が僅かに異なる Expertsの選択は、ドメインではなくむしろ構造に沿ったものであると考えられる

12.

まとめ Mistral AIが開発したスパース混合エキスパートモデル(SMoE)である Mixtral 8x7B ● スパース混合エキスパートモデル(SMoE)であるMixtral 8x7B ● Mixtral 8x7Bは、ほとんどのベンチマークでLlama2 70BとGPT-3.5を上回るか同等の精度を誇る。 ● ファインチューニングとDPOを行ったモデルMixtral 8x7B-Instructは MT-bench 8.30を記録。 ● Expertsの選択は、ドメインではなくむしろ構造に沿ったものであると考えられる