7.4K Views
January 12, 24
スライド概要
DL輪読会資料
“Mixtral of Experts” Yuta Sawada 1
書誌情報 ● 論文: https://arxiv.org/abs/2401.04088 ● 発行: Jan 2024 ● 概要 ○ スパース混合エキスパートモデル(SMoE)であるMixtral 8x7B ○ ほとんどのベンチマークでLlama2 70BとGPT-3.5を凌駕 ○ ファインチューニングとDPOを行ったモデルMixtral 8x7B-InstructはMTbench 8.30
Mixtral 8x7B Mistral 7BをMoEを用いて拡張したオープンソースLLM ● ライセンスはApatch 2.0で研究、商用利用ともに可能。 ● 32Kトークンのコンテキストウィンドウ ● Surpervised Fine tuningとDPOを用いて指示に従うように微調整されたチャッ トモデル Mixtral 8x7B-Instructも公開 ● 学習データは公開されず ● モデルサイズは47Bだが、推論時は13Bのみ使用。(モデルがトークンごとにパ ラメータの一部しか使用しない) ⇒ コストとレイテンシーを制御しながらモデルのパラメータを増やせる
Architecture – 全体 ✕ 32層 Transformer Block Input Embedding RMSNorm Attention RMSNorm Mixture of Experts Output
Architecture – Mixture of Experts
Architecture – Mixture of Experts (Router) Mixture of Experts 1.4 0.689 1.4 0.3 0.2 合計が1になる ように変換 TopK(2) を選択 0.1 Input Linear Softmax 0.6 0.1 0.1 0.1 0.6 0.310
Architecture – Mixture of Experts (Experts) Mixture of Experts FeedForward ✕ 0.689 FeedForward FeedForward Routerで計算し た重み(Top2)で 加重平均 FeedForward Input SwiGLU FeedForward FeedForward FeedForward FeedForward ✕ 0.310 Output
Result (Mixtral 8x7B vs Llamaシリーズ) ほぼ全ての一般的なベンチマークにおいてLlama 2 70Bの性能を上回るか、 それに匹敵する結果を得る ● 特に数学、コード生成、多言語ベンチマークにおいて上回る。 ● フランス語、ドイツ語、スペイン語、イタリア語においてLlama 70Bを大幅に 上回る
Result (Mixtral 8x7B vs Llama2 70B vs GPT-3.5) ほぼ全ての一般的なベンチマークにおいてLlama 2 70B, GPT-3.5の性能を 上回るか、それに匹敵する結果を得る(MT-benchはInstructモデル)
Result (Mixtral 8x7B-Instruct) LMSysの人間評価では、claude-2, gpt-3.5, Gemini Proを上回る唯一のオープンソ ースモデルとなっている(表は2023年12月時点のもの) ※2024年1月12日時点でも唯一のモデルとなっている
ルーティングの解析 MoEのルーターによるExpertの選択についてトークンごとに可視化し分析 仮説: 特定のドメイン(生物学や哲学など)に特化したExpertがいるのでは? ● ● ● The Pileの検証データセットを用いて各層におけるExpertsの割当の割合を可視化する(左グラフ) 結果、Arxiv, 生物学, 哲学で割り当ての分布がそこまで差異がない。数学のみ、分布が僅かに異なる Expertsの選択は、ドメインではなくむしろ構造に沿ったものであると考えられる
まとめ Mistral AIが開発したスパース混合エキスパートモデル(SMoE)である Mixtral 8x7B ● スパース混合エキスパートモデル(SMoE)であるMixtral 8x7B ● Mixtral 8x7Bは、ほとんどのベンチマークでLlama2 70BとGPT-3.5を上回るか 同等の精度を誇る。 ● ファインチューニングとDPOを行ったモデルMixtral 8x7B-InstructはMTbench 8.30を記録。 ● Expertsの選択は、ドメインではなくむしろ構造に沿ったものであると考えられ る