【DL輪読会】From Sparse to Soft Mixtures of Experts

1.9K Views

October 06, 23

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP From Sparse to Soft Mixtures of Experts スパース MoE から完全微分可能な ソフト MoE へ [DL Papers] Takayuki Yamamoto(LY Corporation, Waseda Univ. Kawahara Lab. D1) http://deeplearning.jp/ 1

2.

書誌情報 タイトル: From Sparse to Soft Mixtures of Experts スパースMoEから、完全微分可能なソフトMoEへ https://arxiv.org/abs/2308.00951 2023/9/2 著者: 概要: 完全微分可能なMoE手法の提案 選定理由: • • GPT-4に Mixture of Experts (=MoE) が使用されているというリーク情報による興味 MoEは単一モデルの大規模化を超えたメリットの可能性がある 実装: https://github.com/google-research/vmoe ※出典記載の無い図表は本論文からの引用 2

3.

既存研究の課題  Transformer を大きくすると、性能は向上するものの計算コストが増加する  それを改善する為の既存手法スパース  Expert MoE には次の課題がある 決定手法の離散最適化問題  訓練の不安定性 3

4.

当研究が解決した課題と成果概要  完全微分可能な Soft-MoE というアーキテクチャを提案  計算量あたりの性能を、既存手法に比べて改善  小規模モデルで、大規模モデル同等の性能  小規模モデルでも( MoE 化で) パラメータ数は多いが、推論速度は逆に早い 4

5.

関連研究:Meta の MoE の論文  Scaling Expert Language Models with Unsupervised Domain Discovery, 2023  入力コンテキストに近いクラスタを担当する Experts を使ってアンサンブル ※当論文は、輪読論文で Reference されていないが、図が分かりやすいため輪読者が掲載 5

6.

関連研究:Tokens Choice 方式の MoE  Scaling Vision with Sparse Mixture of Experts, 2021  各Expert に送られる Tokens を選択する方式 6

7.

関連研究:Tokens Choice 方式の MoE  Scaling Vision with Sparse Mixture of Experts, 2021 FFN(MLP)を置き換えている 7

8.

関連研究:Expert Choice 方式の MoE  Mixture-of-Experts with Expert Choice Routing, 2022  各 Token をどの Expert に送信するかを選択する方式 8

9.

当論文の MoE 既存手法との違い  既存手法は選択した Token を 各 Expert の Slot にアサイン  提案手法は全 Token 毎に重みがあり、各 Expert は全ての Token × 重みを Slots で受け取る 既存手法 提案手法 9

10.

当論文の MoE  最初のMoE層のSlotとの線形結合Weightを可視化 Soft MoE S/16 の 128の Experts から8つを選択し抜粋。Token 毎に重みが異なる事が確認できる 10

11.

手法 全体図 11

12.

手法 数式 次ページから 図と共に説明 12

13.

手法 入力側 抜粋 𝑑:次元 𝑑:次元 𝑝:Slot数/Expert 𝑚 𝑛×𝑝 𝑛  行列の次元数を[行,列]で表す  入力Token:X=[m,d]  slot数=n×p  学習パラメータ:φ=[d,slot]  Xφ=[m,slot]  D=softmax(Xφ) [m,slot] (m方向にsoftmax)  iがm方向、jがslot方向  ෨ 𝑋=Input側Slot [slot,m]  𝑋෨ =𝐷 𝑇 X = [slot,m]×[m,d]=[slot,d]  𝑋෨ は各slotの値 [slot,d] 13

14.

手法 Expert 処理部 抜粋 𝑑:次元 𝑑:次元 𝑝:Slot数/Expert  𝑋෨ はInput側の各slotの値 [slot,d]  各Input側Slotの値は、対応するExpertに入力され 処理され、Output側Slot値 𝑌෨ [slot,d]となる  各Expertは、対応するSlotからd次元 の入力を受 けてd次元の出力を返す構造  当論文でのExpertの構造はMLPと記載があるが、 具体的な層数や中間層の次元数などの記載はない。 推定であるが中間層が1層で次元数はdと思われる。 𝑛×𝑝 𝑛 𝑖:各Expert番号 𝑖:各slot番号 𝑝:ExpertあたりSlot数 14

15.

手法 出力側 抜粋 参考:前ページD 𝑑:次元 𝑚 𝑛×𝑝  Output側Slot値 𝑌෨ [slot,d]  Combine Weights:C=softmax(Xφ) [m.slot]  先程のDとの違いは、Σのjをn・pで、softmaxの方向が違う n×p方向なので、全Slots合計が1になるように  output Token:Y= C 𝑌෨ [m,slot]×[slot,d]⇒[m,d] 15

16.

提案手法の特徴  完全微分可能  Token の取りこぼしや Expert のアンバランスがない  高速:Sparse  Sparse 手法(既存)に必要な低速な Sort や Top-k が不要 手法(既存)は Expert 数がスケールできず大抵の研究が数十個  提案手法は、Expert 数がスケール可能で数千まで可能 16

17.

学習・評価方法   実験タスク:Vision-Transformer による画像認識  JFT-4Bタスク ( google内部データセットで4B以上の画像、29k以上のクラスラベル)  ImageNetタスク プレトレーニング    データセット:JFT-4Bで学習 validation  JFT-4B validation precision@1とImageNet 10-shot accuracyで実施  ImageNetはモデル重み凍結し、分類ヘッドを付け各クラス10枚の画像で学習し評価 評価  ImageNet-1kの train セット(130万枚)でファインチューニングし、val セットで評価 17

18.

実験① パレートモデル実験 結果  提案手法は学習計算量に対して精度が高い 提案手法:青 パレートモデル 18

19.

実験②   計算量固定で最適構成探索と改善理由解明 実験結果 同じ計算量だと、Expert 数を増やし、Slots / Expert を減らした方が提案手法は精度が高い 既存手法は、Expert 数を増やすと学習時間が大幅に増加するが、提案手法はほぼ横ばい Expert 数による性能 (総計算量固定) 学習時間 提案手法:青 * 最後の2層に MoE を持つ ViT-S/16 で実験 19

20.

結論 (ディスカッション)  Sparse 手法(既存)は、計算量の課題に直面する可能性があり、普及が 遅れているのではないか  Sparse 手法(既存)は、元々巨大なモデルから解き放つ為に考案された ので、分散される傾向があり、通信コストがかかる  提案手法( Soft-MoE )にも上記は当てはまるが、最新の高密度モデルは 十分大きく分散も可能である為、この観点での課題は減少している 20

21.

輪読者考察 Attention との類似性 Self-Attention数式 𝑑:次元 𝑑:次元 𝑛×𝑝 D は𝑠𝑜𝑓𝑡𝑚𝑎𝑥(  ただし、 𝑑𝑘の分母に相当するものはない  𝑋෨ = 𝐷 𝑇 𝑋 は、 Vの部分が X 即ち入力になっているの で類似  という事は次のようなAttentionと考えられる 𝑝:Slot数/Expert 𝑚 𝑄𝐾𝑇 ) と類似 𝑑𝑘  𝑛   QとV → X(入力)  K →φ(ルーティングテーブル) Expert が Transformer でいう FFN 部だとすると、 FFN部 が マルチヘッド的な Expert になっていて、 そこへのルーティング重みがAttention 構造で行わ れている。という事(?) 21

22.

輪読者 感想  Transformerの層の重ね方やFFNのあり方に対する議論なのでは  ViTの後半の層に MoE という事は、前半が表現学習の Transformer、 後半が意味合い変換の Soft-MoE という層構成が最適という事か  画像の場合はこの構造でも良いが、系列が重要な LLM に応用する場 合は、各 Expert が系列を処理できる構造にする必要がありそう  LLM系タスクの場合は、ExpertがMLPではなく、ここも Transformer構造が必要なのでは? 22

23.

Thank you. 23