【DL輪読会】mHC: Manifold-Constrained Hyper-Connections

-- Views

February 05, 26

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

mHC: Manifold-Constrained Hyper-Connections Hiroyuki Matsushima, Matsuo・Iwasawa Lab 1

2.

書誌情報 mHC: Manifold-Constrained Hyper-Connections ● Author: Zhenda Xie, Yixuan Wei, Huanqi Cao et al. (DeepSeek-AI) ● Preprint ( Arxiv: https://arxiv.org/abs/2512.24880) TL;DR ○ 拡張された残差接続を用いて大規模言語モデルのパフォーマンスを安定化・向上させるための アーキテクチャである多様体制約付きハイパーコネクション (Manifold-Constrained Hyper-Connections, mHC) を開発。 ○ このアプローチは、多様体制約とインフラ最適化を組み合わせることで、安定した信号伝播を 確保。これにより、6.7%の学習時オーバーヘッドで下流タスクのパフォーマンスが向上。 2

3.

Executive Summary mHCは、Hyper-Connections (HC) の高い表現力を維持しつつ、多様体制約とシステム 最適化により、大規模学習における安定性と拡張性の課題を解決するフレームワーク。 ● 背景 a. 従来の残差接続を発展させたHyper-Connections (HC) は性能向上をもたらすが、恒等写像の性質 を損ない、大規模学習での不安定さとメモリコストの増大を招いていた。 ● 提案手法 a. 残差接続行列を「二重確率行列」の多様体上に射影することで、信号の爆発・消失を防ぎ、 恒等写像の特性を復元する。 ● 成果 a. 27Bモデルでの実験において、HCと比較して学習が安定し、下流タスクでの性能が向上。 システムオーバーヘッドもわずか6.7%増に抑制。 3

4.

背景 従来の残差接続パラダイムはLLMアーキテクチャの基盤となってきた。一方で、表現力向上 のために導入されたHyper-Connectionsは、構造的な不安定さを持っている。 ResNet (He et al., 2016a) ● Hyper Connections(HC) (Zhu et al., 2024) ○ ○ 残差接続の幅を次元C -> n×C に拡張 3つの学習可能な行列でn本の 情報を混合 4

5.

課題 HCは、深層化に伴う勾配爆発 / 勾配消失と、拡張されたストリームによる深刻なメモリアクセス負荷 という二重の課題を持つ。 勾配ノルムが不安定に 層を重ねると信号が極端に増幅 5

6.

Manifold-Constrained HC (mHC) の概要 mHCは、残差接続を制御する行列を多様体( Birkhoff多面体)上に射影することで、 二重確率行列に制約し、信号のエネルギーを保存。安定性を数学的に保証する。 ● ● ● : すべての1のn次元ベクトル : 2重確率行列 : 2重確率行列の多様体 メリット 1. 2. 3. ノルム保存 : 最大特異値が1以下に制限され、勾配爆発・消失を防ぐ。 合成の閉包性 : 二重確率行列同士の積もまた二重確率行列となるので、層が深 くなっても安定性が保たれる。 幾何学的解釈 : この制約は行列をBirkhoff多面体上に射影することを意味 する。残差ストリーム間の情報の混合を「置換行列の凸結合」として扱うことで信 号ノルムを保存する。 6

7.

アルゴリズム詳細: Sinkhorn-Knoppの適用 学習可能な行列に対し、 Sinkhorn-Knoppアルゴリズムを適用することで、効率的に多様体制約を満 たす行列へと変換する。 パラメータ化 ● HCと同様に動的・静的な係数を用いて を生成する。 射影プロセス 行列の全要素を指数関数で正にする。 2. Sinkhorn-Knoppアルゴリズム a. 行と列の正規化(和を1にする操作)を交互に繰り返す。 3. 反復回数 20回で二重確率行列に収束したと仮定して打ち切る。 その他の制約 ● 入力マッピング と出力マッピング にはSigmoid関数を適用し、非 負制約を課すことで信号の打ち消し合いを防ぐ。 1. 7

8.

メモリウォール問題 n=4本の残差ストリーム拡張は、理論上の性能向上と引き換えにメモリアクセス負荷を招く。 パラメータ化 ● 追加される線形写像の計算量自体は軽微だが、メモリアクセスのデータ移動がボトルネック となり、学習効率を劇的に低下させる。 その他 ● 学習パラメータの増加に より、 バックプロパゲーション用の中間 活性値がGPUメモリを 圧迫。 ● パイプライン並列化時の 通信量も n 倍になり、 通信待機時間が増大。 8

9.

インフラ最適化 (1) mHCの計算コストを相殺するため、 RMSNormの最適化や TileLangを用いたカーネル融合 、混合精度演算により、メモリアクセス効率を最大化する。 ● RMSNormの最適化 ○ 高次元隠れ状態に対するRMSNormの除算を行列積の後に移動し、レイテンシを削減。 ● カーネル融合 ○ 入出力のスキャン操作や、係数計算などの軽量な演算を単一カーネルに融合し、 メモリ帯域幅のボトルネックを解消。 ○ Sinkhorn-Knoppの反復計算も単一カーネル内で処理。 ● 実装 ○ TileLangフレームワークを活用し、エンジニアリング工数を抑えつつハードウェア性能を引き出 す。 9

10.

インフラ最適化 (2) メモリ使用量を削減する選択的な再計算と、通信待機時間を隠蔽する DualPipeの拡張 により、大規模学習のスループットを維持する。 ● 再計算 ○ 拡張された残差ストリームの中間状態の計算結果を保存するとメモリが溢れるため、 誤差逆伝播時にリアルタイムで再計算する。 ○ 層ごとのブロック単位で再計算を行い、メモリ使用量と計算コストの トレードオフを最適化。 ● DualPipeによる通信隠蔽 ○ パイプライン並列化における通信と計算を同時に行うDeepSeek-V3の DualPipeスケジュールを拡張。 ○ MLP層の計算を最優先のストリームに流すなどの工夫により、mHCの追加コストによる処 理が停滞するのを防ぐ。 10

11.

実験設定 DeepSeek-V3アーキテクチャをベースにした MoEモデル(最大 27B)を用い、ベースライン、 HC、 mHCの比較検証を行う。 ● モデル構成 ○ DeepSeek-V3ベースのMixture-of-Experts (MoE) ● サイズ ○ 3B, 9B, 27Bパラメータのモデルでスケーリングするかを検証。 ● 設定 ○ 拡張率 n=4 を採用。比較対象は標準的なベースラインと制約なしのHyper-Connections ● 評価軸 ○ 学習の安定性、下流タスク性能、スケーリング挙動、誤差逆伝播の安定性 11

12.

実験結果 (1) mHCはHCで見られた損失のスパイクや勾配の不安定さを解消し、ベースラインと同等の安定性を実 現した。 図5 学習安定性の比較。(a)Lossの絶対値誤差と(b)学習ステップ中の勾配ノルムを示す。 mHCは安定した学習を維持する一方、HCは著しい不安定性を示す。 12

13.

実験結果 (2) レイヤーごとの信号増幅率を分析した結果、 mHCはHCと比較して勾配爆発を抑制できている ことが確認された。 3000倍 Visualizations of Learnable Mappings 1.6倍 13

14.

実験結果 (3) mHCは安定性だけでなく性能面でも優れており、主要なベンチマークにおいて ベースラインを上回るスコアを記録した。 HCおよび 残差接続内における情報のmixingが推論能力向上に寄与していることを示唆 14

15.

実験結果 (4) 計算量とトークン数の両方のスケーリングにおいて、 mHCは一貫してベースラインに対する 優位性を維持する。 3B → 27Bへモデルサイズを拡大 学習トークン数を増加 15

16.

まとめ mHCは、HCが持つトポロジー設計の利点と、多様体制約による数学的な安定性を融合。 インフラ最適化と組み合わせて安定した性能の向上やスケーリング性を実証した。 • HCの恒等写像特性の欠如という課題を、mHCは二重確率行列への射影で解決。 • カーネル融合やDualPipe拡張などのインフラ最適化で、4倍の拡張率でもオーバーヘッドを6.7%に抑制。 • 27Bモデルでの検証により、安定性、性能、スケーリング性を実証。 ● Future Work ○ 二重確率行列以外の多様体制約の探求による、可塑性と安定性のトレードオフ最適化。 ○ トポロジー的なマクロアーキテクチャ設計の重要性の再評価。 16

17.

Discussion 再現実装に基づく issue では、残差マッピング行列は学習せず、学習した場合でも深さ方向のマルコフ 混合により残差接続が均一化されることが報告されている。 マッピング行列の学習が進まなくても、mHC は安定化効果を持ちうることが示唆される。 図①: τ=0.05, 500 steps, 48層の学習後 https://github.com/tokenbender/mHC-manifold-constrained-hyper-conn ections/issues/2 図②: τ=0.5, 500 steps, 48層の学習後 図③: Cumulative H_res → uniform 17