【論文サーベイ】Model Merging in the Parameter Space

503 Views

January 13, 25

#モデルマージ #言語モデル #機械学習 #深層学習 #パラメータ効率

スライド概要

tf63

@8590143908

スライド一覧

Web Developer / Research on generative models and continual learning

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【論文紹介】Classifier-Free Diffusion Guidance

tf63 13.4K

【論文紹介】Instant Neural Graphics Primitives with a Multiresolution Hash Encoding

tf63 8.7K

【論文サーベイ】Data Augmentation With Diffusion Models

tf63 8K

MLやってる人向けに最低限理解してほしいDocker勉強会

tf63 6.2K

【論文サーベイ】Score-Based Generative Model

tf63 5.6K

【論文サーベイ】Stochastic Differential Equations and Diffusion Models

tf63 4.7K

各ページのテキスト

Model Merging in the Parameter Space Merging Models with Fisher-Weighted Averaging M. Matena, C. Raffel [NeurIPS’22] TIES-Merging: Resolving Interference When Merging Models P. Yadav, D. Tam, L. Choshen, C. Raffel, M. Bansal [NeurIPS’23] Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch L. Yu, B. Yu, H. Yu, F. Huang, Y. Li [ICML’24] 1

Background Task Vector [ICLR’23] - 事前学習モデルと FineTune モデルのパラメータの差分を Task Vector と定義する - Task Vector の算術によりタスクの学習･忘却が可能 2

Merging Models with Fisher-Weighted Averaging M. Matena, C. Raffel [NeurIPS’22] - Fisher-Merge と呼ばれる手法 - パラメータパラメータ - で表される個のモデルをマージしてを持つモデルを作ることが目標パラメータごとの重要度を加味してマージする 3

https://openreview.net/pdf?id=LSKlp_aceOC

Isotropic Merging - - - 各モデルの事後分布精度行列を意味するに Isotropic Gaussian を仮定する個のモデルのマージを次の最適化問題と考える解は平均化マージになっている 4

Isotropic Merging (Per-model weights) - 各モデルの事後分布 - 重み - 解はに Isotropic Gaussian を仮定するを考慮した最適化問題を考える重み付きマージになっている 5

Laplace Approximation の導入 - 平均化マージはモデルの事後分布にIsotropic Gaussian を仮定していた - この仮定は単純すぎて性能劣化につながる - Laplace Approximation を導入 - 対数尤度関数をモード周辺でテイラー展開(2次近似) する 6

補足: 対数尤度関数の Laplace Approximation - モード - 両辺の対数を外すと - 周辺でのテイラー展開を考えるを精度行列 (分散･共分散行列の逆行列) とする Gaussian による近似 7

Fisher Matrix - スコア関数 - ニューラルネットワークの分散を Fisher 情報量 (多変量の場合 Fisher Matrix) というの Fisher Matrix は次で得られると同じ形 - Fisher 情報量は直感的にはパラメータの重要度を表す - Fisher 情報量が大きいそのパラメータを動かすとがばらつく 8

Fisher Merge - 各モデルの Fisher Matrix を計算し Fisher Matrix を精度行列とする事後分布 - - を仮定する個のモデルを合わせた最適化推定を考える解は 9

10.

備考 - Fisher 情報行列はだけメモリを消費するので実際には次の値を使う 10

11.

TIES-Merging: Resolving Interference When Merging Models P. Yadav, D. Tam, L. Choshen, C. Raffel, M. Bansal [NeurIPS’23] - モデルマージした際に生じるパラメータの干渉を取り除きたい - そのために3つの処理 (Trim, Elect Sign, Disjoint Merge) を導入する 11

https://proceedings.neurips.cc/paper_files/paper/2023/hash/1644c9af28ab7916874f6fd6228a9bcf-Abstract-Conference.html

12.

タスクベクトルの冗長性タスクベクトルの中から値が大きい順にTop-20% だけを使っても精度が良い値が小さいパラメータは重要ではないが，モデルマージに悪影響を及ぼすパラメータの干渉 12

13.

パラメータの干渉 (タスクベクトルの干渉 ) 1. Redundant Parameter による干渉 Model 2 のタスクベクトルでは大きい値だが Model 1では小さい値 2. Sign Conflict による干渉 Model 2 のタスクベクトルでは大きい値だが Model 1では逆向きの大きくない値平均をとったら値が小さくなってしまう 13

14.

TRIM, ELECT SIGN & MERGE (3) sign vector と同じ符号のパラメータだけを uniform merge (1) redundant parameterを0にする (2) パラメータごとに多数決で符号を決める (-> sign vector) 14

15.

TRIM, ELECT SIGN & MERGE TRIM 値が大きい top k のパラメータを保持しすべてのタスクについてそれ以外を0にする ELECT SIGN パラメータごとの符号 (+1, 0, -1) を考え総和をとったベクトルを作る MERGE パラメータごとに ELECT SIGN と同じ符号のタスクベクトルについてのみ平均をとる 15

16.

Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch L. Yu, B. Yu, H. Yu, F. Huang, Y. Li [ICML’24] PEFTを使わずに Supervised FineTuning (SFT) を対象としたモデルマージ手法(DARE) TIES-Merging と同様にパラメータの冗長性に着目した手法 16

https://openreview.net/forum?id=6YCaLfqWFSJ

17.

DROP & RESCALE delta parameters (タスクベクトル) を考える DROP ランダムにの要素を0にする RESCALE 残った要素をスケーリングする 17

18.

SFT における冗長性タスクベクトルの要素を9割 dropしても精度劣化が起きないパラメータ数が多ければdropする割合を増やしても精度劣化が起きない 18

19.

Rescale の重要性 Rescale は drop の前後でモデルの出力の期待値を変えないために行う Rescale しないと drop に対しての頑健性を失う 19

20.

実験結果 DARE を他の手法と組み合わせて実験 20

21.

結論 - タスクベクトルから必要なパラメータだけを選んでマージすることが重要 21