【DL輪読会】Pruning as a Game: Equilibrium-Driven Sparsification of Neural Networks

>100 Views

January 08, 26

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP Pruning as a Game: Equilibrium-Driven Sparsification of Neural Networks [DL Papers] Presenter: Manato Yaguchi, Matsuo-Iwasawa lab, M2 http://deeplearning.jp/

2.

書誌情報 紹介論文  タイトル: Pruning as a Game: Equilibrium-Driven Sparsification of Neural Networks 出典: Arxiv , 2025/12  著者: Zubair Shah, Noaman Khan 概要  ニューラルネットワークの Pruning を、パラメータ群毎の参加度を戦略とした、連続な非協力ゲー ムとして定式化した  この定式化において、ナッシュ均衡で、余分なネットワークは削減され、スパース性が自然に現れる ことを示した ※画像は出典記載のないものは、本論文から引用 2

3.

Background:Pruning 画像:出典[1]  Neural NetworkのPruning とは、一旦学習により得たモデルに対して、再学習することなく モデルサイズや計算コストを削減する手法  削減手法としては、ノード毎に重要度の重みを割り振ったり[2]、正則化項を加えたりして[3]、 意図的にスパースにしている Question  そもそもスパース性はどこからくるのか?もっと自然にスパース性が現れないのか? => ゲーム理論的に解釈可能 (本論文の主張) 3

4.

問題設定  𝑙 はサンプル毎のLoss  𝜃 をpruning を行う単位 𝜃𝑖 (ex, ニューロン/フィルタ/重みブロック)に分割  s𝑖 を各単位の参加度 とし、初期は全参加(𝑠𝑖 = 1) とする. 6

5.

ゲーム理論としての定式化  各 𝜃𝑖 の 参加度 𝑠𝑖 についての最適化をゲーム理論の枠組みで考える.  各 player の 効用 を 以下で定める.  𝑠−𝑖 は, 𝑠𝑖 を除くすべてのplayer の戦略を表す.  Bは, Benefit Term で, Cは Cost Term とする.  Benefit Term と Cost Term は以下のように自然に与えることができる. 𝜕𝐿  Bは、𝜕𝑠 の1次近似と、 を使えば導出できる. 7

6.

ナッシュ均衡  𝑠 が以下の式を満たすとき, ナッシュ均衡であると定義する  自分以外のすべての戦略が固定され、自分だけ戦略を変えるとき、現在の戦略より得られる効用が良くなる ことはない  上の定式化において、(ゲーム理論的な意味で) Pruning が起こるのは、以下の式を満たす とき  つまり、s_i を 0にするのが、一番効用が得られる という状況 => これはどういう状況か? 次ページで簡単な理論解析 8

7.

スパースになる条件に関する理論解析  効用関数 U, Benefit Term B, Cost Term C の定義より, U の1次の平衡条件は、以 下のようになる.  𝑠𝑖 > 0 において、解は以下の式を満たす  分子が0 or 負なら, 最適な 𝑠𝑖 は 0になる. すなわち、𝜃𝑖 の寄与はない状態が最善になる. 解釈1:𝜃𝑖 がLossに与える影響の大きさ (どれくらい必要かの指標) 解釈2:𝜃𝑖 が他の重み𝜃j とどれくらい競合するか (どれくらい不要かの指標) 9

8.

新たなPruning アルゴリズムの提案  ネットワークのパラメータ 𝜃 と, 参加度 s を交互に更新するアルゴリズムを提案 => Purning をシンプルな形で表現可能  パラメータ更新:  参加度の更新:  Utility 関数は、前ページで述べた通り 10

9.

実験  2層の隠れ層を持つネットワーク上で、MNISTを使ったPruningの実験  Hidden layer1: 512 neurons, Hidden layer2: 256 neurons  ニューロンの数の分(つまり、768個)のグループを用意し、各グループの参加度の学習をパラ メータの学習と交互に行う 11

10.

実験結果  Beta をあげるとスパース性が 上がる. (青->オレンジ)  Penalty 項をあげるほど、グ ループの参加度の平均が0に 近づく(左下図). 12

11.

まとめ まとめ  ニューラルネットワークの Pruning について、ゲーム理論的な定式化を与えた.  特に、パラメータ群が参加度を戦略として選ぶ非協力ゲームのナッシュ均衡として、スパース性 が自然に現れることを表した. 感想  パラメータ群の分け方に関しては、特に言及していない 余談  Pruning の話としては、非協力ゲームのナッシュ均衡という枠組みでスパース性を議論したの はこの論文の貢献である  一方で、(論文中では触れられていないものの) 似たような話として、PCA を ナッシュ均衡とし て捉える論文があるので、一部を抜粋して紹介する. 13

12.

書誌情報 紹介論文  タイトル: EIGENGAME: PCA AS A NASH EQUILIBRIUM  出典: ICLR2021  著者: Ian Gemp, Brian McWilliams, Claire Vernade & Thore Graepel 概要  主成分分析(PCA)を非協力ゲームとして定式化  特に、PCAを、データの分散が最大になる(複数の)方向(ベクトル)を探すものだと考えたとき、各player を固有 ベクトルとした非協力ゲームとみなせることを示した ※画像は出典記載のないものは、本論文から引用 14

13.

PCA とは  PCAは、直感的には、分散が大きい方向 のベクトルを順に見つけていく手法 もう少し数学的に説明すると…  𝑋 ∈ ℝ𝑛×𝑑 を d次元のデータセットとしたと き、対称行列 M = 𝑋 𝑇 𝑋 の固有ベクトル を求める操作 を考える. Practical には、  データの解釈(disentangle), 圧縮 など に使える手法 1次元目を決める際に、2次元目には依存しないというのは重要 画像出典:https://medium.com/@raghavan99o/principal-componentanalysis-pca-explained-and-implemented-eeab7cb73b72 15

14.

PCAをゲーム理論的に捉える  対称行列 M = 𝑋 𝑇 𝑋 の固有ベクトルを求める問題は、以下のM を対角化する問題と捉えら れる.  Mは対称行列なので、Vは正規直交行列として表すことにする.  さらに、上の問題は、𝑉෠ を真の固有ベクトルの推定量, スの巡回性から、以下の問題を解くことに帰着される. としたとき、トレー Q. これは、PCAで射影する空間がデータの次元と同じ場合の話。では, k < d の場合は? 16

15.

PCAをゲーム理論的に捉える  素朴には、k<dの時も、k=dの時と同様に、以下の式を使いたいが…  これだと (i,j)の全ペアを対称に罰することになるが、1次元目の固有ベクトルは、m (> 1)次元目の固有ベ クトルの影響を受けたくない  代わりに、以下の形で固有ベクトルを決めていく. (一般化Gram-Schmidt)  V_1 が決まると、v_2が決まり、… というDAGの形をとる 17

16.

PCAをゲーム理論的に捉える  論文の主張の一つは、以下の定理を示したこと. (証明を含めた細かい話は割愛) 𝑋 𝑇 𝑋 の Top-k の固有値がすべて異なる値を持ち、かつすべて正であるとする. この時、top-k の固有ベクトルは、 を効用関数とする非協力ゲームにおける, 一意の 強ナッシュ均衡となる. では, Pruning を ナッシュ均衡として捉えた話と、PCAをナッシュ均衡として捉えた話は、何が 同じで、何が違うのか? 18

17.

Pruning as a Game / PCA as Nash の比較 Pruning as a Game PCA as Nash Player パラメータ群 (MNIST の例だと 隠れ ニューロン) 第i主成分(近似固有ベクトル 𝑣ෝ𝑖 ) 戦略 参加率 𝑠𝑖 ∈ [0, 1] 相互作用 他グループとの競合コスト (相関項 σ𝑗≠𝑖 𝑠𝑗 < 𝜃𝑖 , 𝜃𝑗 >) など 親(j<i)との“重なり”を罰する項 情報フロー 基本は全体損失や相関を通じた結 合 親→子の DAG でメッセージパッシング 𝑣ෝ𝑖 ∈ 𝑆 𝑑−1  どちらも、Nash 均衡を学習における目標としている  どちらも冗長性を相互作用で表現し、必要なものだけ残す (Pruning は、他のパラメータ群との重なり をコストに入れ、PCAは親方向との重なりをコストに入れる) 19

18.

Pruning as a Game / PCA as Nash の比較 (違い) 違い 1(厳密さ)  PCA as Nash は「PCAという明確な数学解」をそのままNashとして実現する設計で、定理 として 唯一の strict Nash を示す (厳密)  論文中でも触れているが、DAGの構造をとることにより、解の収束性を示しやすくしている  Pruning の論文は、ニューラルネットがスパースになることに対する説明原理を与えているに過 ぎない 違い2 (相互作用構造)  Pruning の方は、パラメータ群の設計に関して、ほとんど何も言っていない。PCAの方は、 DAGの構造をとっている.  Pruning においても、DAG構造を入れたりして、どの部分に競争関係を仮定するかで結果が変わることを言 えたら良さそう 違い3 (冗長性の測り方が異なる)  Pruning の方は、パラメータ群に対して測り、PCAは、データの射影(𝑋𝑣𝑖 )に対して測る. 20

19.

参考文献 [1] T. Chen, Y. Sui, and X. Chen, et al. A unified lottery ticket hypothesis for graph neural networks. In ICML, 2021 [2] M. C. Mozer and P. Smolensky. Using relevance to reduce network size automatically. Connection Science, 1(1):3–16, 1989. [3] S. Hanson and L. Pratt. Comparing biases for minimal network construction with backpropagation. In NIPS, vol. 1, 1988. 21