【DL輪読会】Neural Redshift: Random Networks are not Random Functions

3.8K Views

July 11, 24

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

Neural Redshift: Random Networks are not Random Functions Shohei Taniguchi, Matsuo Lab

2.

書誌情報 Neural Redshift: Random Networks are not Random Functions • CVPR 2024 • ニューラルネットが汎化する理由を分析する研究 2

3.

背景 ニューラルネットの汎化 • 古典的な統計理論 • モデルが複雑になりすぎると汎化性能は下がる • Bias–variance tradeoff 3

4.

背景 ニューラルネットの汎化 • ニューラルネットは表現力が高いのになぜか汎化する • 既存の説明 • 勾配法で最適化するとノルムが小さい解に収束しやすいから汎化する ➡ ランダム初期化 + 枝刈りだけでも 汎化する理由を説明できない 4

5.

貢献 NNの汎化について新しい解釈を提案 • NNは特定のレベルの複雑度の関数に偏っている ‣ 複雑度はアーキテクチャによって異なる ‣ このバイアスは学習前の初期化の時点で存在する ‣ ReLUなどは複雑度の低い関数に偏っていて,汎化しやすい 5

6.

貢献 Key result • ReLUやGELUは重みが大きくなったり,深いネットワークになったりしても, 関数が低周波成分に偏る • TanH系は重みや深さが大きくなると,どんどん高周波な(複雑度の高い)関 数になっていく • ReLU系が実践的にうまくいく(汎化しやすい) ことの1つの説明になっている 6

7.

実験設定 ランダムネットワークの複雑度の検証 • ランダムに初期化したNNを用意 • 入力は2次元のグリッド上の座標で出力はスカラー • 複雑度を出力のヒートマップと定量的な複雑度の指標(後述)で評価 7

8.

複雑度の定量評価 3つの指標で評価 1. フーリエ係数 • 関数を離散フーリエ変換した係数の重みつき平均で評価 ˜ | ⋅ ∥k∥2/Σk∈K | f(k) ˜ | CFourier ( f ) = Σk∈K | f(k) • 大きいほど高周波な関数で複雑度が高い 8

9.

複雑度の定量評価 3つの指標で評価 2. 多項式オーダー • 関数を多項式近似した係数の重みつき平均で評価 CChebyshev ( f ) = N Σn1,n2=0 cn1n2 ⋅ N Σn1,n2=0 • 大きいほど高次な関数で複雑度が高い 9 [n1, n2] cn1,n2 2

10.

複雑度の定量評価 3つの指標で評価 3. LZ複雑度 • 各入力に対する出力を並べた列を考えて,それをLempl–Zivアルゴリズムで 圧縮したときの,圧縮後のサイズ • 複雑な関数ほど,圧縮が難しいので,大きくなる • (あんまわかってない 10

11.

実験サマリー NNの各要素が複雑度に与える影響 • モダンなNNで使われる要素(ReLU系の活性化,レイヤー正規化,残差接続) は概ね複雑度を下げることに寄与する ➡ 汎化につながりやすい 11

12.

実験 活性化関数 • ReLUは,重みを大きくしても,低周波な関数に偏り続ける • TanHは,重みが大きくなると,どんどん高周波な関数に偏っていく • どちらも表現力としては万能近似器だが ネットワークがもつバイアスには大きな 違いがある 12

13.

実験 活性化関数 13

14.

実験 その他の要素 • 残差接続やレイヤー正規化は複雑度を下げる • Gatingは複雑度が上がる

15.

実験 学習後のモデルの場合 • ランダム初期化時のNNの複雑度が,学習後の性能にどう影響するかを調査 • 以下のような算術タスクで学習 入力:0~15の整数のd次元ベクトル 正解:1 (Σxi ≤ (M/2) mod M) ‣ 入力の和をMで割った余りがM/2よりも小さいかどうかの2値分類 • Mが大きくなるほど,高周波な関数を学習する必要がある

16.

実験 学習後のモデルの場合 • ReLU系は初期化時に常に低周波な関数に偏るので,高周波な関数はうまく学 習できない • 他の活性化関数だと,初期化時のバイアスに よって学習できる関数が変わる ➡ 初期化時のバイアスは学習後のモデルの 汎化性能にも影響する

17.

実験 Transformerの場合 • TransformerでもMLPと同様の傾向がある • ReLU系以外の活性化関数だと,層の深さや重みの大きさの増大に伴って,関 数の複雑度が上がっていく

18.

まとめ • NNの汎化の謎について,ランダム初期化時の関数の複雑度の観点から調査 • 複雑度は活性化関数などの選択に依存し,必ずしも常に低いわけではない • ReLUやレイヤー正規化などの実践的によく使われるアーキテクチャ構造は, 複雑度の低い関数へのバイアスがあるため汎化しやすいと考えられる • 実際,ランダム初期化時のバイアスは,学習後の汎化性能とも強く相関する