[DL輪読会]Opening the Black Box of Deep Neural Networks via Information

564 Views

October 27, 17

#deep learning #black box #neural #networks #informatio #Deep Learning #Information Theory #SGD #Hidden Layers #Neural Networks

スライド概要

2017/10/27
Deep Learning JP:
http://deeplearning.jp/workshop/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 84.7K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 54.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 38.9K

【拡散モデル勉強会】拡散モデルのサンプラーまとめ

Deep Learning JP 33.4K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 32.1K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Opening the Black Box of Deep Neural Networks via Information Hiromu Yokokura, Computer Science department http://deeplearning.jp/

http://deeplearning.jp/

書誌情報 • 著者: Ravid Shwartz-Ziv, Naftali Tishby • arXiv (last revised 29 Apr 2017) 2

DNN • 各レイヤを1つの高次元の確率変数として見る • TはエンコーダP(T|X)とデコーダP(Y|T)で特徴付けられる→定量化したい • トレーニングデータとしてXとYの同時分布が与えられる • 隠れ層の列はMalkov連鎖を形成する 3

相互情報量 • 確率変数XとYの相互情報量 Xの曖昧さ Yを知っても残るXの曖昧さ「入力XがラベルYに関して持っている平均の情報量」 • 性質1: 可逆変換に対する不変性 • 性質2: Data Processing Inequality (DPI) • 確率変数変数X, Y, ZがMalkov連鎖 X→Y→Zを形成する時、 4

Information Plane • 座標系 • 入力Xの(確率的な)写像である確率変数Tは、エンコーダ/デコーダの確率分布で特徴付けられる • 同時分布P(X,Y)が与えられればTはinformation planeのある1点にマッピングされる • K層DNNのMalkov連鎖を考えると、次のDPI順序を満たすInformation Pathを形成する • 可逆変換に不変であったから、異なるDNNが同じInformation Pathを形成し得る 5

最小十分統計量 • Yに関して、Xの最適な表現とはどのように特徴付けられるか？ • • • 例えば、最小十分統計量十分統計量S(X) • (Fisher情報量の意味で)情報の損失のない統計量 • ラベルYについてXが持っている情報を全て捕らえるような統計量 • 入力空間の分割として見ることもできる最小十分統計量T(X) • 最も簡単な十分統計量、最も粗い分割をする十分統計量 • 任意の他の十分統計量の関数となっているような十分統計量 6

Information Bottleneck • 最小十分統計量を見つける問題は次の最適化問題と考えらえる緩和確率的なマッピングを許す(P(T|X)) I(X;Y)の全てではなく、可能な限り捕らえるということを許す information bottleneck(IB) tradeoff 近似的な最小十分統計量を見つけるための計算的な枠組み Yの予測とXの圧縮の最適なトレードオフを見つける • 効率的なXの表現とは？→近似的な最小十分統計量 7

Information Bottleneck • IB tradeoffは次の最適化問題ラングランジュ乗数 : • これの解は次の方程式を満たす Tによって捕らえる情報の度合い 8

SGDによる学習の遷移 • Error Minimization (ERM)フェーズ: DPIを保ちながら、ラベルに関する情報Iyが上昇（数百エポック) • representation-compression フェーズ: Ixが減少（いらない情報が減っていく） 9

10.

トレーニングデータの量による違い • ERMフェーズはどの場合も似たような感じ • compressionフェーズでの動作が大き違う • データが少ないとIyが一気に下がる→overﬁtting • Ixも減るが必要な情報も捨ててしまう 5% 45% 85% 10

11.

SGDの振る舞い 11

12.

SGDの振る舞い • driftフェーズ • 勾配の平均＞標準偏差 • 勾配の確率性が低い(Hihg SNR) • 誤差が急激に減少して、Iyが上昇する • diffusion（拡散）フェーズ • 勾配の標準偏差＞平均 • 経験誤差がサチってバッチ間の変動が支配的になる • 勾配が平均の小さいガウシアンノイズのように振る舞う(Low SNR) • 重みの分布が拡散過程になる→ が増大していく(stochastic relaxation) このフェーズ移行が学習のフェーズ移行と対応しているが小さくなる 12

13.

SGDの振る舞い • https://goo.gl/rygyIT 13

https://goo.gl/rygyIT

14.

隠れ層の数による違い 14

15.

隠れ層の意味 • 隠れ層を増やすことで良い汎化性能に至るまでのエポック数が減少する • 前段の圧縮されたレイヤーから始めることで、各層のcompressionフェーズが短くなる • 深い層ほどcompressionフェーズが速い • 幅の広いレイヤーでも最終的に圧縮する。幅を増やすのはあまり意味がない。 15

16.

レイヤー化することの計算的利点 • 拡散過程によるエントロピーの増大 • エントロピーの増大はタイムステップの対数オーダー • タイムステップ数はエントロピーの増大の指数オーダー • IB tradeoffの方程式を満たすような分布に収束する • compression • 全体の圧縮をKステップに分割すると • 少するはのオーダーになるなのでK層にすることで指数関数的にエポック数が減 16

17.

レイヤーの最適性 • 収束したレイヤーがIB tradeoffの方程式を満たしているか？つまり近似的な最小十分統計量になっている 17

18.

トレーニングデータサイズの効果 • データサイズが大きくなると Iyが押し上げられてIB bound に近づく • 低い層はほとんど変わらない 18

19.

まとめ • SGDによる最適化には2つのフェーズがある • ERMフェーズ、representation compressionフェーズ • compressionフェーズはstochastic relaxationによるもので、Ixが減少して圧縮が起きている。(誤差最小化の制限があるのでIB boundに収束する) • 隠れ層の最も大きい利点は、stochastic relaxation time （圧縮が収束するまでの時間）が急激に減少すること • 隠れ層はIB boundのcritical pointに収束する（？） 19