4.4K Views
October 02, 20
スライド概要
2020/10/02
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] “Neural Tangent Kernel: Convergence and Generalization in Neural Networks” 1 Kensuke Wakasugi, Panasonic Corporation. http://deeplearning.jp/
書誌情報 2 タイトル: Neural Tangent Kernel: Convergence and Generalization in Neural Networks (NIPS2018)[1] 著者: Jacot, A., Gabriel, F., & Hongler, C (スイス連邦工科大学ローザンヌ校) 選書理由: 最近の深層学習の理論研究について興味があったため. 引用数437(2020/10/01時点)で,盛んに研究されていると思われるため. ※特に断りがない限り,本資料の図・表・式は上記論文より引用したものです. ※Neural Tangent Kernel(NTK)の理解にあたっては,下記ページがとても勉強になりました. Rajat‘s Blog Understanding the Neural Tangent Kernel (https://rajatvd.github.io/NTK/) [1] Jacot, A., Gabriel, F., & Hongler, C. (2018). In Advances in neural information processing systems (pp. 8571-8580). Wakasugi, Panasonic Corp.
背景 3 ➢ NNは多様なタスクで高い汎化性能を示しているが, その理由を理論的に説明することができていない. ➢ 先行研究: ・隠れ層のwidth→∞のとき,NNがガウス過程とみなせる[2] ・初期化時(ランダムな重み)のLossの形状についての解析[3] 任意の入力値に対し, 中心極限定理(width→∞のとき )によって,層毎の共分散行列を数式で扱い, パラメータ空間における,NNの出力値または損失関数の形状を解析 ➢ 課題: ・学習中の挙動について扱えない 学習が進むにつれ,重みがガウス分布に従うといった仮定がおけなくなる [2] J. H. Lee, Y. Bahri, R. Novak, S. S. Schoenholz, J. Pennington, and J. Sohl-Dickstein. Deep neural networks as gaussian processes. ICLR, 2018. [3] R. Karakida, S. Akaho, and S.-i. Amari. Universal Statistics of Fisher Information in Deep Neural Networks: Mean Field Approach. jun 2018. Wakasugi, Panasonic Corp.
全体像 4 lossを最小化する際の各変数/関数の軌跡を考える NNパラメータ𝜃 関数𝑓 学習データ𝑥ҧ 1、NNパラメータの更新式 𝜕𝑙𝑜𝑠𝑠 𝜽𝑡+1 = 𝜽𝑡 − 𝜂 𝜕𝜽 2、微分方程式とみなすと 𝜕𝜽 𝜕𝑙𝑜𝑠𝑠 =− 𝜕𝑡 𝜕𝜽 𝜕𝒚 =− (𝒚 − ഥ 𝒚) 𝜕𝜽 3、出力𝑦の変化 𝜕𝒚 𝜕𝒚𝑇 𝜕𝜽 = 𝜕𝑡 𝜕𝜽 𝜕𝑡 𝜕𝒚𝑇 𝜕𝒚 =− (𝒚 − ഥ 𝒚) 𝜕𝜽 𝜕𝜽 4、Neural Tangent Kernel 𝜕𝒚 𝜕𝒚𝑇 𝜕𝒚 𝝓= ,𝑲 = 𝜕𝜽 𝜕𝜽 𝜕𝜽 ※ 𝒚は複数の学習データを並べてベクトル化している ※ 𝜙はカーネル法でいうところの 高次元特徴量空間への写像関数 出力𝑦 損失関数loss 学習データ𝑦ത 5、width→∞でK→const 𝜕𝒚 = −𝑲(𝒚 − ഥ 𝒚) 𝜕𝑡 6、 𝒅 = 𝒚 − ഥ 𝒚について 𝜕𝒅 = −𝑲𝒅 𝜕𝑡 𝒅 𝑡 = 𝒅 0 𝑒−𝑲𝑡 ※𝑲は正定値行列で,固有値は収束の速さに対応する Wakasugi, Panasonic Corp.
Contribution 1. 勾配降下法がカーネルを用いて表現でき, このとき,NN関数𝑓𝜃 がNNの層数,非線形関数, 初期化の分散のみに依存する、こと示した 5 𝜕𝒚 = −𝑲(𝒚 − ഥ 𝒚) 𝜕𝑡 𝑇 𝜕𝒚 𝜕𝒚 𝑲= 𝜕𝜽 𝜕𝜽 2. NNの収束性が、NTKの正定性で議論できるようにした. 3. 二乗損失の場合、𝑓𝜃 が線形微分方程式に従い、 ヤコビアンの固有値が収束性を表す. すなわち,固有関数ごとに収束性が異なることを示した. これは,early-stoppingを支持する結果. 𝒅 𝑡 = 𝒅 0 𝑒 −𝑲𝑡 4. 人工データとMNISTで、数値実験を実施. Wakasugi, Panasonic Corp.
準備 6 一般的な形式でNNを記述 ・seminorm ・NNの定式化 ※二つの関数間の距離のようなもの カーネル法の文脈で登場している? 𝑝𝑖𝑛は入力データの分布で,実際は学習データの経験分布を使う 期待値はΣになるか,ベクトルのノルムで置き換わる. ※ 𝛼は理論系の論文でよく見かける.中心極限定理はここで議論 Wakasugi, Panasonic Corp.
準備:Kernel gradient 7 カーネルを用いて,損失関数Cの時間発展を記述 ➢ 損失関数Cの微分をカーネルで表現 ➢ この時,Cの時間発展(最小化の更新計算を時間とみなす)は下記のようになる 𝜕𝑙𝑜𝑠𝑠 𝜕𝒚 = (𝒚 − ഥ 𝒚) 𝜕𝜽 𝜕𝜽 𝜕𝑙𝑜𝑠𝑠 𝜕𝑙𝑜𝑠𝑠 𝜕𝜽 = 𝜕𝑡 𝜕𝜽 𝜕𝑡 𝜕𝒚 =− 𝒚−ഥ 𝒚 𝜕𝜽 𝑇 𝜕𝒚 𝒚−ഥ 𝒚 𝜕𝜽 仮にカーネルが正定値で,定数であれば,Cの時間発展はt→無限で0に収束 ※この時点でNNは登場していないが,NNの最終層に関して同様の論理展開となる また,width→無限で定数という議論が出てくる Wakasugi, Panasonic Corp.
Random functions approximation 8 Kernel gradientとNNの関係性についての例示 ➢ 出力関数を任意関数の和で表現されるとする ※NNの最終層のイメージ. 最終層のパラメータ𝜽𝑝のみが学習対象 𝑓はランダムにサンプリングされた関数 ➢ この時の出力関数の微分 ➢ 上式は,カーネルを下記で定義した場合のKernel gradientに対応 𝜕𝒚 𝜕𝒚 𝜕𝜽 = 𝜕𝑡 𝜕𝜽 𝜕𝑡 𝜕𝒚𝑇 𝜕𝒚 =− (𝒚 − ഥ 𝒚) 𝜕𝜽 𝜕𝜽 ※補足 Wakasugi, Panasonic Corp.
Neural tangent kernel 9 多層の場合も同様の形式で,カーネルで記述 ➢ 前述の内容と同様に,勾配法がカーネルで記述される. ただし, 𝐹が𝜃に依存する(学習の進捗で変化する) widthの無限極限においては,𝐹がコンスタントとみなせる Wakasugi, Panasonic Corp.
Initialization 10 初期化時のカーネルは,ガウス過程近似における共分散行列の漸化式から算出 ➢ 深層学習のガウス過程近似 ➢ カーネルの計算に発展 初期化時のカーネル計算は可能 𝜕𝒚𝐿+1 𝜕𝒘𝐿 𝜎 𝒚𝐿 = 𝜕𝜽𝐿+1 𝜕𝜽𝐿+1 𝐿 𝐿 𝜕𝜎 𝜕𝒚 =𝒘 + 𝜎 𝒚𝐿 𝐿 𝐿 𝜕𝒚 𝜕𝜽 Σሶ Σ ※最初の式を変更すると対応 𝜕𝒚𝐿+1 𝜕𝜽𝐿+1 → 𝑇 𝜕𝒚𝐿+1 𝜕𝒚𝐿+1 𝜕𝜽𝐿+1 𝜕𝜽𝐿+1 Wakasugi, Panasonic Corp.
Training 11 無限極限では,学習中のカーネルは定数とみなせる ➢ 無限極限ではカーネルの時間に依存しなくなるため 初期化時に計算したカーネルを利用できる 𝜕𝒚 = −𝑲(𝒚 − ഥ 𝒚) 𝜕𝑡 ※ Φに関する本文中の記載 ※基本的には上式に対応していると 思われるが,対応関係を追いきれません でした. ※ Appendixより,下記式で定義される値Aが𝑛𝐿→∞で0に収束するとのこと Wakasugi, Panasonic Corp.
Least-squares regression 12 二乗損失を考えて,具体的に計算.訓練誤差は指数関数的に減少する ➢ 一般的な二乗損失 ➢ 学習による関数𝑓𝑡の更新 ➢ 微分方程式として関数𝑓𝑡を解く ※ 𝜕𝒚 = −𝑲(𝒚 − ഥ 𝒚) 𝜕𝑡 𝒅 = 𝒚− ഥ 𝒚 𝜕𝒅 = −𝑲𝒅 𝜕𝑡 𝒅 𝑡 = 𝒅 0 𝑒 −𝑲𝑡 の意味合いが分からなかった・・・ λはカーネルの固有値であり,固有値の大きい次元から順に収束する early-stoppingを支持する結果とのこと Wakasugi, Panasonic Corp.
Numerical experiments 13 widthの増大/時間発展に伴い,収束することを確認 ➢ カーネルの収束(左図)と出力関数の収束(右図) ※学習データはunit circle(二次元)上の点.4層のNN Wakasugi, Panasonic Corp.
Numerical experiments 14 widthの増大に伴い,学習が安定化(勾配≒定数)することを確認 ➢ 学習データの可視化(左図),収束点方向に垂直な方向の誤差(中央),収束点方向への誤差移(右図) ※正解を下記のように設定し, 𝑓 (2)方向と直交成分を観察 前スライドより ➢ n=10000のときのカーネルを使ったPCA上位3成分への写像 ➢ nが大きいほど, 𝑓 (2)方向の誤差が指数関数的に減少. 直交成分へのブレも最も少ない ➢ 一方,nが小さいほうが収束自体は早い. 学習係数とも相補的になっているため,考察は難しいが・・・ Wakasugi, Panasonic Corp.
Conclusion 15 ➢ Neural Tangent Kernel による学習過程の記述を行い, width→∞で,カーネルが定数となり,学習過程の解析を可能にした ➢ カーネルが定数になることは数値実験で確認できたが, widthが小さいほうが収束が早いという現象が見られた. Wakasugi, Panasonic Corp.
その後の研究 16 ➢ On lazy training in differentiable programming[4] 関数𝑓を定数倍することで,width→∞と同様の性質が得られることを示した. CNNで学習すらうまくいかないケースも ➢ Enhanced Convolutional Neural Tangent Kernels[5] CIFAR-10でSOTAに対し-7%程度の性能(Alexnet相当) ※最新の識別性能を達成できてはいないが, それなりに高性能な予測器を定数カーネルの元で学習できたということらしい [4] Chizat, L., Oyallon, E., & Bach, F. (2019). On lazy training in differentiable programming. In Advances in Neural Information Processing Systems (pp. 2937-2947). [5] Li, Z., Wang, R., Yu, D., Du, S. S., Hu, W., Salakhutdinov, R., & Arora, S. (2019). Enhanced convolutional neural tangent kernels. arXiv preprint arXiv:1911.00809. Wakasugi, Panasonic Corp.
感想 17 ➢ 現時点で,今後の研究に対する示唆(予測性能向上に向けた知見など)ができる段階までは到達できて いないようだが,汎化性能の条件などについての整理が進み,性能向上に寄与することを期待したい ➢ データそのものに関する性質の理論解析もあればよいように思うが, やはり難しいか・・・ Wakasugi, Panasonic Corp.