Direct feedback alignment provides learning in Deep Neural Networks

825 Views

September 23, 16

#deep learning #Deep Neural Networks #Feedback Alignment #Direct Feedback Alignment #BackPropagation #Machine Learning

スライド概要

2016/9/23
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 91K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 68K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.2K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 50.6K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 48K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.5K

各ページのテキスト

DL Hacks輪読 Direct Feedback Alignment Provides Learning in Deep Neural Networks 2016/09/23 黒滝紘生

書誌情報 - Direct Feedback Alignment Provides Learning in Deep Neural Networks - Arild Nøkland (Trondheim, Norway) - 6 Sep 2016 - http://arxiv.org/abs/1609.01596 - Accepted for publication at NIPS 2016 2

http://arxiv.org/abs/1609.01596

概要 - 従来は、誤差逆伝播(以下BP)のとき、順伝播の行列Wを使い回していた(a)。ランダム&学習しない行列Bで置き換えても、BPと同様に学習できた。(b-d) MNIST/CIFAR-10/CIFAR-100で実験。特に(c)のDFAで、BPに近い精度が出た。 3

目次 - 背景 - 手法 - 実験 - まとめ 4

背景 - 誤差逆伝播は強力 - しかし、生物学的には妥当でない - 逆伝播に使う行列として、順伝播の対称行列を選ぶ制約 - シナプスは一方通行、他シナプスのコピーも無し - 推論→学習→推論→……とモード切り替えが入ってしまう - 微分の計算が必要になってしまう - 戻す信号の送り方を考慮すべき 5

関連研究 - BP以外の学習法 - Boltzmann machine - Contrastive Hebbian Learning - Target-propagation - Feedback alignment ← 本論文は、これを発展させた手法 6

関連研究 - Random feedback weights support learning in deep neural networks (Lillicrap, 2014) - feedback alignmentを提案 - 逆伝播を、固定ランダム行列で返しても、順伝播側で吸収できる - 学習が進むための、ネットワークや初期化の条件を証明した - この論文では、隠れ1層の線形ネットワークでしか証明できておらず、非線型/複数のレイヤーでどうなるかは、明らかではなかった。 →今回の論文で、ふつうのニューラルネットに拡張された 7

目次 - 背景 - 手法 - 実験 - まとめ 8

手法 - 従来(a)は順伝播と逆伝播の行列を対称にしていたこれを、固定ランダム行列 Bで置き換えたのが FA (b) さらに、つなぎ先を変えた、 Direct FA(DFA, c) / Indirect FA(IFA, d)で、計3種を提案 - ただし、IFAはなぜか実験に出てこない 9

10.

アルゴリズム - BPの誤差の部分のみを差し替え (右半分)。他はシンプルな前向きニューラルネット (左半分)。共通部分 BP FA DFA IFA 10

11.

アルゴリズム - BPの誤差の部分のみを差し替え (右半分)。他はごくシンプルな前向きニューラルネット (左半分)。 BP FA DFA IFA 11

12.

理論面からの予測 - 先行研究による、 FAによって学習が進む (エラーが下がる )条件の証明を、非線型&多層ネットワークに拡張した。 - (詳細は割愛) 12

13.

目次 - 背景 - 手法 - 実験 - まとめ 13

14.

実験 - - MNIST&CIFAR10で、BP、FA、DFAを比較した。 (順に、図のa, b, c) - 全体として、BPが最も良く、DFAも、(MNISTでは)BPに近い性能を出せた。 - FAは、DFAに劣っていた。なお、IFA(図d)については、メインの実験では取り扱われていない。 - 7ページの一番下で 5行ほど書いてある - MNISTを、隠れレイヤー 4×100で学習 - 訓練エラー0%、テストエラー 3.9%まで下がったとのこと 14

15.

実験 - MNISTで、BP、DFA、FAを比較。BPと同じように学習できる。 (ただし上回ってはいない ) - 左: 隠れレイヤー 3×50のtanhネットワーク。隠れ1層目を50epochまで固定してBP学習。次に固定を解き、第 1層を{BP, DFA}で学習。 - 右: 隠れレイヤー 2×800のtanhネットワークを、ふつうに学習 15

16.

実験 - DFAが有用な特徴量を学習できていることを確認したい - 3×400のtanhネットワークを、 MNISTで、BPとDFAの両方で訓練した - t-SNE法で可視化した。各色が、クラスラベルに対応している。どちらも分離できている - 上:BP 下:DFA。左から入力、隠れ 1、隠れ2、隠れ3レイヤー 16

17.

実験 - MNISTの結果(Table1)。BP <= DFA < FA の傾向がわかる 17

18.

実験 - 上:CIFAR-10(Table2), 下:CIFAR-100(Table3). BPとDFAの差が開いているが、学習は成功している 18

19.

目次 - 背景 - 手法 - 実験 - まとめ 19

20.

まとめ - Feedback Alignmentの多層ニューラルネットへの応用を提案した。ランダム&学習しない行列Bで置き換えても、学習できた。 MNIST/CIFAR-10/CIFAR-100で実験。特に(c)のDFAで、BPに近い精度が出た。 20

21.