[DL輪読会]Self-Normalizing Neural Networks

732 Views

May 18, 18

#deep learning #Deep Learning #SELU #Self-Normalizing Neural Networks #Activation Function #Neural Network

スライド概要

2018/05/18
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.8K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.2K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 50K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 47.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.2K

各ページのテキスト

1 DEEP LEARNING JP [DL Papers] “Self-Normalizing Neural Networks(NIPS2017)” Kensuke Wakasugi, Panasonic Corporation. http://deeplearning.jp/

http://deeplearning.jp/

書誌情報 2 タイトル： Self-Normalizing Neural Networks (NIPS2017) 著者： Günter Klambauer, Thomas Unterthiner, Andreas Mayr, Sepp Hochreiter 所属： LIT AI Lab & Institute of Bioinformatics, Johannes Kepler University Linz 著者HPより (ヨハネス・ケプラー大学，リンツ，オーストリア) その他：arxiv[v1]：17/06/08，被引用数99件(18/05/17時点) Supplementary Material 110ページ NIPS Proceedings：https://papers.nips.cc/paper/6698-self-normalizing-neural-networks arxiv：https://arxiv.org/abs/1706.02515 GitHub：https://github.com/arXivTimes/arXivTimes/issues/328 著者HP：http://www.bioinf.jku.at/people/klambauer/

背景 ■画像/時系列タスク以外では，DLは有効でない？・Kaggle challengesの画像/時系列タスク以外では，SVM，RF，GBが優勢．・NNはあるが，shallow（隠れ層4つ）． ■勾配消失/発散でFNNがdeepにできないから？・CNN/RNNは，weight sharingしているので，SGD，dropout，正規化に対しロバスト．・FNN（feed-forward neural network）はそれらの影響を受けやすい． ■FNNでもロバストな正規化方法を提案（SELU）・実装はSELUという活性化関数を作るだけ．Tensorflowに実装済み．・勾配消失/発散せずにdeepにできる．学習が安定．・UCIデータセットでMSRAinit ，HighWay，ResNet，BN，LN，WNと比較． 3

課題 4 ■学習困難の原因（私のイメージ） 𝑧 = 𝑊𝑥, 𝑦 = 𝑓(𝑧) FC層での演算上記の微分を計算すると 𝑊 𝑓 𝑥→𝑧→𝑦 𝜕𝑦 𝜕𝑧 𝜕𝑦 𝜕𝑓(𝑧) = = 𝑊𝑇 𝜕𝑥 𝜕𝑥 𝜕𝑧 𝜕𝑧 𝑙層目 𝑙 + 1層目 𝐿層あるとすれば 𝜕𝑓 𝑊𝑇 𝜕𝑧 𝐿 よって 𝐿を大きくする(深くする)と発散or消失しやすい HighWay，ResNet BN，LN，WN，MSRAinit バイパスによって 𝐿が小さくなる計算ルートを作る正規化or初期値によって 𝑊𝑇 𝜕𝑓 𝜕𝑧 の平均0，分散１になるようにするこの論文はこちらのタイプ

提案法 ■Scaled Exponential Linear Units (SELU) ・ELUに類似（SELUで𝜆 = 1の場合）．・適切なハイパーパラメータは理論的に定まる． 𝛼 ≈ 1.6733 𝑎𝑛𝑑 𝜆 ≈ 1.0507 5

平均と分散の収束 ■マッピング𝑔の前後で平均分散が収束するマッピング𝒈：前層の平均𝝁，分散𝝂 重みの和：𝜔 重みの二乗和：𝜏 → 後層の平均𝝁，分散𝝂 誤差関数を用いて解析解が得られて収束する場合， 𝜇 = 𝜇, 𝜈 = 𝜈となるので，𝜔 = 0, 𝜏 = 1と仮定すると，𝛼 ≈ 1.6733 𝑎𝑛𝑑 𝜆 ≈ 1.0507が得られる 6

証明 7 ■平均分散の更新式に基づき，収束の安定性が証明される・Theorem 1：収束の安定性 µ ∈ −0.1,0.1 , 𝜔 ∈ −0.1,0.1 , 𝜈 ∈ 0.8,1.5 , 𝑎𝑛𝑑 𝜏 ∈ 0.95,1.1 上記の範囲であれば，下記範囲に収束する µ ∈ [−0.03106,0.06773], 𝜈 ∈ [0.80009,1.48617] 𝜔 = 0, 𝜏 = 1の場合・Theorem 2：分散の減少 −1 ≤ µ ≤ 1, −0.1 ≤ 𝜔 ≤ 0.1, 3 ≤ 𝜈 ≤ 16, 𝑎𝑛𝑑 0.8 ≤ 𝜏 ≤ 1.25 上記の範囲であれば，下記が成立する（分散が減少する） 𝜈(µ, 𝜔, 𝜈, 𝜏, 𝜆01 , 𝛼01 ) < 𝜈 ・Theorem 3：分散の増大 −0.1 ≤ µ ≤ 0.1, 𝑎𝑛𝑑 − 0.1 ≤ 𝜔 ≤ 0.1, 0.02 ≤ 𝜈 ≤ 0.16 𝑎𝑛𝑑 0.8 ≤ 𝜏 ≤ 1.25 上記の範囲であれば，下記が成立する（分散が増大する） 𝜈(µ, 𝜔, 𝜈, 𝜏, 𝜆01 , 𝛼01 ) > 𝜈

その他の提案 ■これまでの議論が成立する初期化とDropoutも提案・Initialization： Gaussian distribution with 𝐸 𝜔𝑖 = 0, 𝑉𝑎𝑟 𝜔𝑖 = 1/𝑛 ・New Dropout Technique： “Alpha-dropout” 𝑑~𝑏𝑖𝑛𝑜𝑚𝑖𝑛𝑎𝑙 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑡𝑖𝑜𝑛 𝐵 1, 𝑞 𝛼 ′ = −𝜆𝛼 としたとき、“Alpha-dropout”は下記のように定義する． 𝐴𝑙𝑝ℎ𝑎-𝑑𝑟𝑜𝑝𝑜𝑢𝑡 𝑥 = 𝑎 𝑥𝑑 + 𝛼 ′ 1 − 𝑑 + 𝑏 ここで，平均分散が“Alpha-dropout”の前後で不変とするためには 𝑎= 𝑞+ ′2 となる． 𝛼 ′2 𝑞 1−𝑞 𝑏 =− 𝑞+𝛼 𝑞 1−𝑞 1 −2 1 −2 1 − 𝑞 𝛼′ 経験的には，1−𝑞 = 0.05 or 0.10でよい性能が得られる 8

実験 ■UCI分類タスク121個について提案法SNNの性能が高い・DL系手法との比較ランダム予測を含む8手法の予測性能順位を121タスクについて検証順位4位を基準として，SNNが優位に性能が高い・ML系手法との比較 ML予測器24種を含む25手法の予測性能順位を121タスクについて検証順位12.5位を基準として，SNNが性能が高い． ※予測性能の順位に関してウィルコクソン符号順位検定を実施 9

10.

実験２ ■数が多めのデータセットでも比較し，SNNが最良・Drug discovery: The Tox21 challenge dataset（12000個）・Astronomy: Prediction of pulsars in the HTRU2 dataset（17898個） 10

11.

実験３ ■SNN with CNN（ReLUとの比較）・MNIST 2x Conv, MaxPool, 2x fully-connected, 30 Epochs →99.2% ± 0.1 accuracy (ReLU: 99.2% ± 0.1) ・CIFAR10 2x Conv, MaxPool, 2x Conv, MaxPool, 2x fully-connected, 200 Epochs →82.5 ± 0.8% accuracy (ReLU: 76.1 ± 1.0%) ただし，ELUでの性能向上が報告されており，驚くべきことではないとのこと 11

12.

まとめ • • • • SELU activation with parameters 𝛼 ≈ 1.6733 𝑎𝑛𝑑 𝜆 ≈ 1.0507 inputs normalized to zero mean and unit variance, network weights initialized with variance 1/𝑛, and regularization with “Alpha-dropout”. ご静聴ありがとうございました． 12