337 Views
May 18, 18
スライド概要
2018/05/18
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
1 DEEP LEARNING JP [DL Papers] “Self-Normalizing Neural Networks(NIPS2017)” Kensuke Wakasugi, Panasonic Corporation. http://deeplearning.jp/
書誌情報 2 タイトル: Self-Normalizing Neural Networks (NIPS2017) 著者: Günter Klambauer, Thomas Unterthiner, Andreas Mayr, Sepp Hochreiter 所属: LIT AI Lab & Institute of Bioinformatics, Johannes Kepler University Linz 著者HPより (ヨハネス・ケプラー大学,リンツ,オーストリア) その他:arxiv[v1]:17/06/08,被引用数99件(18/05/17時点) Supplementary Material 110ページ NIPS Proceedings:https://papers.nips.cc/paper/6698-self-normalizing-neural-networks arxiv:https://arxiv.org/abs/1706.02515 GitHub:https://github.com/arXivTimes/arXivTimes/issues/328 著者HP:http://www.bioinf.jku.at/people/klambauer/
背景 ■画像/時系列タスク以外では,DLは有効でない? ・Kaggle challengesの画像/時系列タスク以外では,SVM,RF,GBが優勢. ・NNはあるが,shallow(隠れ層4つ). ■勾配消失/発散でFNNがdeepにできないから? ・CNN/RNNは,weight sharingしているので,SGD,dropout,正規化に対しロバスト. ・FNN(feed-forward neural network)はそれらの影響を受けやすい. ■FNNでもロバストな正規化方法を提案(SELU) ・実装はSELUという活性化関数を作るだけ.Tensorflowに実装済み. ・勾配消失/発散せずにdeepにできる.学習が安定. ・UCIデータセットでMSRAinit ,HighWay,ResNet,BN,LN,WNと比較. 3
課題 4 ■学習困難の原因(私のイメージ) 𝑧 = 𝑊𝑥, 𝑦 = 𝑓(𝑧) FC層での演算 上記の微分を計算すると 𝑊 𝑓 𝑥→𝑧→𝑦 𝜕𝑦 𝜕𝑧 𝜕𝑦 𝜕𝑓(𝑧) = = 𝑊𝑇 𝜕𝑥 𝜕𝑥 𝜕𝑧 𝜕𝑧 𝑙層目 𝑙 + 1層目 𝐿層あるとすれば 𝜕𝑓 𝑊𝑇 𝜕𝑧 𝐿 よって 𝐿を大きくする(深くする)と発散or消失しやすい HighWay,ResNet BN,LN,WN,MSRAinit バイパスによって 𝐿が小さくなる計算ルートを作る 正規化or初期値によって 𝑊𝑇 𝜕𝑓 𝜕𝑧 の平均0,分散1になるようにする この論文はこちらのタイプ
提案法 ■Scaled Exponential Linear Units (SELU) ・ELUに類似(SELUで𝜆 = 1の場合). ・適切なハイパーパラメータは理論的に定まる. 𝛼 ≈ 1.6733 𝑎𝑛𝑑 𝜆 ≈ 1.0507 5
平均と分散の収束 ■マッピング𝑔の前後で平均分散が収束する マッピング𝒈:前層の平均𝝁,分散𝝂 重みの和:𝜔 重みの二乗和:𝜏 → 後層の平均𝝁,分散𝝂 誤差関数を用いて解析解が得られて 収束する場合, 𝜇 = 𝜇, 𝜈 = 𝜈となるので,𝜔 = 0, 𝜏 = 1と仮定すると,𝛼 ≈ 1.6733 𝑎𝑛𝑑 𝜆 ≈ 1.0507が得られる 6
証明 7 ■平均分散の更新式に基づき,収束の安定性が証明される ・Theorem 1:収束の安定性 µ ∈ −0.1,0.1 , 𝜔 ∈ −0.1,0.1 , 𝜈 ∈ 0.8,1.5 , 𝑎𝑛𝑑 𝜏 ∈ 0.95,1.1 上記の範囲であれば,下記範囲に収束する µ ∈ [−0.03106,0.06773], 𝜈 ∈ [0.80009,1.48617] 𝜔 = 0, 𝜏 = 1の場合 ・Theorem 2:分散の減少 −1 ≤ µ ≤ 1, −0.1 ≤ 𝜔 ≤ 0.1, 3 ≤ 𝜈 ≤ 16, 𝑎𝑛𝑑 0.8 ≤ 𝜏 ≤ 1.25 上記の範囲であれば,下記が成立する(分散が減少する) 𝜈(µ, 𝜔, 𝜈, 𝜏, 𝜆01 , 𝛼01 ) < 𝜈 ・Theorem 3:分散の増大 −0.1 ≤ µ ≤ 0.1, 𝑎𝑛𝑑 − 0.1 ≤ 𝜔 ≤ 0.1, 0.02 ≤ 𝜈 ≤ 0.16 𝑎𝑛𝑑 0.8 ≤ 𝜏 ≤ 1.25 上記の範囲であれば,下記が成立する(分散が増大する) 𝜈(µ, 𝜔, 𝜈, 𝜏, 𝜆01 , 𝛼01 ) > 𝜈
その他の提案 ■これまでの議論が成立する初期化とDropoutも提案 ・Initialization: Gaussian distribution with 𝐸 𝜔𝑖 = 0, 𝑉𝑎𝑟 𝜔𝑖 = 1/𝑛 ・New Dropout Technique: “Alpha-dropout” 𝑑~𝑏𝑖𝑛𝑜𝑚𝑖𝑛𝑎𝑙 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑡𝑖𝑜𝑛 𝐵 1, 𝑞 𝛼 ′ = −𝜆𝛼 としたとき、“Alpha-dropout”は下記のように定義する. 𝐴𝑙𝑝ℎ𝑎-𝑑𝑟𝑜𝑝𝑜𝑢𝑡 𝑥 = 𝑎 𝑥𝑑 + 𝛼 ′ 1 − 𝑑 + 𝑏 ここで,平均分散が“Alpha-dropout”の前後で不変とするためには 𝑎= 𝑞+ ′2 となる. 𝛼 ′2 𝑞 1−𝑞 𝑏 =− 𝑞+𝛼 𝑞 1−𝑞 1 −2 1 −2 1 − 𝑞 𝛼′ 経験的には,1−𝑞 = 0.05 or 0.10でよい性能が得られる 8
実験 ■UCI分類タスク121個について提案法SNNの性能が高い ・DL系手法との比較 ランダム予測を含む8手法の予測性能順位を121タスクについて検証 順位4位を基準として,SNNが優位に性能が高い ・ML系手法との比較 ML予測器24種を含む25手法の予測性能順位を121タスクについて検証 順位12.5位を基準として,SNNが性能が高い. ※予測性能の順位に関してウィルコクソン符号順位検定を実施 9
実験2 ■数が多めのデータセットでも比較し,SNNが最良 ・Drug discovery: The Tox21 challenge dataset(12000個) ・Astronomy: Prediction of pulsars in the HTRU2 dataset(17898個) 10
実験3 ■SNN with CNN(ReLUとの比較) ・MNIST 2x Conv, MaxPool, 2x fully-connected, 30 Epochs →99.2% ± 0.1 accuracy (ReLU: 99.2% ± 0.1) ・CIFAR10 2x Conv, MaxPool, 2x Conv, MaxPool, 2x fully-connected, 200 Epochs →82.5 ± 0.8% accuracy (ReLU: 76.1 ± 1.0%) ただし,ELUでの性能向上が報告されており,驚くべきことではないとのこと 11
まとめ • • • • SELU activation with parameters 𝛼 ≈ 1.6733 𝑎𝑛𝑑 𝜆 ≈ 1.0507 inputs normalized to zero mean and unit variance, network weights initialized with variance 1/𝑛, and regularization with “Alpha-dropout”. ご静聴ありがとうございました. 12