[DL Hacks] Shake-drop by keras

103 Views

November 12, 19

#deep learning #Shake-drop #Keras #Overfitting #Regularization #Image Recognition

スライド概要

2019/10/07
Deep Learning JP:
http://deeplearning.jp/hacks/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 89.3K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 63.9K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60.6K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 45K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 44.1K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 42.5K

各ページのテキスト

Shake-drop by keras DLHacks 論文実装（2019.10.7） AlgoAge 林佳音

Agenda ➤ 選定理由 ➤ 概要・アーキテクチャ詳細 ➤ Shake-shake ➤ Stochastic ➤ Random depth (Resdrop) erasing ➤ Shake-drop ➤ 実装 ➤ 実験

選定理由 ➤ 画像認識タスクで過学習してしまった ➤ ➤ imgaugやハイパーパラメータの調整では治らず中間層にaugmentationを入れる手法を使ってみる ➤ Dropout等より効果があるという研究結果（後述） ➤ shake-shakeかshake-dropか？ ➤ ➤ DLHacksで既にshake-shakeの論文実装はされていた ➤ しかもshake-shakeは既にkerasの実装が出ていた ➤ shake-dropの方が過学習抑制効果が強い shake-dropをkerasで実装する ➤ 過学習を解決したいモデルがkerasで書かれていたので

Shake-shake 概要 ➤ 書誌情報 ➤ ➤ Shake-Shake regularization ➤ 著者：Xavier Gastaldi ➤ ICLR2017（workshop） ➤ 実装（PyTorch）参考資料 ➤ DLHacksでの論文実装

Shake-shake 概要 ➤ モチベーション ➤ resnetのoverﬁtを解決したい ➤ ➤ data augmentationは今まで入力画像に対して使われてきたが、中間層の特徴表現にかけても良いのでは？結果 ➤ 単体で使った場合test errorsでbest score（当初） ➤ CIFAR-10: 2.86% ➤ CIFAR-100: 15.85%

Shake-shake アーキテクチャ ➤ ➤ Residual unitの最後にランダムな係数（0~1）をかける ➤ 通常のResidual unitならこう（2branchの場合） ➤ shake-shakeの場合(0<=α<=1) ➤ 2つの分岐をランダムに混ぜる（shake） ➤ 特徴の割合が変わってもロバストになる要素ごとにではなく、特徴マップ全体にかける

Shake-shake アーキテクチャ ➤ forwardとbackwardで係数を変え、Test時は0.5（期待値） ➤ ➤ 実験結果から Unitごとに係数を変える（元論文より転載）

Stochastic depth (resdrop) 概要 ➤ 書誌情報 ➤ Deep Networks with Stochastic Depth ➤ ➤ 著者：Gao Huang, Yu Sun, Zhuang Liu, Daniel Sedra, Kilian Q. Weinberger ➤ 人工知能学会第33回全国大会（2019） ➤ 実装（pytorch）参考資料 ➤ 解説記事

Stochastic depth (resdrop) 概要 ➤ モチベーション ➤ ➤ ResNetの学習時間を短縮したい手法（ざっくり） ➤ Residual unitをランダムにdropする ➤ ➤ 正則化の効果あり出力に近いunitほどdropさせやすくする ➤ “期待値で見た時の層”が浅くなる

10.

Random Erasing 概要 ➤ 書誌情報 ➤ Random Erasing Data Augmentation ➤ ➤ ➤ 著者：Zhun Zhong, Liang Zheng, Guoliang Kang, Shaozi Li, Yi Yang 実装（PyTorch）参考資料 ➤ 実装記事

11.

Random Erasing 概要 ➤ モデル正則化のための新しいaugmentation手法 ➤ ➤ 1日違いで発表されたcutoutとよく似ているモチベーション ➤ 画像の場合、dropoutしても相関関係で補完できてしまう ➤ ➤ 正則化の効果が薄い入力画像をランダムにdrop

12.

Random Erasing 概要 ➤ 手法（ざっくり） ➤ マスクをするか否かランダムに決める（推奨50%） ➤ 何%をマスクするかランダムに決める（推奨2~40%） ➤ アスペクト比をランダムに決める（推奨0.3~1/0.3）（元論文より転載）

13.

Shake-drop 概要 ➤ 書誌情報 ➤ ➤ ResNetsに対する新たな正則化手法ShakeDropの提案 ➤ 著者：山田良博, 岩村雅一, 黄瀬浩一 ➤ 人工知能学会第33回全国大会（2019） ➤ 実装（Torch）参考資料 ➤ 解説記事

14.

Shake-drop 概要 ➤ ➤ モチベーション ➤ shake-shakeは2branchのResidual Unitを前提にしている ➤ 1branchにshake-shakeを無理やり組み込んでも不安定になる ➤ 簡単に実験したらエラー率77.99%だったとのこと ➤ ResDropの手法を組み込んで安定化を図る結果 ➤ shake-shakeを超えてtest errorsでbest score（当初） ➤ CIFAR-100: 12.19%

15.

Shake-drop アーキテクチャ ➤ ➤ Resdropはunitをdropさせていたが、それをshake-shakeに似たもので置き換え上図はℓ番目のunitの構成（参考資料より転載の上加筆） ➤ bℓは確率pℓで1, 1-pℓで0を取るベルヌーイ変数(なのでどちらかを通る) ➤ pℓ = 1 - ℓ/2L （L: unit数） ➤ 出力に近い（ℓが大きい）ほどPℓは小さくなり、shakeされやすくなる

16.

Shake-drop アーキテクチャ（参考資料より転載の上加筆） ➤ pℓ=0（bℓ=0）の時全てのunitでshake ➤ pℓ=1（bℓ=1）の時は通常のResNetと同じ ➤ αℓ, βℓはスケーリングの一様乱数 ➤ ➤ αℓ=βℓ=0の時Resdropと同じ（unitがdropされるだけ）テスト時はforwardのスケーリングの期待値をかける

17.

Shake-drop アーキテクチャ ➤ 以下の条件を満たすモデルで使用可能 ➤ 加算直前にBatchNormがある ➤ 加算直後にReLUがない ➤ 予備実験の結果（詳しくは記載なし） ➤ BatchNormが必要なのは、一度分布を揃えるためか？ ➤ ➤ ➤ ➤ 揃えないとshakeの強さにバラつきが出そう ReLUが不要なのは、情報削りすぎになるから？実験の際はこの条件を満たす構造に変更している入力画像のaugmentationとしてrandom erasingを使用

18.

Shake-drop アーキテクチャ（元論文より転載） ➤ αℓ: -1~1, βℓ: 0~1の時に最高 ➤ forwardのshakeは強い方が良い ➤ αとβの正負が異なる時、パラメータを戻すことになる ➤ 時々これが入ることで間違った方向に行きすぎなくて済む？ ➤ βℓ: -1~1だとshakeが強すぎる

19.

Shake-drop 実験結果 ➤ 1branchの時（元論文より転載） ➤ 正則化なし、Resdrop、Shake-dropで比較

20.

Shake-drop 実験結果 ➤ 2branchの時（元論文より転載） ➤ shakeをbranch同士のaddの前に入れるか後に入れるか？ ➤ 前がType-A、後がType-Bで、Type-Bの方が良かった ➤ 直感的には、初期値が違うだけのbranch同士でshakeしても意味なさそう ➤ 直進のやつとbranchとの比較でスケール見た方が確かに良さそう

21.

実装 ➤ ➤ 参考 ➤ Shake-drop(Pytorch) ➤ Shake-shake(Keras) 実装 ➤ Qiita記事

22.

実験 ➤ shakedropありなしで比較 ➤ ➤ その他の条件（データ数や学習率など）は同一 validation lossに20epoch改善が見られなければ打ち切り（kerasのearlystoppingを使用） ➤ 1epochが短いので20にした

23.

実験結果 ➤ shakedropありなしで比較 ➤ 上がshakedropなし、下があり ➤ 左がtraining lossで右がvalidation loss

24.

実験結果 ➤ ➤ validation lossの最小値 ➤ shakedropなし: 6423 ➤ shakedropあり: 6086 学習にかかった時間（1epochはどちらも約17分） ➤ shakedropなし: 48 epoch ➤ shakedropあり: 46 epoch