528 Views
April 21, 23
スライド概要
2023/4/14
Deep Learning JP
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Dropout Reduces Underfitting 4/12 Taichi Okunishi http://deeplearning.jp/ 1
書誌情報 ■ タイトル ▪ ■ 出典 ▪ ■ Meta AI, UC Berkeley の研究者ら 出版年月 ▪ ■ https://arxiv.org/abs/2303.01500 著者 ▪ ■ Dropout Reduces Underfitting [1] 2023年3月 コード ▪ https://github.com/facebookresearch/dropout DL輪読会 2023/10/10 Taichi Okunishi 2
概要 ■ ドロップアウト ▪ ■ 本来、ニューラルネットの overfitting を防ぐための正則化手法として Hinton らによって導入 [2] 本研究 ▪ ▪ ドロップアウトが初期段階において、underfitting も軽減していることを実証 ▪ ドロップアウトがミニバッチ間の勾配のばらつきを減らす役割 ▪ モデルがデータに適合するのを助ける early dropout と late dropoutを提案・有用性の検証 ▪ early dropout は初期の underfitting を低減 ▪ late dropout は後期の overfitting を低減 ▪ early dropout, late dropout はタスクで使い分け DL輪読会 2023/10/10 Taichi Okunishi 3
前提知識:ドロップアウトの原理 [2] ■ ドロップアウト ▪ 訓練時に一定割合のユニットをランダムにドロップ ▪ 推論時は,全てのユニットを使って推論 ▪ データ目線では,異なるネットワークに入力 ▪ ネットワークのアンサンブルとして機能 ▪ 図: ドロップアウトの原理 [2] overfitting を低減・汎化性能を向上 本研究: ドロップアウトは、 underfitting も低減させているのではないか? DL輪読会 2023/10/10 Taichi Okunishi 4
ドロップアウトが underfitting を防ぐ理由 (1/3) ■ 実験から分かった2つの事実 ▪ 勾配のノルム ▪ ▪ 𝑔 を計算 2 ▪ ドロップアウトを用いると小さく ▪ 勾配更新量 (歩幅) は小さく 図: 勾配のノルム 初期点からの移動距離 ▪ ▪ 𝑊1 − 𝑊2 2 を計算 ドロップアウトを用いると移動距離は大きく 図: 移動距離 ■ ドロップアウトを用いると、歩幅は小さいが、移動距離は大きい → 仮説: 勾配が蛇行をせずに一定方向に進んでいるのでは?(右図) DL輪読会 2023/10/10 Taichi Okunishi 5
ドロップアウトが underfitting を防ぐ理由 (2/3) ■ 本当に一定方向に進んでいるのか? ▪ 勾配の方向の分散を算出 ▪ ドロップアウトありの方が、初期段階で分散は小さい → 一定方向に進むという仮説は妥当 → その方向は,正しい方向なのかという新しい疑問 DL輪読会 2023/10/10 Taichi Okunishi 6
ドロップアウトが underfitting を防ぐ理由 (3/3) ■ 正しい方向に進んでいるのか? ▪ 真の勾配とミニバッチの勾配方向の誤差を算出 ▪ 学習初期では,ドロップアウトありの方が,真の勾配方向に近い ▪ ▪ 正しい方向に一定に進んでいる ▪ モデルがデータに適合しやすくなり、 underfitting を低減 学習後期では、ドロップアウトありだと、真の勾配から離れる ▪ 勾配のノイズにより、フラットな解に収束し、overfitting を低減 DL輪読会 2023/10/10 Taichi Okunishi 7
実験 ■ 実験目的: Early dropout と late dropout の有用性の確認 ▪ early dropout を用いて underfitting の低減を期待 ▪ late dropout を用いて overfitting の低減を期待 ■ ImageNet-1K 分類タスクで,通常のドロップアウト,early dropout, late dropout を比較 ■ stochastic depth [3] も同様に検証 ▪ Stochastic depth: 残差ブロックを一定確率でドロップ ▪ スキップ接続のドロップアウトとみなせる ▪ ドロップアウトと同様な特性を持つはず 図: stochastic depth[3] の概要 DL輪読会 2023/10/10 Taichi Okunishi 8
結果 | early dropout の結果 ■ 比較的サイズの小さいモデル (ViT-T) を使用し,underfitting が問題になるように設定 ■ 標準のドロップアウト・標準の s.d. により,正解率は劣化,訓練誤差は上昇 ▪ ■ 大量のデータが利用可能な場合,標準のドロップアウトは,適切ではない可能性 early dropout ・early s.d. により、正解率を改善、訓練誤差は減少 ▪ 初期段階の underfitting を低減し,訓練誤差を減らす ▪ モデルがデータに適合しやすくなる DL輪読会 2023/10/10 Taichi Okunishi 9
結果|late dropout (late s.d.) の結果 ■ 比較的サイズの大きいモデル (ViT-B) を使用し,overfitting が問題になるように設定 ■ ドロップアウトの代わりに stochastic depth で実験 ■ late s.d. は,標準の s.d. と比べて,精度が改善 ▪ 先行研究の linear-increasing s.d. , curriculum s.d. [4] よりも高い精度 ▪ 効果的に overfiting を低減 DL輪読会 2023/10/10 Taichi Okunishi 10
まとめ ■ 背景 ▪ ■ ■ ドロップアウトは,overfitting を低減するために Hinton らによって導入 本研究 ▪ いくつかの実験事実から,ドロップアウトは学習初期で underfitting を低減するという仮説を提唱 ▪ early dropout, late dropout を提案,その有用性を検証 実験・結果 ▪ ImageNetの分類タスクで,early dropout と late dropout を標準のドロップアウトと比較 ▪ early dropout はunderfitting を低減させ,late dropout はoverfitting を低減することを実証 DL輪読会 2023/10/10 Taichi Okunishi 11
参考文献 [1] Z. Liu, Z. Xu, J. Jin, Z. Shen, and T. Darrell, “Dropout Reduces Underfitting.” arXiv, Mar. 02, 2023. doi: 10.48550/arXiv.2303.01500. [2] N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov, “Dropout: A Simple Way to Prevent Neural Networks from Overfitting”. [3] G. Huang, Y. Sun, Z. Liu, D. Sedra, and K. Weinberger, “Deep Networks with Stochastic Depth.” arXiv, Jul. 28, 2016. Accessed: Apr. 14, 2023. [Online]. [4] P. Morerio, J. Cavazza, R. Volpi, R. Vidal, and V. Murino, “Curriculum Dropout.” arXiv, Aug. 03, 2017. Accessed: Apr. 14, 2023. [Online]. DL輪読会 2023/10/10 Taichi Okunishi 12