【DL輪読会】AutoDropout: Learning Dropout Patterns to Regularize Deep Networks

>100 Views

January 22, 21

スライド概要

2021/01/22
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] AutoDropout: Learning Dropout Patterns to Regularize Deep Networks Jun Hozumi, Matsuo Lab http://deeplearning.jp/ 1

2.

書誌情報 • Title: AutoDropout: Learning Dropout Patterns to Regularize Deep Networks • Author: Hieu Pham and Quoc V. Le • Google Research, Brain Team • Date: 5 Jan 2021 • Conf.: AAAI 2021 (Accepted) • Paper: https://arxiv.org/abs/2101.01761v1 • スライド中の図表は本論文から引用 • 詳細な議論は元論文やgithub上のコードを参照してください 2

3.

背景 • 近年のNNは過学習を避けるための正則化が必要で、その一般的なものがDropout • Dropoutの仕方を特定のパターンにすることで、ランダムより高い性能を発揮することが 知られている • その事例によって、その適したパターンは異なる • たとえば、多層LSTMでは垂直に接続されたニューロンのみをDropすべき • Variational Dropoutでは時間次元に沿ってDropパターンを共有 • だけど、どっちもTransformerでは用いられない • 一方で、画像分野ではVanilla DropoutはConvNetの全結合層のみ用いられる • Stochastic DepthやDropPath、DropBrockなど特定の構造でDropする手法もある • などなど… 3

4.

目的 • 過去の研究を調査するだけで最適なDropoutパターンを設計することは困難である • ならば、それ自体を学習させてしまえばいいのではないか? • 本研究では対象とするモデルやタスク、ドメインに特化したDropOutパターンを自動で 設計するAutoDropoutを提案する 4

5.

目的 • AutoDropoutの主な貢献として構造化されたDropOutパターンの探索空間の提案がある • その探索空間によって、多くの既存のDropOutパターンを一般化する • AutoDropoutは強化学習で訓練されたコントローラを持つ • • その報酬は対象とするモデルでのvalidationスコア • 分散強化学習ベースの探索アルゴリズム AutoAugmentと同様、既存のパイプラインに埋め込めるようにする 5

6.

関連研究(本研究の位置づけ) • 本研究はNeural Architecture SerachやAutoAugmentと同じ系列の研究 • • 探索空間を設計して、そこから強化学習で探索するアプローチ また、AutoDropoutは隠れ状態のデータ拡張の研究であるとも捉えられる • ドメイン固有のデータ拡張ではなく、画像と文章でも同じ哲学で設計される 6

7.

本研究での記法 • 本研究ではDropOutパターンは既存研究と同様に、要素ごとの乗算マスクで表現する • ℎ層へDropoutするために、ℎと同サイズのバイナリマスク𝑚を適用し、スケールする • 本研究では、テンソルを(𝑁, 𝑑1, 𝑑2, … , 𝑑𝑘, 𝐶)と表現する • • 𝑁はバッチの次元、𝐶は特徴量の次元、𝑑は時空間の次元 • ConvNetは(𝑁, 𝐻, 𝑊, 𝐶)、𝐻と𝑊は層の高さと幅 • Transformerの出力は(𝑁, 𝑇, 𝐶)、𝑇はトークン数を表す時間次元 ConvNetとTransformerでテンソル表現が異なるので、前者から考えていく 7

8.

ConvNetでのDropoutパターン • 隣接する長方形からなる基本パターンを作成し、それに幾何学的変換を行う • そのパターンをどの位置に適用するか決定し、バッチ正規化層の出力に適用する • 他の位置で適用すると、検索時に訓練が不安定になるため • Residualコネクションに適用するかもコントローラで選択する 8

9.

Dropoutパターンを決めるパラメータ • パターンを決めるパラメータは以下の通り 9

10.

パターンの探索アルゴリズム(1) • コントローラをTransformerネットワークでパラメータ(𝜃)化し、訓練する • 移動平均を用いたREINFORCEアルゴリズムで探索する 10

11.

パターンの探索アルゴリズム(2) • 𝜃をモンテカルロ勾配推定で最適化する • 𝑏は移動平均ベースライン、𝑀はバッチサイズ(𝑀 = 16) • Perf(𝑟)はDropoutパターン𝑟でプロキシタスクの検証セットを学習することで測定する • 全データセットを使うと時間がかかるので、一部データのみを使用したプロキシタスクを用いる 11

12.

コントローラの並行訓練のための工夫 • 探索を効率よく並行して行えるようにするために、Importance Samplingを行う • 従来手法では𝑀個のDropoutパターンのミニバッチ学習を待ってから𝜃 を更新するが、学習に時間 がかかったり失敗したりするので、そこがボトルネックになることがあるため 12

13.

Transformerの場合 • 対象がTransformerの場合は、以下のように変わる • sizeは適用トークン数、strideはスキップされるトークン数 • share_tはsize数のトークン間で、share_cはチャネル間でパターンを共有するか否か • Word Dropoutは「share_c=True」、VariationalDropoutは「size=𝑇」と「share_t=True」で実現する 13

14.

Dropoutパターンの適用箇所 • TransformerはConvNetと異なり、Dropoutパターンが様々なサブレイヤーに適用できる • それぞれに独立したDropoutパターンを適用する • そのパターンのサイズが0となった場合、そこにはDropoutが適用されない 14

15.

実験概要 • • AutoDropoutをConvNetとTransformerの両方に適用して実験を行う • ConvNet: 教師あり画像分類、半教師あり画像分類 • Transformer: 言語モデリング、機械翻訳 最後に、パターン探索性能をランダムサーチと比較する 15

16.

結果: ConvNet(教師あり学習) • AutoDropoutは他の正則化手法に比べて高いパフォーマンスを示した • 他のデータ拡張手法と組み合わせた場合、AutoDropout+RandAugmentが、CIFAR-10と ImageNetの両方のパフォーマンスを向上させた 16

17.

Dropoutパターンの定性分析 • 得られたDropOutパターンを可視化したところ、最初と最後に異なるパターンのDropout をかけると有効であることが分かった • マスクされる場所を変えると精度が1%低下した(ResNet-50) 17

18.

結果: ConvNet(半教師あり学習) • 半教師あり学習でもAutoDropoutの効果を検証した • • CIFAR-10では4000、ImageNetでは10%のみラベルを付与 Unpervised Data Augmentation(UDA)と組み合わせたところ、最も良い結果を示した 18

19.

実験: Transformer • PennTreebankデータセットを用いたTransformer-XLの言語モデリングにAutoDropout を適用した • そのモデルをWikitext-2の言語モデリングや他データセットの機械翻訳に転移させた • いずれの実験においても高いパフォーマンスを記録した 19

20.

Dropoutパターンの定性分析 • 得られたパターンはVariational Dropoutに類似しているが、少し異なる • 全レイヤーにVariational Dropoutを適用するとPerprexityが59.8となり性能は悪化する 20

21.

探索手法の比較 • Neural Architecture Searchにおいては、ランダムサーチが良いベースラインであること が知られている • AutoDropoutの探索とランダムサーチでパターンのサンプリングを比較した • AutoDropOutで発見されたパターンのほうが高いパフォーマンスを示した 21

22.

結論 • 本研究ではDropOutパターンを自動設計するAutoDropoutを提案した • 本手法によりConvNetやTransformerに適したDropoutパターンを発見できた • AutoDropoutの弱点は計算量が多くなることであるため、今後の方向性としては、より効 率的な検索アプローチが求められる • 計算コストが高くても、AutoAugmentと同様に、発見されたパターンをSOTAモデルに 適用することで簡単に利用できる • Autoaugmentで発見した拡張パターンはCIFAR-10やImageNetのSOTAモデルに使用されている 22