[DL輪読会]Population Based Training of Neural Networks

>100 Views

December 15, 17

スライド概要

2017/12/08
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] ”Population Based Training of Neural Networks” (NIPS2017) Yusuke Iwasawa, Matsuo Lab http://deeplearning.jp/

2.

書誌情報 • ArXiv • Max Jaderberg et al., 他たくさん(全員Deep Mind) – 筆頭は”Decoupled neural interfaces using synthetic gradients”の人 • 概要 – DNNのハイパラ調整方法 • 選定理由: – なんかバズってた – 最近学習方法にちょっと興味がある 2

3.

問題:DLにおけるハイパーパラメータ • 超重要&むずい • 重要性 – 精度を高める上で(CF. DCGAN) – 精度を比較する上で(CF. ”Are GANs created Equals?”) • むずい – 多すぎて調整できない 3

4.

関連研究:Neural Architecture Search with RL Barret Zoph, et al., “Neural Architecture Search With Reinforcement Learning”, ICLR2017, 4

5.

関連研究:Neural Optimizer Search with RL 5

6.

関連研究:基本的な戦略 • Parallel Search – 複数のパラメータh1, h2, ….を複数のマシンで探索.スコアが良い モデルを採用. – 例:Random Search,Grid Search • Sequential Search – あるハイパーパラメータhを使って学習した結果得られたスコアsを 使って,利用するハイパーパラメータの事後分布を更新 – 例:Bayesian Optimization • PBT(Population Based Training)は両方の中間的な方法 6

7.

提案:Sequential, Parallel, and PBT 7

8.

提案:PBT 2. Exploit hの候補の中から精度が悪いものを良い物に変える - t-Test: 2つの候補で検定して良い方を残す(RL & MTで利用) - Truncation: 下位20%を上位20%のどれかに変更(RL & GANで利 用) - Tournament: 2つの候補で良い方を残す 3. Explore 1. 初期化 適当にhを複数決める hを微妙に変化させる - Perturb: それぞれのハイパラに少しノイズをの せる(全部で利用) - Resample: ハイパラ集合からランダムに再サン プル(RLで利用) 8

9.

え、これすごいの?と思ったあなた • たぶんその直感は正しい、と思う • 基本的には単なる遺伝的アルゴリズムの応用、と思う – 淘汰(Selection)+交叉 -> Exploit – 突然変異 -> Explore • Redditでも「これって何がすごいの?」「これただの遺伝的アルゴリズ ムの応用じゃね?->shhhhhh」というようなやり取りがなされていた • どちらかというと,手法自体というよりシンプルな方法で 精度が出せることを示したことが貢献なのかなぁと思います 9

10.

提案法の利点 • 直列な接続がないので学習が早く終る • 本当に最適化したい指標で最適化できる • Random Searchよりは効率的(探索範囲を絞ってるので) 10

11.

結果 • Toy Problemでの動作検証 • RL, MT, GANでのSoTAとの比較(最終スコア,学習曲線) • PBT自体のハイパラへのセンシティビティの確認 • PBTが学習している様子の可視化 • GANとMTの問題でのLRの変化の様子 11

12.

RL, MT, GANでのSoTAとの比較(最終スコア) 12

13.

RL, MT, GANでのSoTAとの比較(学習曲線) 13

14.

PBT自体のハイパラへのセンシティビティの確認 14

15.

PBTが学習している様子の可視化 15

16.

まとめ • 基本的には,遺伝的アルゴリズム – Redditでも「これって何がすごいの?」「これただの遺伝的アルゴ リズムの応用じゃね?->shhhhhh」というようなやり取りがなさ れていた • どちらかというと,手法自体というよりシンプルな方法で 精度が出せることを示したことが貢献なのかなぁと思います 16