255 Views
December 18, 18
スライド概要
2018/12/14
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP "Meta-Learning Probablistic Inference for Prediction" 副題: Amortized Variational Inferenceを用いたメタ学習手法の、統一的理解 [DL Papers] Presentater: Kei Akuzawa, Matsuo Lab. M2 http://deeplearning.jp/ 1
書誌情報 • タイトル: META-LEARNING PROBABILISTIC INFERENCE FOR PREDICTION • 著者: Jonathan Gordon, John Bronskill, Matthias Bauer, Sebastian Nowozin, Richard E. Turner • ケンブリッジ大学が中心 • ICLR2019 under review (scores: 6, 7, 8) • https://openreview.net/forum?id=HkxStoC5F7 • TL;DR: 多くのメタ学習手法を包括するフレームワークの紹介と,それ を踏まえた新しいメタ学習手法の紹介 • (断りがない限り,本資料の図表は発表論文からの引用)
目次 • メタ学習とは? • 論文の背景 • メタ学習の統一的なフレームワークML-PIP • 関連研究 • 提案手法 • 実験 • まとめ
メタ学習とは? メタ学習の問題設定(Ravi and Larochelle 2017) メタ訓練データセット • 複数あるメタ訓練データセットは,タ スクやドメインが異なって良い. • 一つのメタ訓練データセットは訓練/テ ストデータセットに分割される。 • それぞれの訓練データセットは非常に 少ないサンプルサイズ(1~100くらい) メタテストデータセット 本当に予測を行いたいデータセット。 テスト時に得られる少数の訓練サンプル からこのデータセットに適応したい 図引用 Ravi and Larchelle 2017 • 注1. タスク:出力データが従う確率空間, ドメイン:入力データが従う確率空間 [Pan and Yang 2010] • 注2. データセットごとにタスクが違う設定の研究が多いので,それぞれのデータセットを「タスク」 と呼ぶこともある
メタ学習とは? ある決まったバイアス,すなわち仮説空間の中から,事例に応じて, 適切な仮説を獲得する普通の学習器をベース学習器という.その上位 で,学習対象のタスクやドメインに応じて,学習器のバイアスを決定 するためのメタ知識を獲得するのがメタ学習 (meta learning). • (http://ibisforest.org/index.php?メタ学習 より.2018/12/08) • (おそらく[Vilalta and Drissi 2002]の翻訳)
メタ学習とは? ある決まったバイアス,すなわち仮説空間の中から,事例に応じて, 適切な仮説を獲得する普通の学習器をベース学習器という.その上位 で,学習対象のタスクやドメインに応じて,学習器のバイアスを決定 するためのメタ知識を獲得するのがメタ学習 (meta learning). • バイアス: • 帰納バイアス(Inductive Bias)のこと.ざっくり言うとハイパラ • e.g., どの分類器を使うか,DNNのモデル構造 • 二つの仮説空間𝐻𝐿𝐴 , 𝐻𝐿𝐵 が|𝐻𝐿𝐴 | ≤ |𝐻𝐿𝐵 |を満たすなら,|𝐻𝐿𝐴 |の方がバイアスが 強い.なぜなら,「小さい仮説空間に真の仮説𝐹: 𝑋 → 𝑌が含まれている」と モデルの設計者が決めつけているから.
メタ学習とは? ある決まったバイアス,すなわち仮説空間の中から,事例に応じて, 適切な仮説を獲得する普通の学習器をベース学習器という.その上位 で,学習対象のタスクやドメインに応じて,学習器のバイアスを決定 するためのメタ知識を獲得するのがメタ学習 (meta learning). • ベース学習器: • ベース学習器:学習アルゴリズムそのものか,学習アルゴリズムによって出 力された仮説のことを言ってるのだと思う • 学習アルゴリズム:訓練データ集合𝑇から仮説空間𝐻𝐿 への写像𝐿のこと. • ここまでのまとめ: 普通の(メタでない)学習アルゴリズム𝐿はそれ に対応する仮説空間𝐻𝐿 を持っている。学習アルゴリズムとそれに付 随する𝐻𝐿 は普通設計者がヒュリスティックに決める
メタ学習とは? ある決まったバイアス,すなわち仮説空間の中から,事例に応じて, 適切な仮説を獲得する普通の学習器をベース学習器という.その上位 で,学習対象のタスクやドメインに応じて,学習器のバイアスを決定 するためのメタ知識を獲得するのがメタ学習 (meta learning). • 学習対象のタスクやドメインに応じて: • タスク:出力データの確率空間,ドメイン:入力データの確率空間 • つまり,メタ学習では訓練データセットが複数個降ってきて,それぞ れのデータセットごとに入力や出力の空間が異なる状況を想定
メタ学習とは? ある決まったバイアス,すなわち仮説空間の中から,事例に応じて, 適切な仮説を獲得する普通の学習器をベース学習器という.その上位 で,学習対象のタスクやドメインに応じて,学習器のバイアスを決定 するためのメタ知識を獲得するのがメタ学習 (meta learning). • 学習器のバイアスを決定するためのメタ知識: • バイアスを選ぶ: ある訓練データセット𝐷𝑚 を入力としたときに,背後にある 真の関数𝐹 𝑚 : 𝑋 𝑚 → 𝑌 𝑚 を効率的に(=少ないサンプルで)近似することができ る仮説空間𝐻𝐿𝑚 を選びたいということだと思う
メタ学習とは? ある決まったバイアス,すなわち仮説空間の中から,事例に応じて, 適切な仮説を獲得する普通の学習器をベース学習器という.その上位 で,学習対象のタスクやドメインに応じて,学習器のバイアスを決定 するためのメタ知識を獲得するのがメタ学習 (meta learning). • つまり,メタ学習では: • 通常設計者がヒュリスティックスに決める仮説空間𝐻𝐿𝑚 を • 複数の(タスクやドメインが異なる)データセットを活用して • データ・ドリブンに決める
論文の背景と貢献 • メタ学習の問題点: • 統一的なフレームワークがなく,様々ある既存手法の関係性の理解が難しい • この研究の貢献 • 既存のメタ学習手法を統一するようなフレームワークの紹介.例えば以下の 手法が含まれる. • MAML[Finn+ 2017] • Prototypical Nets[Snell+2017] • Conditional Neural Process[Garnelo+2018] • 既存のメタ学習手法との比較に基づいて、新しいメタ学習手法の提案 • 利点1. Rapid: 新しいタスクに対する適応が早い(DNNのForward1回 ) • 利点2. Flexible: タスクごとに,クラス数や訓練サンプル数が異なっていても良い
ML-PIP • Meta-Learning approximate Probabilistic Inference for Prediction(ML-PIP) • 著者らが提案するメタ学習の統一的なフレームワーク • 以降紹介する二つ要素を持つメタ学習手法はML-PIPに属する 1. グラフィカルモデルによる表現 2. 近似予測分布の作り方
グラフィカルモデルによる表現 ML-PIPでは,データ生成過程を以下のようにモデリングする 全てのデータセット(タスク) で共有されるパラメータ(メタ知識) t番目のデータセット(タスク) に対して固有のパラメータ t番目のテストデータセット t番目の訓練データセット
グラフィカルモデルによる表現 グラフィカルモデルを決めた-> 予測分布の形がわかる (𝜃を無視すれば) 𝜓 𝑡 は普通の分類器 データドリブンに学習された 𝜃(メタ知識)が𝜓 𝑡 の空間を規定 メタ知識による帰納バイアスっぽい
近似予測分布の作り方 • データ生成過程と,予測分布の形はわかった. • 予測分布: 𝑃 𝑦 𝑡 𝑥 𝑡 , 𝜃 = 𝑦 𝑃 𝑡 𝑥 𝑡 , 𝜓 𝑡 ,𝜃 𝑃 𝜓 𝑡 𝑥 𝑡 , 𝐷 𝑡 , 𝜃 d𝜓 𝑡 • ただし𝑃(𝜓 𝑡 |𝑥 𝑡 , 𝐷 𝑡 , 𝜃)の計算はコストが高い(または解析的に求め られない)ので,近似分布を考えてあげる
近似予測分布の作り方 • 予測分布: 𝑃 𝑦 𝑡 𝑥 𝑡 , 𝜃 = 𝑦 𝑃 𝑡 𝑥 𝑡 , 𝜓 𝑡 • 近似分布: 𝑞𝜙 𝑦 𝑡 𝑥 𝑡 , 𝜃 = 𝑦 𝑃 𝑡 𝑥 𝑡 , 𝜓 ,𝜃 𝑃 𝜓 𝑡 𝑡 , 𝜃 𝑞𝜙 𝜓 𝑥 𝑡 , 𝐷 𝑡 𝐷 𝑡 𝑡 , 𝜃 d𝜓 , 𝜃 d𝜓 𝑡 𝑡 • パラメータ𝜙を持つInference Networkを導入し 𝑃 𝜓 𝑡 𝑥 𝑡 , 𝐷 𝑡 , 𝜃 の計算を回避 • 𝑞𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 はVAEのエンコーダーのようなもの • 𝑞𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 は𝐷 𝑡 の条件付き分布=>Amotized Variational Inference(AVI) • 𝐷 𝑡 で条件づけないとVariational Inference(VI)になる. • VIでは𝜓 𝑡 の推定にBack-propが必要だが,AVIはForward一発で高速 • AVIとVIの違いはKim+2018等を参照 • Loss関数: 予測分布と近似分布のKLD最小化
関連研究 • 多くのメタ学習手法がML-PIPのフレームワークに属する • ただし𝑃 𝑦 𝑡 𝑥 𝑡 , 𝜓 • • • • 𝑡 , 𝜃 , 𝑞𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 のモデリングが異なる Gradient-based Metric-based Amortized MAP inference (今日は話さない) Conditional models trained via maximum likelihood
Gradient-based Meta-Learning 概要: 初期値𝜓0から,Gradient Descentで タスク固有のパラメータ𝜓 (𝑡) を得る 図引用 Finn+2017 • 𝑞𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 の設計: • 該当する研究 • Semi Amortized VAE (Kim+ 2018) • MAML (Finn+ 2017) • LSTM-based meta-learning (Ravi and Larochelle+ 2017) • 欠点 • 誤差逆伝播の計算量が大きい • 𝑝 𝑦 𝑥, 𝜓, 𝜃 = 𝑝 𝑦 𝑥, 𝜓 のように予測分布を簡略化してしまうことが多い
Metric-based Few-shot learning 概要: 訓練データをエンコーダーℎ𝜃 で特徴空間に移したした後に クラスごとにセントロイドを作って,テストデータとセント ロイドの距離を特徴空間で測ることによるfew-shot学習. 図引用 Snell+2017 • 𝑞𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 の設計: • 𝑃 𝑦 𝑡 𝑥 𝑡 , 𝜓 𝑡 , 𝜃 の設計: • 該当する研究 • Prototypical Nets [Snell+2017] • 欠点: • 𝑞𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 が決定論的 • 𝑝 𝑦 𝑡 𝑥 𝑡 , 𝜓 𝑡 , 𝜃 が「セントロイドとの距離を測る」という単純な近似をしてしまっている
Conditional models trained via maximum likelihood 概要: 訓練データセットを入力として して出てきた特徴量をテスト データに対する予測に使う 図引用 Garnelo+ 2018 • 𝑞𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 の設計: • 決定論的な𝑞𝜙 • 𝑞𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 を分布として考えるのではなく,データセットを入力にとって 特徴量𝜓 𝑡 (上の図の𝑟)を出力する決定論的なモデルアーキテクチャが存在して いる場合を指してるのだと思う • 該当する研究: • Conditional Neural Process [Garnelo+ 2018]
提案手法: Versatile • 概要: • • • • • • 分類版と回帰版がある 𝑞𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 が確率的(ガウス分布) 任意の訓練データ数kを入力にとれる.また入力に対してpermutation-invariant 𝑞𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 がBack-propを必要とせず高速 タスクごとにshotが異なって良い 分類版ではタスクごとにwayも異なっていて良い • way: クラス数, shot: 訓練データ数
提案手法: Versatile 分類タスク • グローバルパラメータ𝜃が各訓練データ点をエンコード(ℎ𝜃 (𝑥)) • クラスkの全サンプルのℎ𝜃 (𝑥𝑖𝑘 )をプーリングし,重みwを得る
提案手法: Versatile 分類タスク • グローバルパラメータ𝜃が,テストデータ点をエンコード(ℎ𝜃 (𝑥)) • ℎ𝜃 (𝑥)を入力に、前スライドで得た重みを使って線型分類
提案手法: Versatile 分類タスク • この𝑞𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 は何をしているのか 𝑘 𝑐 • 𝑞𝜙 𝜓 𝐷 𝑡 , 𝜃 = σ𝐶𝑐=1 𝑞𝜙 𝜓𝑐 ℎ𝜃 𝑥𝑛𝑐 𝑛=1 , 𝜃 のように,𝜓のクラスごとの独立 性を仮定している(クラスごとにPoolingをしてる点に注意) • 結局この𝑞𝜙 のどこが良いのか • クラス数がタスクごとに変わっても良い • 𝜓のクラスごとの独立性の仮定は理論が背景にあり,よい帰納バイアスに なっている(c.f. softmax, appendix B)
提案手法: Versatile 回帰タスク • xは視点でyは画像を想定.設定はGQN[Eslami+ 2018]と似てる • グローバルパラメータ𝜃はGenerator 𝑡 • 訓練データセット 𝑥𝑖 , 𝑦𝑖 𝑡 𝑘 𝑖=1 を入力に潜在変数𝜓 (𝑡) が出てくるイメージ • 注:Neural Process[Garnelo +2018]に対する優位性がわからないが,versatileの方がarxivに上がった日付は早 かったので考慮できていないのか?
実験 1. Toy data 2. Few-shot classification 1. overall results 2. versatility 3. comparision to standard and amortized VI(今日は話さない) 3. Shapenet view reconstruction
実験1. 𝑞𝜙 (𝜓|𝐷)が𝑝 (𝜓|𝐷) を近似できるかToy dataで確認 • 訓練時に近づけるのは予測分布と近似分布であって,𝑞𝜙 (𝜓|𝐷)と 𝑝 (𝜓|𝐷) を明示的に近づけたわけではないが,実際は近づく => アルゴリズムが期待通りに動いていることのサポート • 観測点が増えるほど𝑞𝜙 (𝜓|𝐷)が真の分布を近似できている
実験2-1. Overall results • データセット: • omniglot • miniImageNet • SOTA • 注:近年few-shot界隈ではResNetを特徴 抽出に使うだけでSOTAな結果が得られ ることが[Chen+2018]等で指摘されてい るが,この論文ではそうした大きなモ デルは比較対象にしていない.
実験2-2. Versatility • データセット: omniglot • テスト時に(左)wayか(右)shotを変えてもそれなりに動く(versatility) • way: クラス数, shot: 訓練データ数 • ショット数を5から10に増やしても精度があがらないのは気になる • おそらく元から99%でサチってるので参考にならない • (Prototypical Netsとかでも同じことできる気がするが……?)
実験3. Shapenet view reconstruction • GQNと同様,視点から画像の生成を行うタスク • ベースライン:CVAE • 訓練データをサンプルサイズ1にして, 𝑧~𝑞𝜙 𝑧 𝑥 と視点ラベルから生成を行なっている? • 提案法はCVAEに比べて良い結果
まとめと感想 • まとめ • • • • 近年のメタ学習手法の多くが同じデータ生成過程と予測分布を持つ Amortization大事 𝑃 𝑦 𝑡 𝑥 𝑡 , 𝜓 𝑡 , 𝜃 , 𝑞𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 の設計が重要 提案法はタスクごとにway,shotが異なっても良い. • 発表者の感想 • MAMLが流行っている印象だったが,あの𝑞𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 のモデリングがベ ストかはよく考えなければいけないなという気持ちになった • GQN[Eslami+2018]との関係は不明瞭(ML-PIPにはGQNにおけるposteriorが存在 しない)だが,GQNやNeural processもfew-shot(メタ)学習として解釈できる • GQNのように「実はメタ(few-shot)学習で記述できる重要な問題」が眠っ ているのではないか、アンテナを張ると良さそう
参考文献 • Vilalta, Y. Drissi, A perspective view and survey of meta-learning, Artificial Intelligence Review, 18 (2) (2002), pp. 77-95 • Pan, S. J. and Yang, Q.: A Survey on Transfer Learning, IEEE Trans. on Knowl. and Data Eng., Vol. 22, No. 10, pp. 1345-1359 (2010) • S. Ravi and H. Larochelle. Optimization as a model for few-shot learning. ICLR2017. • C. Finn, P. Abbeel, and S. Levine. Model-agnostic meta-learning for fast adaptation of deep networks. ICML2017. • M. Garnelo, D. Rosenbaum, C. J. Maddison, T. Ramalho, D. Saxton, M. Shanahan, Y. W. Teh, D. J. Rezende, and S. Eslami. Conditional neural processes. ICML2018
• Y. Kim, S. Wiseman, A. C. Miller, D. Sontag, and A. M. Rush. Semi-amortized variational autoencoders. In Proceedings of the 35th International Conference on Machine Learning, 2018b. • J. Snell, K. Swersky, and R. Zemel. Prototypical networks for few-shot learning. In Advances in Neural Information Processing Systems, pages 4080–4090, 2017. • Eslami, S. A., Rezende, D. J., Besse, F., Viola, F., Morcos, A. S., Garnelo, M., Ruderman, A., Rusu, A. A., Dani- helka, I., Gregor, K., et al. Neural scene representation and rendering. Science, 360(6394):1204–1210, 2018. • M. Garnelo, J. Schwarz, D. Rosenbaum, F. Viola, D. J. Rezende, S. Eslami, and Y. W. Teh. Neural processes. ICML2018 workshop on Theoretical Foundations and Applications of Deep Generative Models. • Zitian Chen, Yanwei Fu, Yinda Zhang, Leonid Sigal, Multi-level Semantic Feature Augmentation for One-shot Learning, arxiv 2018, https://arxiv.org/abs/1804.05298