[DL輪読会]Meta-Learning Probabilistic Inference for Prediction

262 Views

December 18, 18

#deep learning #Meta-learning #Deep Learning #Amortized Variational Inference #Hypothesis Space #Bias

スライド概要

2018/12/14
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 84.7K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 54.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 38.8K

【拡散モデル勉強会】拡散モデルのサンプラーまとめ

Deep Learning JP 33.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 32K

各ページのテキスト

DEEP LEARNING JP "Meta-Learning Probablistic Inference for Prediction" 副題: Amortized Variational Inferenceを用いたメタ学習手法の、統一的理解 [DL Papers] Presentater: Kei Akuzawa, Matsuo Lab. M2 http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • タイトル: META-LEARNING PROBABILISTIC INFERENCE FOR PREDICTION • 著者: Jonathan Gordon, John Bronskill, Matthias Bauer, Sebastian Nowozin, Richard E. Turner • ケンブリッジ大学が中心 • ICLR2019 under review (scores: 6, 7, 8) • https://openreview.net/forum?id=HkxStoC5F7 • TL;DR: 多くのメタ学習手法を包括するフレームワークの紹介と，それを踏まえた新しいメタ学習手法の紹介 • （断りがない限り，本資料の図表は発表論文からの引用）

https://openreview.net/forum?id=HkxStoC5F7

目次 • メタ学習とは？ • 論文の背景 • メタ学習の統一的なフレームワークML-PIP • 関連研究 • 提案手法 • 実験 • まとめ

メタ学習とは？メタ学習の問題設定（Ravi and Larochelle 2017）メタ訓練データセット • 複数あるメタ訓練データセットは，タスクやドメインが異なって良い． • 一つのメタ訓練データセットは訓練/テストデータセットに分割される。 • それぞれの訓練データセットは非常に少ないサンプルサイズ（1~100くらい）メタテストデータセット本当に予測を行いたいデータセット。テスト時に得られる少数の訓練サンプルからこのデータセットに適応したい図引用 Ravi and Larchelle 2017 • 注1. タスク：出力データが従う確率空間, ドメイン：入力データが従う確率空間 [Pan and Yang 2010] • 注2. データセットごとにタスクが違う設定の研究が多いので，それぞれのデータセットを「タスク」と呼ぶこともある

メタ学習とは？ある決まったバイアス，すなわち仮説空間の中から，事例に応じて，適切な仮説を獲得する普通の学習器をベース学習器という．その上位で，学習対象のタスクやドメインに応じて，学習器のバイアスを決定するためのメタ知識を獲得するのがメタ学習 (meta learning)． • (http://ibisforest.org/index.php?メタ学習より．2018/12/08) • (おそらく[Vilalta and Drissi 2002]の翻訳)

http://ibisforest.org/index.php?メタ学習

メタ学習とは？ある決まったバイアス，すなわち仮説空間の中から，事例に応じて，適切な仮説を獲得する普通の学習器をベース学習器という．その上位で，学習対象のタスクやドメインに応じて，学習器のバイアスを決定するためのメタ知識を獲得するのがメタ学習 (meta learning)． • バイアス： • 帰納バイアス（Inductive Bias）のこと．ざっくり言うとハイパラ • e.g., どの分類器を使うか，DNNのモデル構造 • 二つの仮説空間𝐻𝐿𝐴 , 𝐻𝐿𝐵 が|𝐻𝐿𝐴 | ≤ |𝐻𝐿𝐵 |を満たすなら，|𝐻𝐿𝐴 |の方がバイアスが強い．なぜなら，「小さい仮説空間に真の仮説𝐹: 𝑋 → 𝑌が含まれている」とモデルの設計者が決めつけているから．

メタ学習とは？ある決まったバイアス，すなわち仮説空間の中から，事例に応じて，適切な仮説を獲得する普通の学習器をベース学習器という．その上位で，学習対象のタスクやドメインに応じて，学習器のバイアスを決定するためのメタ知識を獲得するのがメタ学習 (meta learning)． • ベース学習器： • ベース学習器：学習アルゴリズムそのものか，学習アルゴリズムによって出力された仮説のことを言ってるのだと思う • 学習アルゴリズム：訓練データ集合𝑇から仮説空間𝐻𝐿 への写像𝐿のこと． • ここまでのまとめ：普通の（メタでない）学習アルゴリズム𝐿はそれに対応する仮説空間𝐻𝐿 を持っている。学習アルゴリズムとそれに付随する𝐻𝐿 は普通設計者がヒュリスティックに決める

メタ学習とは？ある決まったバイアス，すなわち仮説空間の中から，事例に応じて，適切な仮説を獲得する普通の学習器をベース学習器という．その上位で，学習対象のタスクやドメインに応じて，学習器のバイアスを決定するためのメタ知識を獲得するのがメタ学習 (meta learning)． • 学習対象のタスクやドメインに応じて: • タスク：出力データの確率空間，ドメイン：入力データの確率空間 • つまり，メタ学習では訓練データセットが複数個降ってきて，それぞれのデータセットごとに入力や出力の空間が異なる状況を想定

メタ学習とは？ある決まったバイアス，すなわち仮説空間の中から，事例に応じて，適切な仮説を獲得する普通の学習器をベース学習器という．その上位で，学習対象のタスクやドメインに応じて，学習器のバイアスを決定するためのメタ知識を獲得するのがメタ学習 (meta learning)． • 学習器のバイアスを決定するためのメタ知識: • バイアスを選ぶ: ある訓練データセット𝐷𝑚 を入力としたときに，背後にある真の関数𝐹 𝑚 : 𝑋 𝑚 → 𝑌 𝑚 を効率的に（=少ないサンプルで）近似することができる仮説空間𝐻𝐿𝑚 を選びたいということだと思う

10.

メタ学習とは？ある決まったバイアス，すなわち仮説空間の中から，事例に応じて，適切な仮説を獲得する普通の学習器をベース学習器という．その上位で，学習対象のタスクやドメインに応じて，学習器のバイアスを決定するためのメタ知識を獲得するのがメタ学習 (meta learning)． • つまり，メタ学習では： • 通常設計者がヒュリスティックスに決める仮説空間𝐻𝐿𝑚 を • 複数の（タスクやドメインが異なる）データセットを活用して • データ・ドリブンに決める

11.

論文の背景と貢献 • メタ学習の問題点： • 統一的なフレームワークがなく，様々ある既存手法の関係性の理解が難しい • この研究の貢献 • 既存のメタ学習手法を統一するようなフレームワークの紹介．例えば以下の手法が含まれる． • MAML[Finn+ 2017] • Prototypical Nets[Snell+2017] • Conditional Neural Process[Garnelo+2018] • 既存のメタ学習手法との比較に基づいて、新しいメタ学習手法の提案 • 利点1. Rapid: 新しいタスクに対する適応が早い（DNNのForward1回） • 利点2. Flexible: タスクごとに，クラス数や訓練サンプル数が異なっていても良い

12.

ML-PIP • Meta-Learning approximate Probabilistic Inference for Prediction(ML-PIP) • 著者らが提案するメタ学習の統一的なフレームワーク • 以降紹介する二つ要素を持つメタ学習手法はML-PIPに属する 1. グラフィカルモデルによる表現 2. 近似予測分布の作り方

13.

グラフィカルモデルによる表現 ML-PIPでは，データ生成過程を以下のようにモデリングする全てのデータセット（タスク）で共有されるパラメータ（メタ知識） t番目のデータセット（タスク）に対して固有のパラメータ t番目のテストデータセット t番目の訓練データセット

14.

グラフィカルモデルによる表現グラフィカルモデルを決めた-> 予測分布の形がわかる (𝜃を無視すれば) 𝜓 𝑡 は普通の分類器データドリブンに学習された 𝜃（メタ知識）が𝜓 𝑡 の空間を規定  メタ知識による帰納バイアスっぽい

15.

近似予測分布の作り方 • データ生成過程と，予測分布の形はわかった． • 予測分布： 𝑃 𝑦෤ 𝑡 𝑥෤ 𝑡 , 𝜃 = ‫𝑦 𝑃 ׬‬෤ 𝑡 𝑥෤ 𝑡 , 𝜓 𝑡 ,𝜃 𝑃 𝜓 𝑡 𝑥෤ 𝑡 , 𝐷 𝑡 , 𝜃 d𝜓 𝑡 • ただし𝑃(𝜓 𝑡 |𝑥෤ 𝑡 , 𝐷 𝑡 , 𝜃)の計算はコストが高い（または解析的に求められない）ので，近似分布を考えてあげる

16.

近似予測分布の作り方 • 予測分布: 𝑃 𝑦෤ 𝑡 𝑥෤ 𝑡 , 𝜃 = ‫𝑦 𝑃 ׬‬෤ 𝑡 𝑥෤ 𝑡 , 𝜓 𝑡 • 近似分布: 𝑞𝜙 𝑦෤ 𝑡 𝑥෤ 𝑡 , 𝜃 = ‫𝑦 𝑃 ׬‬෤ 𝑡 𝑥෤ 𝑡 , 𝜓 ,𝜃 𝑃 𝜓 𝑡 𝑡 , 𝜃 𝑞𝜙 𝜓 𝑥෤ 𝑡 , 𝐷 𝑡 𝐷 𝑡 𝑡 , 𝜃 d𝜓 , 𝜃 d𝜓 𝑡 𝑡 • パラメータ𝜙を持つInference Networkを導入し 𝑃 𝜓 𝑡 𝑥෤ 𝑡 , 𝐷 𝑡 , 𝜃 の計算を回避 • 𝑞𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 はVAEのエンコーダーのようなもの • 𝑞𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 は𝐷 𝑡 の条件付き分布=>Amotized Variational Inference（AVI） • 𝐷 𝑡 で条件づけないとVariational Inference(VI)になる． • VIでは𝜓 𝑡 の推定にBack-propが必要だが，AVIはForward一発で高速 • AVIとVIの違いはKim+2018等を参照 • Loss関数: 予測分布と近似分布のKLD最小化

17.

関連研究 • 多くのメタ学習手法がML-PIPのフレームワークに属する • ただし𝑃 𝑦෤ 𝑡 𝑥෤ 𝑡 , 𝜓 • • • • 𝑡 , 𝜃 , 𝑞𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 のモデリングが異なる Gradient-based Metric-based Amortized MAP inference (今日は話さない) Conditional models trained via maximum likelihood

18.

Gradient-based Meta-Learning 概要: 初期値𝜓0から，Gradient Descentでタスク固有のパラメータ𝜓 (𝑡) を得る図引用 Finn+2017 • 𝑞𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 の設計: • 該当する研究 • Semi Amortized VAE (Kim+ 2018) • MAML (Finn+ 2017) • LSTM-based meta-learning (Ravi and Larochelle+ 2017) • 欠点 • 誤差逆伝播の計算量が大きい • 𝑝 𝑦 𝑥, 𝜓, 𝜃 = 𝑝 𝑦 𝑥, 𝜓 のように予測分布を簡略化してしまうことが多い

19.

Metric-based Few-shot learning 概要：訓練データをエンコーダーℎ𝜃 で特徴空間に移したした後にクラスごとにセントロイドを作って，テストデータとセントロイドの距離を特徴空間で測ることによるfew-shot学習．図引用 Snell+2017 • 𝑞𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 の設計: • 𝑃 𝑦෤ 𝑡 𝑥෤ 𝑡 , 𝜓 𝑡 , 𝜃 の設計: • 該当する研究 • Prototypical Nets [Snell+2017] • 欠点: • 𝑞𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 が決定論的 • 𝑝 𝑦෤ 𝑡 𝑥෤ 𝑡 , 𝜓 𝑡 , 𝜃 が「セントロイドとの距離を測る」という単純な近似をしてしまっている

20.

Conditional models trained via maximum likelihood 概要：訓練データセットを入力としてして出てきた特徴量をテストデータに対する予測に使う図引用 Garnelo+ 2018 • 𝑞𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 の設計: • 決定論的な𝑞𝜙 • 𝑞𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 を分布として考えるのではなく，データセットを入力にとって特徴量𝜓 𝑡 (上の図の𝑟)を出力する決定論的なモデルアーキテクチャが存在している場合を指してるのだと思う • 該当する研究: • Conditional Neural Process [Garnelo+ 2018]

21.

提案手法: Versatile • 概要: • • • • • • 分類版と回帰版がある 𝑞𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 が確率的（ガウス分布）任意の訓練データ数kを入力にとれる．また入力に対してpermutation-invariant 𝑞𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 がBack-propを必要とせず高速タスクごとにshotが異なって良い分類版ではタスクごとにwayも異なっていて良い • way: クラス数， shot: 訓練データ数

22.

提案手法: Versatile 分類タスク • グローバルパラメータ𝜃が各訓練データ点をエンコード（ℎ𝜃 (𝑥)） • クラスkの全サンプルのℎ𝜃 (𝑥𝑖𝑘 )をプーリングし，重みwを得る

23.

提案手法: Versatile 分類タスク • グローバルパラメータ𝜃が，テストデータ点をエンコード（ℎ𝜃 (𝑥)） ෤ • ℎ𝜃 (𝑥)を入力に、前スライドで得た重みを使って線型分類 ෤

24.

提案手法: Versatile 分類タスク • この𝑞𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 は何をしているのか 𝑘 𝑐 • 𝑞𝜙 𝜓 𝐷 𝑡 , 𝜃 = σ𝐶𝑐=1 𝑞𝜙 𝜓𝑐 ℎ𝜃 𝑥𝑛𝑐 𝑛=1 , 𝜃 のように，𝜓のクラスごとの独立性を仮定している（クラスごとにPoolingをしてる点に注意） • 結局この𝑞𝜙 のどこが良いのか • クラス数がタスクごとに変わっても良い • 𝜓のクラスごとの独立性の仮定は理論が背景にあり，よい帰納バイアスになっている(c.f. softmax, appendix B)

25.

提案手法: Versatile 回帰タスク • xは視点でyは画像を想定．設定はGQN[Eslami+ 2018]と似てる • グローバルパラメータ𝜃はGenerator 𝑡 • 訓練データセット 𝑥𝑖 , 𝑦𝑖 𝑡 𝑘 𝑖=1 を入力に潜在変数𝜓 (𝑡) が出てくるイメージ • 注：Neural Process[Garnelo +2018]に対する優位性がわからないが，versatileの方がarxivに上がった日付は早かったので考慮できていないのか？

26.

実験 1. Toy data 2. Few-shot classification 1. overall results 2. versatility 3. comparision to standard and amortized VI（今日は話さない） 3. Shapenet view reconstruction

27.

28.

実験2-1. Overall results • データセット: • omniglot • miniImageNet • SOTA • 注：近年few-shot界隈ではResNetを特徴抽出に使うだけでSOTAな結果が得られることが[Chen+2018]等で指摘されているが，この論文ではそうした大きなモデルは比較対象にしていない．

29.

実験2-2. Versatility • データセット: omniglot • テスト時に(左)wayか(右)shotを変えてもそれなりに動く（versatility） • way: クラス数， shot: 訓練データ数 • ショット数を5から10に増やしても精度があがらないのは気になる • おそらく元から99%でサチってるので参考にならない • （Prototypical Netsとかでも同じことできる気がするが……？）

30.

実験3. Shapenet view reconstruction • GQNと同様，視点から画像の生成を行うタスク • ベースライン：CVAE • 訓練データをサンプルサイズ1にして， 𝑧~𝑞𝜙 𝑧 𝑥 と視点ラベルから生成を行なっている？ • 提案法はCVAEに比べて良い結果

31.

まとめと感想 • まとめ • • • • 近年のメタ学習手法の多くが同じデータ生成過程と予測分布を持つ Amortization大事 𝑃 𝑦෤ 𝑡 𝑥෤ 𝑡 , 𝜓 𝑡 , 𝜃 , 𝑞𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 の設計が重要提案法はタスクごとにway，shotが異なっても良い． • 発表者の感想 • MAMLが流行っている印象だったが，あの𝑞𝜙 𝜓 𝑡 𝐷 𝑡 , 𝜃 のモデリングがベストかはよく考えなければいけないなという気持ちになった • GQN[Eslami+2018]との関係は不明瞭(ML-PIPにはGQNにおけるposteriorが存在しない)だが，GQNやNeural processもfew-shot（メタ）学習として解釈できる • GQNのように「実はメタ（few-shot）学習で記述できる重要な問題」が眠っているのではないか、アンテナを張ると良さそう

32.

参考文献 • Vilalta, Y. Drissi, A perspective view and survey of meta-learning, Artificial Intelligence Review, 18 (2) (2002), pp. 77-95 • Pan, S. J. and Yang, Q.: A Survey on Transfer Learning, IEEE Trans. on Knowl. and Data Eng., Vol. 22, No. 10, pp. 1345-1359 (2010) • S. Ravi and H. Larochelle. Optimization as a model for few-shot learning. ICLR2017. • C. Finn, P. Abbeel, and S. Levine. Model-agnostic meta-learning for fast adaptation of deep networks. ICML2017. • M. Garnelo, D. Rosenbaum, C. J. Maddison, T. Ramalho, D. Saxton, M. Shanahan, Y. W. Teh, D. J. Rezende, and S. Eslami. Conditional neural processes. ICML2018

33.

• Y. Kim, S. Wiseman, A. C. Miller, D. Sontag, and A. M. Rush. Semi-amortized variational autoencoders. In Proceedings of the 35th International Conference on Machine Learning, 2018b. • J. Snell, K. Swersky, and R. Zemel. Prototypical networks for few-shot learning. In Advances in Neural Information Processing Systems, pages 4080–4090, 2017. • Eslami, S. A., Rezende, D. J., Besse, F., Viola, F., Morcos, A. S., Garnelo, M., Ruderman, A., Rusu, A. A., Dani- helka, I., Gregor, K., et al. Neural scene representation and rendering. Science, 360(6394):1204–1210, 2018. • M. Garnelo, J. Schwarz, D. Rosenbaum, F. Viola, D. J. Rezende, S. Eslami, and Y. W. Teh. Neural processes. ICML2018 workshop on Theoretical Foundations and Applications of Deep Generative Models. • Zitian Chen, Yanwei Fu, Yinda Zhang, Leonid Sigal, Multi-level Semantic Feature Augmentation for One-shot Learning, arxiv 2018, https://arxiv.org/abs/1804.05298

https://arxiv.org/abs/1804.05298