[DL輪読会]OOD-MAML : Meta-Learning for Few-Shot Out-of- Distribution Detection and Classification

139 Views

December 04, 20

スライド概要

2020/12/04
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] OOD-MAML : Meta-Learning for Few-Shot Out-ofDistribution Detection and Classification Yuting Lin, Kokusai Kogyo Co., Ltd.(国際航業) http://deeplearning.jp/ 1

2.

書籍情報 • タイトル  OOD-MAML : Meta-Learning for Few-Shot Out-of-Distribution Detection and Classification • 著者  Taewon Jeong, Heeyoung Kim (KAIST) • NeurIPS2020に採択 • Paper  https://proceedings.neurips.cc/paper/2020/file/28e209b61a52482a0ae1cb9f5959c7 92-Paper.pdf • Code  https://github.com/twj-KAIST/OOD-MAML 2

3.

Motivation • few-shot learningの前提は:①train dataとtest dataの分布が同じ②対象と なるカテゴリ情報をtrain dataに含まれること • few-shot classificationとout-of-distribution(OOD) detectionを同時にやり たい train data test data 3

4.

概要 • 課題  train dataが少なく、OODサンプルがない • 提案手法の概要  meta learningでfew-shot classificationを解く  特定のmeta-parametersの勾配により、fakeサンプルを生成し、OODサンプルとする  model-agnostic meta learning (MAML)に基づき、 few-shot classificationとOOD detectionを同時に解けるOOD-MAMLを提案 4

5.

背景 • 一般的なmeta learningのデータセット  𝐷𝑚𝑒𝑡𝑎−𝑡𝑟𝑎𝑖𝑛 =  𝐷𝑚𝑒𝑡𝑎−𝑡𝑒𝑠𝑡 = 𝑁𝑚𝑒𝑡𝑎−𝑡𝑟𝑎𝑖𝑛 𝑖 𝑖 𝐷𝑡𝑟𝑎𝑖𝑛 , 𝐷𝑡𝑒𝑠𝑡 𝑖=1 𝑗 𝑗 𝐷𝑡𝑟𝑎𝑖𝑛 , 𝐷𝑡𝑒𝑠𝑡 𝑁𝑚𝑒𝑡𝑎−𝑡𝑒𝑠𝑡 𝑗=1 𝑖 𝑖 where, 𝑁𝑚𝑒𝑡𝑎−𝑡𝑟𝑎𝑖𝑛 は分類タスクの数、 𝐷𝑡𝑟𝑎𝑖𝑛 , 𝐷𝑡𝑒𝑠𝑡 はタスク𝑇𝑖 のtrain/testデータ 𝑖 𝐷𝑡𝑟𝑎𝑖𝑛 =K×Nサンプル(K-shot N-way classification) 𝑖 𝐷𝑡𝑒𝑠𝑡 =1×Nサンプル 𝐷𝑚𝑒𝑡𝑎−𝑡𝑟𝑎𝑖𝑛 と𝐷𝑚𝑒𝑡𝑎−𝑡𝑒𝑠𝑡 は異なる 5

6.

既往研究 • MAML  ベースDNNモデル𝑓𝜃 に対し、複数タスクを学習することにより、他のタスクでも早く 学習できるモデルのmetaパラメータ𝜃を取得  タスク𝑇𝑖 に対し、 task-specificパラメータを最適化 𝑖 𝑖 𝜃𝑎𝑑𝑎𝑝𝑡 = 𝜃 − 𝛼𝛻𝜃 𝐿 𝑇𝑖 𝑓𝜃 𝐷𝑡𝑟𝑎𝑖𝑛  metaパラメータ𝜃は、全てのタスクにおいて、SGDにより最適化 → タスク𝑇𝑖 に適 用するmetaパラメータ𝜃を取得 𝜃 ← 𝜃 − 𝛽 𝛻𝜃 ෍ 𝐿 𝑇𝑖 𝑓𝜃𝑖 𝑇𝑖 ~𝑃(𝑇) 𝑎𝑑𝑎𝑝𝑡 𝑖 𝐷𝑡𝑒𝑠𝑡 6

7.

既往研究 • OOD detection  UQ(uncertainty quantification) ベースの手法が多い  in-distributionのsoftmax scoreがOODより高いことを利用[1]  ODIN(Out-of-Distribution detector for Neural network)[2]は、temperature scalingと adversarial perturbationにより、[1]を改良  MAH:各クラスの事後分布との距離とadversarial perturbationにより、SOTAを達成[3] [1] Hendrycks, D. and Gimpel, K. (2016). A baseline for detecting misclassified and out-of-distribution examples in neural networks. arXiv preprint arXiv:1610.02136. [2] Liang, S., Li, Y., and Srikant, R. (2017). Enhancing the reliability of out-of-distribution image detection in neural networks. arXiv preprint arXiv:1706.02690. [3] Lee, K., Lee, K., Lee, H., and Shin, J. (2018). A simple unified framework for detecting out-of-distribution samples and adversarial attacks. In Advances in Neural Information Processing Systems, pages 7167–7177. 7

8.

提案手法 • 人間の学習の過程により、手法を構築  人間は段階的に、一文字ずつ学習  同時に、OODを学習 train test is A task 1 A / not A not B not A task 2 B / not B not B 8

9.

提案手法 • データセット  𝐷𝑚𝑒𝑡𝑎−𝑡𝑟𝑎𝑖𝑛 : 𝑖  𝑇𝑖 :1クラス+OOD(fake samples)の2クラス分類 ⇒ 𝐷𝑡𝑟𝑎𝑖𝑛 = 𝑥1𝑖 , ⋯ 𝑥𝐾𝑖  𝐷𝑚𝑒𝑡𝑎−𝑡𝑒𝑠𝑡 :  K-shot N-way分類+OOD detectionを同時に行う 𝑗𝑛 𝑗  sub taskを設け、1クラス+OODの2クラス分類 ⇒ 𝐷𝑡𝑟𝑎𝑖𝑛 = 𝑥𝑛𝑘 1≤𝑘≤𝐾 9

10.

提案手法 • Base model 𝑓𝜃 (DNN) 𝑖  𝐷𝑡𝑟𝑎𝑖𝑛 のLoss関数  𝐿𝑖𝑛 𝜃;𝑇𝑖 = 1 𝐾 − σ𝑘=1 log 𝑓𝜃 𝑘 𝑥𝑘𝑖  各taskは1クラス+OODによる2クラス分類のため、通常のMAML(𝜃 𝑖 = 𝜃 − 𝛼𝛻𝜃 𝐿𝑖𝑛 𝜃;𝑇𝑖 ) で最適化する場合、分類境界の精度が低くなる  fake-sample parameter vector 𝜃𝑓𝑎𝑘𝑒 = 𝜃𝑓𝑎𝑘𝑒,1 , ⋯ 𝜃𝑓𝑎𝑘𝑒,𝑀 をtask間のOODサンプ ルの初期値とする 𝑜𝑢𝑡 𝑖  𝐿𝜃;𝑇𝑖 𝐷𝑡𝑟𝑎𝑖𝑛 , 𝜃𝑓𝑎𝑘𝑒 = 𝐿𝑖𝑛 + 𝐿 𝜃;𝑇𝑖 𝜃;𝑇𝑖 𝜃𝑓𝑎𝑘𝑒 1 𝑘 𝑖 = − σ𝐾 log 𝑓 𝑥 𝜃 𝑘=1 𝑘 − 1 𝑀 σ log 𝑀 𝑚=1 1 − 𝑓𝜃 𝜃𝑓𝑎𝑘𝑒,𝑚 10

11.

提案手法  meta-training  タスク毎にmeta-parameterを最適化 𝑖 𝜃 𝑖 = 𝜃 − 𝛼𝛻𝜃 𝐿𝑖𝑛 𝜃;𝑇𝑖 𝐷𝑡𝑟𝑎𝑖𝑛 , 𝜃𝑓𝑎𝑘𝑒 (1)  タスク毎に𝜃𝑓𝑎𝑘𝑒 も最適化  GANは勾配消失や、mode collapseなどの課題があるため、gradient updatingで𝜃𝑓𝑎𝑘𝑒 を最適化 (adversarial gradient updating) 𝑖  𝐿𝜃;𝑇𝑖 𝐷𝑡𝑟𝑎𝑖𝑛 , 𝜃𝑓𝑎𝑘𝑒 における𝜃𝑓𝑎𝑘𝑒 の勾配が小さい傾向になるため、sign関数とmeta-SGDを適用 𝑖 𝑖 𝜃𝑓𝑎𝑘𝑒 = 𝜃𝑓𝑎𝑘𝑒 − 𝛽𝑓𝑎𝑘𝑒 ⊙ 𝑠𝑖𝑔𝑛 −𝛻𝜃𝑓𝑎𝑘𝑒 𝐿𝜃;𝑇𝑖 𝐷𝑡𝑟𝑎𝑖𝑛 , 𝜃𝑓𝑎𝑘𝑒 (2)  MAMLと同様に、base modelを最適化 𝑖 𝑖 𝑖 𝜃𝑎𝑑𝑎𝑝𝑡 = 𝜃 − 𝛼𝛻𝜃 𝐿𝜃;𝑇𝑖 𝐷𝑡𝑟𝑎𝑖𝑛 , 𝜃𝑓𝑎𝑘𝑒 , 𝜃𝑓𝑎𝑘𝑒 (3)  𝐷𝑡𝑒𝑠𝑡 で全体を最適化 𝑖 𝜃, 𝜃𝑓𝑎𝑘𝑒 , 𝛽𝑓𝑎𝑘𝑒 ← 𝜃, 𝜃𝑓𝑎𝑘𝑒 , 𝛽𝑓𝑎𝑘𝑒 − 𝛾𝛻 𝜃,𝜃𝑓𝑎𝑘𝑒,𝛽𝑓𝑎𝑘𝑒 σ𝑇𝑖 ~𝑃(𝑇) 𝐿 𝐷𝑡𝑒𝑠𝑡 (4) 11

12.

提案手法  meta-testing 𝑗𝑛  sub-taskはmeta-trainingと同じsetupのため、式(1), (2), (3)と同様に𝜃𝑎𝑑𝑎𝑝𝑡 を最適化  for validation: 𝑝 𝑗 𝑥 = 𝑓𝜃𝑗1 𝑎𝑑𝑎𝑝𝑡 𝑥 , ⋯ 𝑓𝜃𝑗𝑁 𝑥 𝑎𝑑𝑎𝑝𝑡  2クラス分類のため、閾値λでOODか否かを判別  TPR(true positive ratio)でλを決める [4] Zhang, R., Che, T., Ghahramani, Z., Bengio, Y., and Song, Y. (2018). Metagan: An adversarial approach to few-shot learning. In Advances in Neural Information Processing Systems, pages 2365–2374. 12

13.

実験 • 学習setting  meta-training  𝐷𝑡𝑟𝑎𝑖𝑛 :5-shot data in one class  𝐷𝑡𝑒𝑠𝑡 :25 in-distribution samples, 25 OOD samples  meta-testing  𝐷𝑡𝑟𝑎𝑖𝑛 :5-shot 5-way data  𝐷𝑡𝑒𝑠𝑡 :25 in-distribution samples, 25 OOD samples  dataset  Omniglot, CIFAR-FS, miniImageNet  比較手法  ODIN(Prototypical networks, MAML), MAH(MAML), (N+1)MAML, (N+1)MAML with fake samples 13

14.

実験 • 評価基準  OOD detection TNR(true negative ratio)@α%TPR(𝐷𝑡𝑟𝑎𝑖𝑛 𝑜𝑓𝐷𝑚𝑒𝑡𝑎−𝑡𝑒𝑠𝑡 ) :TNR=TN/(TN+FP) detection accuracy: 𝐷𝑡𝑒𝑠𝑡 におけるin-distributionとOODの判別精度  classification accuracy for K-shot N-way classification 14

15.

実験結果 • 1000タスクにおけるOOD detection精度評価  平均と標準偏差  M = fake sample number • 提案手法OOD-MAMLの有効 性を確認 • 性能はfake sampleの数に頑強 15

16.

実験結果 • 1000taskにおけるfew-shot learning分類精度(OODを除外した場合)  MAMLの性能を少し上回る  クラス数にもロバスト 16

17.

実験結果 • fake sample最適化に関する検証 𝑖 𝜃 𝑖 = 𝜃 − 𝛼𝛻𝜃 𝐿𝑖𝑛 𝐷 𝑡𝑟𝑎𝑖𝑛 , 𝜃𝑓𝑎𝑘𝑒 𝜃;𝑇𝑖  全タスク固定(task-agnostic ODD) (1) in-distribution sample + 𝜃𝑓𝑎𝑘𝑒 で分類境界を推定 𝑖 𝑖 𝑖  タスク毎に最適化(task-specific OOD、提案手法) 𝜃𝑎𝑑𝑎𝑝𝑡 = 𝜃 − 𝛼𝛻𝜃 𝐿𝜃;𝑇𝑖 𝐷𝑡𝑟𝑎𝑖𝑛 , 𝜃𝑓𝑎𝑘𝑒 , 𝜃𝑓𝑎𝑘𝑒 in-distribution sample +( 𝜃𝑓𝑎𝑘𝑒 + 𝑖 𝜃𝑓𝑎𝑘𝑒 )で分類境界を推定  提案手法は分類境界の推定精度を向上  提案手法はfake sampleを正しく最適化できる in-distribution feature 𝑠𝑢𝑛 𝜃𝑓𝑎𝑘𝑒 feature OOD feature 𝑚𝑜𝑡𝑜 𝜃𝑓𝑎𝑘𝑒 feature generated from 𝑇𝑚𝑜𝑡𝑜 𝜃𝑓𝑎𝑘𝑒 feature 17 (3)

18.

まとめ • 新しい教師ありOOD detection手法を提案  既存の教師なし学習手法の、大量な学習データが必要、モデルの不確実性があると の課題を解決  meta learningにより、few-shot classificationとOOD detectionを同時に解決する手法 を提案  fake sampleをlossの勾配で最適化することで、分類境界の推定精度を向上  新しいタスクに早く適用できるため、実利用に向く 18