[DL輪読会]OOD-MAML : Meta-Learning for Few-Shot Out-of- Distribution Detection and Classification

315 Views

December 04, 20

#deep learning #Deep Learning #Meta-Learning #OOD-MAML #Few-Shot Learning #Out-of-Distribution Detection

スライド概要

2020/12/04
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 87.4K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 58.7K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.5K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 38K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 37.6K

各ページのテキスト

DEEP LEARNING JP [DL Papers] OOD-MAML : Meta-Learning for Few-Shot Out-ofDistribution Detection and Classification Yuting Lin, Kokusai Kogyo Co., Ltd.(国際航業) http://deeplearning.jp/ 1

http://deeplearning.jp/

書籍情報 • タイトル  OOD-MAML : Meta-Learning for Few-Shot Out-of-Distribution Detection and Classification • 著者  Taewon Jeong, Heeyoung Kim （KAIST） • NeurIPS2020に採択 • Paper  https://proceedings.neurips.cc/paper/2020/file/28e209b61a52482a0ae1cb9f5959c7 92-Paper.pdf • Code  https://github.com/twj-KAIST/OOD-MAML 2

Motivation • few-shot learningの前提は：①train dataとtest dataの分布が同じ②対象となるカテゴリ情報をtrain dataに含まれること • few-shot classificationとout-of-distribution(OOD) detectionを同時にやりたい train data test data 3

概要 • 課題  train dataが少なく、OODサンプルがない • 提案手法の概要  meta learningでfew-shot classificationを解く  特定のmeta-parametersの勾配により、fakeサンプルを生成し、OODサンプルとする  model-agnostic meta learning (MAML)に基づき、 few-shot classificationとOOD detectionを同時に解けるOOD-MAMLを提案 4

背景 • 一般的なmeta learningのデータセット  𝐷𝑚𝑒𝑡𝑎−𝑡𝑟𝑎𝑖𝑛 =  𝐷𝑚𝑒𝑡𝑎−𝑡𝑒𝑠𝑡 = 𝑁𝑚𝑒𝑡𝑎−𝑡𝑟𝑎𝑖𝑛 𝑖 𝑖 𝐷𝑡𝑟𝑎𝑖𝑛 , 𝐷𝑡𝑒𝑠𝑡 𝑖=1 𝑗 𝑗 𝐷𝑡𝑟𝑎𝑖𝑛 , 𝐷𝑡𝑒𝑠𝑡 𝑁𝑚𝑒𝑡𝑎−𝑡𝑒𝑠𝑡 𝑗=1 𝑖 𝑖 where, 𝑁𝑚𝑒𝑡𝑎−𝑡𝑟𝑎𝑖𝑛 は分類タスクの数、 𝐷𝑡𝑟𝑎𝑖𝑛 , 𝐷𝑡𝑒𝑠𝑡 はタスク𝑇𝑖 のtrain/testデータ 𝑖 𝐷𝑡𝑟𝑎𝑖𝑛 =K×Nサンプル（K-shot N-way classification） 𝑖 𝐷𝑡𝑒𝑠𝑡 =1×Nサンプル 𝐷𝑚𝑒𝑡𝑎−𝑡𝑟𝑎𝑖𝑛 と𝐷𝑚𝑒𝑡𝑎−𝑡𝑒𝑠𝑡 は異なる 5

既往研究 • MAML  ベースDNNモデル𝑓𝜃 に対し、複数タスクを学習することにより、他のタスクでも早く学習できるモデルのmetaパラメータ𝜃を取得  タスク𝑇𝑖 に対し、 task-specificパラメータを最適化 𝑖 𝑖 𝜃𝑎𝑑𝑎𝑝𝑡 = 𝜃 − 𝛼𝛻𝜃 𝐿 𝑇𝑖 𝑓𝜃 𝐷𝑡𝑟𝑎𝑖𝑛  metaパラメータ𝜃は、全てのタスクにおいて、SGDにより最適化 → タスク𝑇𝑖 に適用するmetaパラメータ𝜃を取得 𝜃 ← 𝜃 − 𝛽 𝛻𝜃 ෍ 𝐿 𝑇𝑖 𝑓𝜃𝑖 𝑇𝑖 ~𝑃(𝑇) 𝑎𝑑𝑎𝑝𝑡 𝑖 𝐷𝑡𝑒𝑠𝑡 6

既往研究 • OOD detection  UQ(uncertainty quantification) ベースの手法が多い  in-distributionのsoftmax scoreがOODより高いことを利用[1]  ODIN(Out-of-Distribution detector for Neural network)[2]は、temperature scalingと adversarial perturbationにより、[1]を改良  MAH:各クラスの事後分布との距離とadversarial perturbationにより、SOTAを達成[3] [1] Hendrycks, D. and Gimpel, K. (2016). A baseline for detecting misclassified and out-of-distribution examples in neural networks. arXiv preprint arXiv:1610.02136. [2] Liang, S., Li, Y., and Srikant, R. (2017). Enhancing the reliability of out-of-distribution image detection in neural networks. arXiv preprint arXiv:1706.02690. [3] Lee, K., Lee, K., Lee, H., and Shin, J. (2018). A simple unified framework for detecting out-of-distribution samples and adversarial attacks. In Advances in Neural Information Processing Systems, pages 7167–7177. 7

提案手法 • 人間の学習の過程により、手法を構築  人間は段階的に、一文字ずつ学習  同時に、OODを学習 train test is A task 1 A / not A not B not A task 2 B / not B not B 8

提案手法 • データセット  𝐷𝑚𝑒𝑡𝑎−𝑡𝑟𝑎𝑖𝑛 ： 𝑖  𝑇𝑖 ：1クラス+OOD（fake samples）の2クラス分類 ⇒ 𝐷𝑡𝑟𝑎𝑖𝑛 = 𝑥1𝑖 , ⋯ 𝑥𝐾𝑖  𝐷𝑚𝑒𝑡𝑎−𝑡𝑒𝑠𝑡 ：  K-shot N-way分類+OOD detectionを同時に行う 𝑗𝑛 𝑗  sub taskを設け、1クラス+OODの2クラス分類 ⇒ 𝐷𝑡𝑟𝑎𝑖𝑛 = 𝑥𝑛𝑘 1≤𝑘≤𝐾 9

10.

提案手法 • Base model 𝑓𝜃 (DNN) 𝑖  𝐷𝑡𝑟𝑎𝑖𝑛 のLoss関数  𝐿𝑖𝑛 𝜃;𝑇𝑖 = 1 𝐾 − σ𝑘=1 log 𝑓𝜃 𝑘 𝑥𝑘𝑖  各taskは1クラス+OODによる2クラス分類のため、通常のMAML（𝜃 𝑖 = 𝜃 − 𝛼𝛻𝜃 𝐿𝑖𝑛 𝜃;𝑇𝑖 ）で最適化する場合、分類境界の精度が低くなる  fake-sample parameter vector 𝜃𝑓𝑎𝑘𝑒 = 𝜃𝑓𝑎𝑘𝑒,1 , ⋯ 𝜃𝑓𝑎𝑘𝑒,𝑀 をtask間のOODサンプルの初期値とする 𝑜𝑢𝑡 𝑖  𝐿𝜃;𝑇𝑖 𝐷𝑡𝑟𝑎𝑖𝑛 , 𝜃𝑓𝑎𝑘𝑒 = 𝐿𝑖𝑛 + 𝐿 𝜃;𝑇𝑖 𝜃;𝑇𝑖 𝜃𝑓𝑎𝑘𝑒 1 𝑘 𝑖 = − σ𝐾 log 𝑓 𝑥 𝜃 𝑘=1 𝑘 − 1 𝑀 σ log 𝑀 𝑚=1 1 − 𝑓𝜃 𝜃𝑓𝑎𝑘𝑒,𝑚 10

11.

提案手法  meta-training  タスク毎にmeta-parameterを最適化 𝑖 𝜃 𝑖 = 𝜃 − 𝛼𝛻𝜃 𝐿𝑖𝑛 𝜃;𝑇𝑖 𝐷𝑡𝑟𝑎𝑖𝑛 , 𝜃𝑓𝑎𝑘𝑒 (1)  タスク毎に𝜃𝑓𝑎𝑘𝑒 も最適化  GANは勾配消失や、mode collapseなどの課題があるため、gradient updatingで𝜃𝑓𝑎𝑘𝑒 を最適化（adversarial gradient updating） 𝑖  𝐿𝜃;𝑇𝑖 𝐷𝑡𝑟𝑎𝑖𝑛 , 𝜃𝑓𝑎𝑘𝑒 における𝜃𝑓𝑎𝑘𝑒 の勾配が小さい傾向になるため、sign関数とmeta-SGDを適用 𝑖 𝑖 𝜃𝑓𝑎𝑘𝑒 = 𝜃𝑓𝑎𝑘𝑒 − 𝛽𝑓𝑎𝑘𝑒 ⊙ 𝑠𝑖𝑔𝑛 −𝛻𝜃𝑓𝑎𝑘𝑒 𝐿𝜃;𝑇𝑖 𝐷𝑡𝑟𝑎𝑖𝑛 , 𝜃𝑓𝑎𝑘𝑒 (2)  MAMLと同様に、base modelを最適化 𝑖 𝑖 𝑖 𝜃𝑎𝑑𝑎𝑝𝑡 = 𝜃 − 𝛼𝛻𝜃 𝐿𝜃;𝑇𝑖 𝐷𝑡𝑟𝑎𝑖𝑛 , 𝜃𝑓𝑎𝑘𝑒 , 𝜃𝑓𝑎𝑘𝑒 (3)  𝐷𝑡𝑒𝑠𝑡 で全体を最適化 𝑖 𝜃, 𝜃𝑓𝑎𝑘𝑒 , 𝛽𝑓𝑎𝑘𝑒 ← 𝜃, 𝜃𝑓𝑎𝑘𝑒 , 𝛽𝑓𝑎𝑘𝑒 − 𝛾𝛻 𝜃,𝜃𝑓𝑎𝑘𝑒,𝛽𝑓𝑎𝑘𝑒 σ𝑇𝑖 ~𝑃(𝑇) 𝐿 𝐷𝑡𝑒𝑠𝑡 (4) 11

12.

提案手法  meta-testing 𝑗𝑛  sub-taskはmeta-trainingと同じsetupのため、式(1), (2), (3)と同様に𝜃𝑎𝑑𝑎𝑝𝑡 を最適化  for validation: 𝑝 𝑗 𝑥 = 𝑓𝜃𝑗1 𝑎𝑑𝑎𝑝𝑡 𝑥 , ⋯ 𝑓𝜃𝑗𝑁 𝑥 𝑎𝑑𝑎𝑝𝑡  2クラス分類のため、閾値λでOODか否かを判別  TPR(true positive ratio)でλを決める [4] Zhang, R., Che, T., Ghahramani, Z., Bengio, Y., and Song, Y. (2018). Metagan: An adversarial approach to few-shot learning. In Advances in Neural Information Processing Systems, pages 2365–2374. 12

13.

実験 • 学習setting  meta-training  𝐷𝑡𝑟𝑎𝑖𝑛 ：5-shot data in one class  𝐷𝑡𝑒𝑠𝑡 ：25 in-distribution samples, 25 OOD samples  meta-testing  𝐷𝑡𝑟𝑎𝑖𝑛 ：5-shot 5-way data  𝐷𝑡𝑒𝑠𝑡 ：25 in-distribution samples, 25 OOD samples  dataset  Omniglot, CIFAR-FS, miniImageNet  比較手法  ODIN(Prototypical networks, MAML), MAH(MAML), (N+1)MAML, (N+1)MAML with fake samples 13

14.

実験 • 評価基準  OOD detection TNR(true negative ratio)@α%TPR(𝐷𝑡𝑟𝑎𝑖𝑛 𝑜𝑓𝐷𝑚𝑒𝑡𝑎−𝑡𝑒𝑠𝑡 ) :TNR=TN/(TN+FP) detection accuracy: 𝐷𝑡𝑒𝑠𝑡 におけるin-distributionとOODの判別精度  classification accuracy for K-shot N-way classification 14

15.

実験結果 • 1000タスクにおけるOOD detection精度評価  平均と標準偏差  M = fake sample number • 提案手法OOD-MAMLの有効性を確認 • 性能はfake sampleの数に頑強 15

16.

実験結果 • 1000taskにおけるfew-shot learning分類精度（OODを除外した場合）  MAMLの性能を少し上回る  クラス数にもロバスト 16

17.

実験結果 • fake sample最適化に関する検証 𝑖 𝜃 𝑖 = 𝜃 − 𝛼𝛻𝜃 𝐿𝑖𝑛 𝐷 𝑡𝑟𝑎𝑖𝑛 , 𝜃𝑓𝑎𝑘𝑒 𝜃;𝑇𝑖  全タスク固定(task-agnostic ODD) (1) in-distribution sample + 𝜃𝑓𝑎𝑘𝑒 で分類境界を推定 𝑖 𝑖 𝑖  タスク毎に最適化(task-specific OOD、提案手法) 𝜃𝑎𝑑𝑎𝑝𝑡 = 𝜃 − 𝛼𝛻𝜃 𝐿𝜃;𝑇𝑖 𝐷𝑡𝑟𝑎𝑖𝑛 , 𝜃𝑓𝑎𝑘𝑒 , 𝜃𝑓𝑎𝑘𝑒 in-distribution sample +( 𝜃𝑓𝑎𝑘𝑒 + 𝑖 𝜃𝑓𝑎𝑘𝑒 )で分類境界を推定  提案手法は分類境界の推定精度を向上  提案手法はfake sampleを正しく最適化できる in-distribution feature 𝑠𝑢𝑛 𝜃𝑓𝑎𝑘𝑒 feature OOD feature 𝑚𝑜𝑡𝑜 𝜃𝑓𝑎𝑘𝑒 feature generated from 𝑇𝑚𝑜𝑡𝑜 𝜃𝑓𝑎𝑘𝑒 feature 17 (3)

18.

まとめ • 新しい教師ありOOD detection手法を提案  既存の教師なし学習手法の、大量な学習データが必要、モデルの不確実性があるとの課題を解決  meta learningにより、few-shot classificationとOOD detectionを同時に解決する手法を提案  fake sampleをlossの勾配で最適化することで、分類境界の推定精度を向上  新しいタスクに早く適用できるため、実利用に向く 18