139 Views
December 04, 20
スライド概要
2020/12/04
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] OOD-MAML : Meta-Learning for Few-Shot Out-ofDistribution Detection and Classification Yuting Lin, Kokusai Kogyo Co., Ltd.(国際航業) http://deeplearning.jp/ 1
書籍情報 • タイトル OOD-MAML : Meta-Learning for Few-Shot Out-of-Distribution Detection and Classification • 著者 Taewon Jeong, Heeyoung Kim (KAIST) • NeurIPS2020に採択 • Paper https://proceedings.neurips.cc/paper/2020/file/28e209b61a52482a0ae1cb9f5959c7 92-Paper.pdf • Code https://github.com/twj-KAIST/OOD-MAML 2
Motivation • few-shot learningの前提は:①train dataとtest dataの分布が同じ②対象と なるカテゴリ情報をtrain dataに含まれること • few-shot classificationとout-of-distribution(OOD) detectionを同時にやり たい train data test data 3
概要 • 課題 train dataが少なく、OODサンプルがない • 提案手法の概要 meta learningでfew-shot classificationを解く 特定のmeta-parametersの勾配により、fakeサンプルを生成し、OODサンプルとする model-agnostic meta learning (MAML)に基づき、 few-shot classificationとOOD detectionを同時に解けるOOD-MAMLを提案 4
背景 • 一般的なmeta learningのデータセット 𝐷𝑚𝑒𝑡𝑎−𝑡𝑟𝑎𝑖𝑛 = 𝐷𝑚𝑒𝑡𝑎−𝑡𝑒𝑠𝑡 = 𝑁𝑚𝑒𝑡𝑎−𝑡𝑟𝑎𝑖𝑛 𝑖 𝑖 𝐷𝑡𝑟𝑎𝑖𝑛 , 𝐷𝑡𝑒𝑠𝑡 𝑖=1 𝑗 𝑗 𝐷𝑡𝑟𝑎𝑖𝑛 , 𝐷𝑡𝑒𝑠𝑡 𝑁𝑚𝑒𝑡𝑎−𝑡𝑒𝑠𝑡 𝑗=1 𝑖 𝑖 where, 𝑁𝑚𝑒𝑡𝑎−𝑡𝑟𝑎𝑖𝑛 は分類タスクの数、 𝐷𝑡𝑟𝑎𝑖𝑛 , 𝐷𝑡𝑒𝑠𝑡 はタスク𝑇𝑖 のtrain/testデータ 𝑖 𝐷𝑡𝑟𝑎𝑖𝑛 =K×Nサンプル(K-shot N-way classification) 𝑖 𝐷𝑡𝑒𝑠𝑡 =1×Nサンプル 𝐷𝑚𝑒𝑡𝑎−𝑡𝑟𝑎𝑖𝑛 と𝐷𝑚𝑒𝑡𝑎−𝑡𝑒𝑠𝑡 は異なる 5
既往研究 • MAML ベースDNNモデル𝑓𝜃 に対し、複数タスクを学習することにより、他のタスクでも早く 学習できるモデルのmetaパラメータ𝜃を取得 タスク𝑇𝑖 に対し、 task-specificパラメータを最適化 𝑖 𝑖 𝜃𝑎𝑑𝑎𝑝𝑡 = 𝜃 − 𝛼𝛻𝜃 𝐿 𝑇𝑖 𝑓𝜃 𝐷𝑡𝑟𝑎𝑖𝑛 metaパラメータ𝜃は、全てのタスクにおいて、SGDにより最適化 → タスク𝑇𝑖 に適 用するmetaパラメータ𝜃を取得 𝜃 ← 𝜃 − 𝛽 𝛻𝜃 𝐿 𝑇𝑖 𝑓𝜃𝑖 𝑇𝑖 ~𝑃(𝑇) 𝑎𝑑𝑎𝑝𝑡 𝑖 𝐷𝑡𝑒𝑠𝑡 6
既往研究 • OOD detection UQ(uncertainty quantification) ベースの手法が多い in-distributionのsoftmax scoreがOODより高いことを利用[1] ODIN(Out-of-Distribution detector for Neural network)[2]は、temperature scalingと adversarial perturbationにより、[1]を改良 MAH:各クラスの事後分布との距離とadversarial perturbationにより、SOTAを達成[3] [1] Hendrycks, D. and Gimpel, K. (2016). A baseline for detecting misclassified and out-of-distribution examples in neural networks. arXiv preprint arXiv:1610.02136. [2] Liang, S., Li, Y., and Srikant, R. (2017). Enhancing the reliability of out-of-distribution image detection in neural networks. arXiv preprint arXiv:1706.02690. [3] Lee, K., Lee, K., Lee, H., and Shin, J. (2018). A simple unified framework for detecting out-of-distribution samples and adversarial attacks. In Advances in Neural Information Processing Systems, pages 7167–7177. 7
提案手法 • 人間の学習の過程により、手法を構築 人間は段階的に、一文字ずつ学習 同時に、OODを学習 train test is A task 1 A / not A not B not A task 2 B / not B not B 8
提案手法 • データセット 𝐷𝑚𝑒𝑡𝑎−𝑡𝑟𝑎𝑖𝑛 : 𝑖 𝑇𝑖 :1クラス+OOD(fake samples)の2クラス分類 ⇒ 𝐷𝑡𝑟𝑎𝑖𝑛 = 𝑥1𝑖 , ⋯ 𝑥𝐾𝑖 𝐷𝑚𝑒𝑡𝑎−𝑡𝑒𝑠𝑡 : K-shot N-way分類+OOD detectionを同時に行う 𝑗𝑛 𝑗 sub taskを設け、1クラス+OODの2クラス分類 ⇒ 𝐷𝑡𝑟𝑎𝑖𝑛 = 𝑥𝑛𝑘 1≤𝑘≤𝐾 9
提案手法 • Base model 𝑓𝜃 (DNN) 𝑖 𝐷𝑡𝑟𝑎𝑖𝑛 のLoss関数 𝐿𝑖𝑛 𝜃;𝑇𝑖 = 1 𝐾 − σ𝑘=1 log 𝑓𝜃 𝑘 𝑥𝑘𝑖 各taskは1クラス+OODによる2クラス分類のため、通常のMAML(𝜃 𝑖 = 𝜃 − 𝛼𝛻𝜃 𝐿𝑖𝑛 𝜃;𝑇𝑖 ) で最適化する場合、分類境界の精度が低くなる fake-sample parameter vector 𝜃𝑓𝑎𝑘𝑒 = 𝜃𝑓𝑎𝑘𝑒,1 , ⋯ 𝜃𝑓𝑎𝑘𝑒,𝑀 をtask間のOODサンプ ルの初期値とする 𝑜𝑢𝑡 𝑖 𝐿𝜃;𝑇𝑖 𝐷𝑡𝑟𝑎𝑖𝑛 , 𝜃𝑓𝑎𝑘𝑒 = 𝐿𝑖𝑛 + 𝐿 𝜃;𝑇𝑖 𝜃;𝑇𝑖 𝜃𝑓𝑎𝑘𝑒 1 𝑘 𝑖 = − σ𝐾 log 𝑓 𝑥 𝜃 𝑘=1 𝑘 − 1 𝑀 σ log 𝑀 𝑚=1 1 − 𝑓𝜃 𝜃𝑓𝑎𝑘𝑒,𝑚 10
提案手法 meta-training タスク毎にmeta-parameterを最適化 𝑖 𝜃 𝑖 = 𝜃 − 𝛼𝛻𝜃 𝐿𝑖𝑛 𝜃;𝑇𝑖 𝐷𝑡𝑟𝑎𝑖𝑛 , 𝜃𝑓𝑎𝑘𝑒 (1) タスク毎に𝜃𝑓𝑎𝑘𝑒 も最適化 GANは勾配消失や、mode collapseなどの課題があるため、gradient updatingで𝜃𝑓𝑎𝑘𝑒 を最適化 (adversarial gradient updating) 𝑖 𝐿𝜃;𝑇𝑖 𝐷𝑡𝑟𝑎𝑖𝑛 , 𝜃𝑓𝑎𝑘𝑒 における𝜃𝑓𝑎𝑘𝑒 の勾配が小さい傾向になるため、sign関数とmeta-SGDを適用 𝑖 𝑖 𝜃𝑓𝑎𝑘𝑒 = 𝜃𝑓𝑎𝑘𝑒 − 𝛽𝑓𝑎𝑘𝑒 ⊙ 𝑠𝑖𝑔𝑛 −𝛻𝜃𝑓𝑎𝑘𝑒 𝐿𝜃;𝑇𝑖 𝐷𝑡𝑟𝑎𝑖𝑛 , 𝜃𝑓𝑎𝑘𝑒 (2) MAMLと同様に、base modelを最適化 𝑖 𝑖 𝑖 𝜃𝑎𝑑𝑎𝑝𝑡 = 𝜃 − 𝛼𝛻𝜃 𝐿𝜃;𝑇𝑖 𝐷𝑡𝑟𝑎𝑖𝑛 , 𝜃𝑓𝑎𝑘𝑒 , 𝜃𝑓𝑎𝑘𝑒 (3) 𝐷𝑡𝑒𝑠𝑡 で全体を最適化 𝑖 𝜃, 𝜃𝑓𝑎𝑘𝑒 , 𝛽𝑓𝑎𝑘𝑒 ← 𝜃, 𝜃𝑓𝑎𝑘𝑒 , 𝛽𝑓𝑎𝑘𝑒 − 𝛾𝛻 𝜃,𝜃𝑓𝑎𝑘𝑒,𝛽𝑓𝑎𝑘𝑒 σ𝑇𝑖 ~𝑃(𝑇) 𝐿 𝐷𝑡𝑒𝑠𝑡 (4) 11
提案手法 meta-testing 𝑗𝑛 sub-taskはmeta-trainingと同じsetupのため、式(1), (2), (3)と同様に𝜃𝑎𝑑𝑎𝑝𝑡 を最適化 for validation: 𝑝 𝑗 𝑥 = 𝑓𝜃𝑗1 𝑎𝑑𝑎𝑝𝑡 𝑥 , ⋯ 𝑓𝜃𝑗𝑁 𝑥 𝑎𝑑𝑎𝑝𝑡 2クラス分類のため、閾値λでOODか否かを判別 TPR(true positive ratio)でλを決める [4] Zhang, R., Che, T., Ghahramani, Z., Bengio, Y., and Song, Y. (2018). Metagan: An adversarial approach to few-shot learning. In Advances in Neural Information Processing Systems, pages 2365–2374. 12
実験 • 学習setting meta-training 𝐷𝑡𝑟𝑎𝑖𝑛 :5-shot data in one class 𝐷𝑡𝑒𝑠𝑡 :25 in-distribution samples, 25 OOD samples meta-testing 𝐷𝑡𝑟𝑎𝑖𝑛 :5-shot 5-way data 𝐷𝑡𝑒𝑠𝑡 :25 in-distribution samples, 25 OOD samples dataset Omniglot, CIFAR-FS, miniImageNet 比較手法 ODIN(Prototypical networks, MAML), MAH(MAML), (N+1)MAML, (N+1)MAML with fake samples 13
実験 • 評価基準 OOD detection TNR(true negative ratio)@α%TPR(𝐷𝑡𝑟𝑎𝑖𝑛 𝑜𝑓𝐷𝑚𝑒𝑡𝑎−𝑡𝑒𝑠𝑡 ) :TNR=TN/(TN+FP) detection accuracy: 𝐷𝑡𝑒𝑠𝑡 におけるin-distributionとOODの判別精度 classification accuracy for K-shot N-way classification 14
実験結果 • 1000タスクにおけるOOD detection精度評価 平均と標準偏差 M = fake sample number • 提案手法OOD-MAMLの有効 性を確認 • 性能はfake sampleの数に頑強 15
実験結果 • 1000taskにおけるfew-shot learning分類精度(OODを除外した場合) MAMLの性能を少し上回る クラス数にもロバスト 16
実験結果 • fake sample最適化に関する検証 𝑖 𝜃 𝑖 = 𝜃 − 𝛼𝛻𝜃 𝐿𝑖𝑛 𝐷 𝑡𝑟𝑎𝑖𝑛 , 𝜃𝑓𝑎𝑘𝑒 𝜃;𝑇𝑖 全タスク固定(task-agnostic ODD) (1) in-distribution sample + 𝜃𝑓𝑎𝑘𝑒 で分類境界を推定 𝑖 𝑖 𝑖 タスク毎に最適化(task-specific OOD、提案手法) 𝜃𝑎𝑑𝑎𝑝𝑡 = 𝜃 − 𝛼𝛻𝜃 𝐿𝜃;𝑇𝑖 𝐷𝑡𝑟𝑎𝑖𝑛 , 𝜃𝑓𝑎𝑘𝑒 , 𝜃𝑓𝑎𝑘𝑒 in-distribution sample +( 𝜃𝑓𝑎𝑘𝑒 + 𝑖 𝜃𝑓𝑎𝑘𝑒 )で分類境界を推定 提案手法は分類境界の推定精度を向上 提案手法はfake sampleを正しく最適化できる in-distribution feature 𝑠𝑢𝑛 𝜃𝑓𝑎𝑘𝑒 feature OOD feature 𝑚𝑜𝑡𝑜 𝜃𝑓𝑎𝑘𝑒 feature generated from 𝑇𝑚𝑜𝑡𝑜 𝜃𝑓𝑎𝑘𝑒 feature 17 (3)
まとめ • 新しい教師ありOOD detection手法を提案 既存の教師なし学習手法の、大量な学習データが必要、モデルの不確実性があると の課題を解決 meta learningにより、few-shot classificationとOOD detectionを同時に解決する手法 を提案 fake sampleをlossの勾配で最適化することで、分類境界の推定精度を向上 新しいタスクに早く適用できるため、実利用に向く 18