3.8K Views
May 09, 24
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] Energy-Based Automated Model Evaluation Makoto Kawano (@mkt_kwn), Matsuo Lab. http://deeplearning.jp/
書誌情報 1. ENERGY-BASED AUTOMATED MODEL EVALUATION ▪ Ru Peng, Heming Zou, Haobo Wang, Yawen Zeng, Zenan Huang, Junbo Zhao ▪ 浙江大学(せっこうだいがく), ByteDance ▪ ICLR2024 2. ひたすら提案指標の列挙(8本) ▪ [Hendrycks & Kevin Gimpel, 2016] A baseline for detecting misclassified and out-of-distribution examples in neural networks (arXiv) ▪ [Guillory+, 2021] Predicting with confidence on unseen distributions (ICCV2021) ▪ [Deng & Zheng, 2021] Are labels always necessary for classifier accuracy evaluation? (CVPR2021) ▪ [Jiang+, 2021]Assessing generalization of sgd via disagreement (arXiv) ▪ [Garg+, 2022] Leveraging unlabeled data to predict out-of-distribution performance (arXiv,前回発表) ▪ [Yu+, 2022] Predicting Out-of-Distribution Error with the Projection Norm (PMLR) ▪ [Lu+, 2023] Characterizing out-of-distribution error via optimal transport.(arXiv) ▪ [Deng+, 2023] Confidence and Dispersity Speak: Characterising Prediction Matrix for Unsupervised Accuracy Estimation (arXiv) 2
研究のモチベーション • 機械学習モデルの実応用/運用時,モデルの評価は重要 ▪ 一般的な(論文で想定されている)評価方法: ✓ 事前に分割された1) 全てラベルが付与された 2) i.i.d仮定のテストデータを利用 ▪ 実際(実世界アプリケーション): ✓ 分布シフトは生じるし,正解ラベルが欠損している場合が多い ✓ 交差検証や都度ラベルアノテーションは手間がかかりすぎる AutoEval(Automated Evaluation) ラベルが付与されていない様々な分布外データでのモデル性能を予測したい 3
記法と問題設定 モデルの評価 入力空間𝒳 ⊆ ℝ𝑑 とラベル空間𝒴 = 1, … , 𝐾 におけるソース分布 𝒫𝒮 (確率密度関数𝑝𝑆 )の学 習データセット𝒟𝑜𝑆 とターゲット分布𝒫𝒯(確率密度関数𝑝𝑇 )が与えられたとき,分類器 𝑓: ℝ𝑑 → Δ𝐾 の学習を行う.分類器𝑓のホールドアウトセット 𝒟𝑡𝑆 = 𝒙𝑖𝑠, 𝑦𝑖𝑠 𝑀 𝑖=1における 予測は, 𝑦ො =: argmax𝑗∈𝒴 softmax(𝑓𝑗 𝒙𝑠 )となり,その性能指標としては0-1損失 ℰ 𝑓𝑗 𝒙 𝑠 , 𝑦 𝑠 ≔ 𝕀[𝑦 𝑠 ≠ 𝑦]を用いて評価する.この結果を分類器𝑓の汎化性能とする. ො AutoEvalの設定 分布シフト(𝑝𝑆 ≠ 𝑝𝑇 )下では,𝒟𝑡𝑆 の性能がターゲット𝑝𝑇 での𝑓の性能を反映しないため, 𝑝𝑇 からi.i.dでサンプルされたN個のラベルなしテストデータセット𝒟𝑢𝑇 = 𝑥𝑖𝑡 𝑁 𝑖=1 の性能 に強い相関がある定量的指標を見つけること 4
既存研究との違い • 分布シフトに関するスタンス ▪ [一般的] 訓練とテストデータ分布が一緒=>テストデータにはアクセスできなくてもOK ▪ [実践的] テストデータの特徴量(+ラベル)が手に入る=>分布シフトの有無を判断できる • OOD検出やモデル不確実性の推定との目的/ゴールの違い 今回の設定 ▪ 不確実性推定:モデルの出力を信頼できるか(していいのか)どうかを知りたい ✓ AutoEval:モデルの出力の精度を直接予測する ▪ OOD検出:訓練分布に従わない外れ値データを特定する ✓ AutoEval: テストセット全体の精度を教師なしで推定する AutoEvalは,テスト環境での精度の直接予測によるモデルの有効性と導入価値を評価するタスク 5
既存のやり方①:モデル信頼度(confidence) • Average Confidence (ConfScore) [Hendrycks & Gimpe, 2016] ▪ ソフトマックスの最大値の平均=>どれだけ最大値に全振りしてるか • Average Negative Entropy (Entropy) [Guillory+, 2021] ▪ エントロピーの定義:𝐸𝑛𝑡 𝑝 = −𝑝 ⋅ log 𝑝 =>どれだけ(分布を)尖らせてるか • Average Thresholded Confidence (ATC) [Garg+, 2022] ▪ ソース分布の検証データで閾値を決定: 6
既存のやり方②:分布間距離 • フレシェ距離 (Frechet) [Deng & Zheng, 2021] ▪ ソースデータセットとその拡張セットの距離と精度の相関を利用 • Confidence Optimal Transport (COT) [Lu+, 2023] ▪ 予測したラベル分布をソース分布のラベル分布に輸送した時のWasserstein距離を利用 • Projection Norm (ProjNorm) [Yu+, 2022] ሚ ▪ 学習した分類器𝑓でテストデータの擬似ラベルを作成し,𝑓を学習,パラメータの違いを 利用 7
既存のやり方③:その他 • Agreement Score (AgreeScore) [Jiang+ 2021] ▪ 同じモデルを異なる初期値で学習させたときの出力の一致度 • Contrastive Accuracy [Peng+, 2022] ▪ 対照学習をマルチタスクで行い,その精度(データ拡張された同一データを当てる) • 他にも,重要度重み付きや検出した分布シフトを直接利用する手法など 8
AutoEvalのSOTA • Nuclear Norm (NuclearNorm) [Deng+, 2023] ▪ 分布シフトしたテストデータでは,予測が特定のクラスに偏りがち(=: low dispersity) ✓ 一様にクラスを予測できるかどうかが精度に寄与している ▪ Dispersityを表現する方法として正規化した核ノルム(特異値の和)を利用 9
本論文のアプローチ:エネルギーと精度の関係 • Energy-based Modelで利用されているエネルギーに着目 ▪ 仮説クラスを通した多様体に埋め込まれた各データ点に対するスカラー値 ✓ エネルギー関数𝑍 𝑥 : ℝ𝐷 → ℝ ▪ 「正しく分類されたデータには低いエネルギーが与えられ,逆も成り立つ」 データ拡張の強度が高くなるにつれて精度は下がり,エネルギーは上がっていることを確認 10
Meta-Distribution Energy準備 • ギブス自由エネルギーは,分配関数 𝑒 𝑦−𝑍(𝑥,𝑦)/𝑇に対して負の対数を取って • 分類器𝑓の出力であるカテゴリカル分布は,ソフトマックス関数を利用して • 上2つの式から,𝑍 𝑥, 𝑦 = −𝑓𝑦 𝑥 となり,エネルギー関数は次のように分類器𝑓で表現できる 11
提案指標:MDE 定義:Meta-distribution Energy 𝑁個のラベルなしデータセット𝒟𝑢 = 𝑥𝑖 𝑁 𝑗=1があるとき,MDEを全データ点𝑥 における エネルギー𝑍(𝑥; 𝑓)上の再正規化したメタ分布の統計値として, と定義する.ただし,𝑍(𝑥𝑛 ; 𝑓)は𝑛番目のデータ点𝑥𝑛 における自由エネルギーを,|𝑁|は 𝒟𝑢𝑇の濃度を表す. • もう一度正規化することで,より滑らかなデータセットの表現を獲得可能 ▪ 正規化しないバージョンをAvgEnergyとする 12
MDEを用いたAutoEval データ拡張 13
理論的側面 定理1 最適損失ℒ 𝑛𝑙𝑙 で適切に訓練させたモデル𝑓が与えられたとき,各サンプル(𝑥𝑖 , 𝑦𝑖 )において 分類リスクとMDEの差は, で表せる.ただし,𝒴はラベル空間であり,𝑀𝐷𝐸はメタ分布のエネルギー指標,ℒ 𝑛𝑙𝑙は 負の対数尤度損失関数,𝑇は0に近い温度定数パラメータである. 𝜟𝒊と0を比較することで,ラベル𝑦 𝑖 が最大値に対応するか確認できる 「ラベル情報がなくてもモデルの精度がわかる」を理論的に解釈できる 14
実験設定まわり • 5種類x2モーダルの実験を実施 ▪ 相関分析,精度予測誤差,ハイパラ感受性,負荷テスト(ノイズ,不均衡クラス) ▪ 画像:CIFAR-10, CIFAR100, TinyImageNet, ImageNet-1K, WILDS ▪ テキスト:MNLI • 評価指標 ▪ 決定係数(𝑅2), ピアソンの相関係数(𝑟), スピアマンの順位相関係数(𝜌) ▪ 平均絶対誤差 (MAE) 15
1.相関分析 • 学習なし手法に対してMDEはかなり良い(温度のおかげ?) ▪ 学習ありに対しても勝ててるから,MDEはLLMとかとも相性がいい? • SOTA手法に対しても勝ててる 16
1.相関分析 17
2.精度予測誤差 • 様々なモデルにおける誤差の平均 18
3.ハイパラ感受性(温度パラメータ) • 𝑇 = 1の時が最も良い ▪ (個人的経験)相関が0.95以上ないと精度は全く当たらない印象 19
3.ハイパラ感受性(シード) • シードに対しては冗長的 20
4/5. 負荷テスト • より実世界を想定した分布シフトにおけるMDEとSOTAの比較 ▪ データへのノイズを増やしていったときの精度変化 ▪ 実データは不均衡クラスであることが多い ✓ NuclearNormは,「モデル出力が不均衡なら精度が低い」という仮定の手法のため 悪くなるのは当然 21
MDE(AutoEval)まとめ • ラベルが付与されていないテストデータでのモデル精度を予測するタスク ▪ 如何にして精度と相関関係のある指標を見つけるかが鍵 ✓ 前回のAccuracy on the XXXと結局は一緒 ✓ 今回:精度と相関があるギブスの自由エネルギーを使ったMDE 結局この図を何とかして作る 22
感想 • モデル出力の和を取り続けているだけで精度と相関が出るのかわからない ✓ (エネルギーわからな いので教えてください) ✓ Nuclear normと同じでconfidenceとdispersityを見てたりする? ▪ 結局データ拡張が結構鍵だったり,かなり強い正の相関がないと予測できない ✓ 未知のテスト分布をデータ拡張でカバーしきれていないと成立しない ✓ 敵対的事例とかには全く対応できない ✓ (再掲)相関係数𝑅2 ≥ 0.95じゃないと予測できない(予測誤差±10~20になる) ▪ この辺面白いなと思った人声かけてください 23