【DL輪読会】Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks

1.5K Views

October 29, 21

#deep learning #Deep Learning #Machine Learning #Label Errors #Data Annotation #Benchmarking

スライド概要

2021/10/29
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.8K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.2K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 50K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 47.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.2K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks 1 Takumi Ohkuma http://deeplearning.jp/

http://deeplearning.jp/

2 書誌情報 • 題名：Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks • 出典：NeurIPS 2021 • 著者：Curtis G. Northcutt, Anish Athalye, Jonas Mueller • URL：https://arxiv.org/abs/2103.14749 ※本資料における出典の記載の無い図表は全て上記論文より引用

https://arxiv.org/abs/2103.14749

3 概要 • 分類タスクにおけるテストデータのラベルミスに着目し、ラベルミスが多い場合に精度の高いモデル選択を誤る可能性を示唆した研究。 • 10種類のデータのテストデータにおけるラベルミス率に関する調査、 ImageNet, CIFAR10のテストデータのラベルの誤り訂正の実施。 • ラベルが誤っていたデータの、修正前後それぞれのラベルに対する正答率等の指標を様々なモデルで測定し、キャパシティの大きいモデルが訓練・テストデータに共通するラベルミスの傾向まで学習している可能性を指摘。 • テストデータからは上記ミスを検知できず、逆にプラス評価してしまう問題点を指摘し、テストデータのラベルの正確性の重要性を主張。

4 目次 1. イントロ 2. テストラベルのラベルミス率推定 3. テストラベルミスによる影響に関する実験 4. まとめ

5 目次 1. イントロ 2. テストラベルのラベルミス率推定 3. テストラベルミスによる影響に関する実験 4. まとめ

6 研究の背景 • 近年では大規模データを手に入れるために自動的なプロセスによるラベル付けやクラウドソーシングが用いられるが、同時にミスも生じる。 • ノイズのあるラベルを持つ訓練データ用いた学習テクニック等も研究される等、ラベルミスはこれまでも研究の対象となってきた。 • しかしながらテストデータのラベルミスは殆ど着目されて来なかった。 • テストデータのラベルミスは、モデルの優劣判断を誤る原因となるので、ラベルミスの影響を把握しておくことは重要である。

7 目次 1. イントロダクション 2. テストラベルのラベルミス率推定 3. テストラベルミスによる影響に関する実験 4. まとめ

8 データセット • 本研究では初めに、広く使われている10種類のデータに対して、どの程度テストデータにラベルミスがあるかを推定した。 • 10種類のデータは画像データ6種類 (MNIST [1], CIFAR10 [2], CIFAR100 [2] , Caltech256 [3], ImageNet [4], QuickDraw [5])、テキストデータ3種類 (20news [6], IMDB [7], Amazon Review [8])、音声データ1種類 (AudioSet [9])。 • このうちCIFAR10とImageNetに関してはラベルミスの訂正も行う。

9 ラベルミスの検出方法 • 全てのテストデータのラベルミスを手動で検出するのは非常に手間がかかるので、以下の方法を用いて効率的に修正を行う 1. 訓練データを用いてモデルを学習する（もしくは学習済みモデルを使う） 2. Confident Learning (CL) を用いてミスがありそうなラベルを絞り込む • 詳細は本資料では割愛（[10]を参照） • ミスの有無だけでなく、修正先の候補ラベルも出力される 3. 絞り込んだラベルを全て、もしくはランダムで一定数選択し、それらが実際に誤っているかどうかMechanical Turkによるクラウドソーシングで判断 4. 3で検出されたミス率を基に全体のミス数、ミス率を推定

10.

10 クラウドソーシングに用いるUI 中央のテスト画像が 1. 左のクラス (flog) 2. 右のクラス (cat) 3. 両方のクラスの要素を持つ 4. どちらのクラスにも該当しないのどれに該当するかを選択する • 左右のクラスは、片方が元々のラベル、他方がCLが出力した修正先候補ラベル • 各画像に対して独立に5人が判定を行う

11.

11 ミス率推定結果 • 以下の表の ’% error’ に各テストデータセットのミス率を示す (5人中3人以上がエラーと判断したものをエラーとみなす) • CLアルゴリズムで絞り込まれた ’CL guessed’ ラベルから ’Mturk checked’ だけランダムサンプリングし、クラウドソーシングでエラー率の推定を行った • 結果として、有名データセットでも平均3.6%のラベルミスがあると推定

12.

12 ラベルミスの種類ラベルミスは以下の4種類に分けられる correctable: 明らかに相応しくないラベルが付いている（訂正可能） multi-label: 両方のラベルに該当する要素が含まれている（訂正不可能） neither: どちらラベルも相応しくない（訂正不可能） Non-agreement: エラーではあるものの、人によってエラーの種類が割れた（訂正不可能）

13.

13 種類別のラベルミス率 • エラー候補のうちエラーではなかったもの ‘non-error’ と前スライドで説明した4種類のエラーの数を以下の表に示す • non-agreementを除くと、単純なラベルミスであるcorrectableが多い • 複雑な写真を多く含むImageNetではmulti-labelも多い

14.

14 目次 1. イントロダクション 2. テストラベルのラベルミス率推定 3. テストラベルミスによる影響に関する実験 4. まとめ

15.

15 テストラベルミスによる影響 • テストデータはどの機械学習モデルが優れているか等、モデルの優劣を決める役割を果たしている。 • テストデータのラベルミス率が多くなると、テストデータに対する精度の序列と実際の序列にずれが生じ、モデル選択を誤る可能性がある。 • 本実験ではテストラベルミス率が高くなった場合に、どの程度上記の危険性が生じるかを検証する。

16.

16 分析の為の準備 • 今回はCIFAR10とImageNetを用いてミスによる影響を分析する。 • 分析の為に正解ラベルが必要となる為、ラベルミス候補全てをクラウドソーシングにて分析し、 correctableに対し修正された正解ラベルを付与。 • correctable以外のミスは、そもそも画像が曖昧、もしくは複数の要素を持っており、データとして相応しくないとし削除。

17.

17 テストセットに関する定義実験に用いるテストセットに関して以下の様に定義する。 𝐷: テストセット全体 𝐵: テストセットのうち、ラベル間違いが検出されなかったデータ集合 (𝐵 ⊂ 𝐷 ) 𝐶: correctable error（訂正可能な間違い）と判断されたデータ集合 𝑈: correctable error 以外の（訂正不可能な）間違いと判断されたデータ集合 • ここで、 𝐷 = 𝐵 ∪ 𝐶 ∪ 𝑈 が成り立つ • また、𝑈はデータそのものが相応しくないので削除し、有効なデータセット 𝑃 = 𝐵 ∪ 𝐶 を定義する。

18.

18 実験 • まず、訓練データを用いて複数種類のモデルを訓練する。その上でテストラベルミスの影響を調べる為の以下の実験を行う。 1. 有効なデータセット 𝑃 (= 𝐵 ∪ 𝐶) の誤り訂正前のラベル対する正解率と、データセット𝑃から correctable error ラベルを持つデータセット 𝐶を除いた、データセット 𝐵 に対する正解率の比較 2. correctable error ラベルを持つデータセット 𝐶 に対する、「誤り訂正前のラベル」に対する正解率と「誤り訂正後のラベル」に対する正解率の比較 3. 𝑃 から、正しいラベルを持つデータ集合𝐵 に属するデータを段階的に除去することでテストエラー率を増加させつつ、2と同様の関係の比較 • また、これら実験で使われる複数種類のモデルの正解率の序列にも着目する。

19.

19 実験1 𝑩 • 左図は有効データセット全体 𝑃（誤り訂正前ラベル）への正解率（横軸）と、誤りデータを省いたデータセット𝐵への正解率（縦軸）の関係性を示す。 𝑷 • 34の画像認識モデルについて実験を行った結果、縦軸と横軸でモデルの優劣（序列）に変化はない • テストラベルミスの有無によって序列に変化が無く、ミスが原因で精度の高いモデル選択を誤ることはない ☝一見テストラベルミスの影響は取るに足らないように思われる • 一見するとテストラベルミスの影響は小さいように思われる（が、実験2以降の分析を見て頂きたい）

20.

20 実験2 • 左図では、誤りラベルを持つデータセット𝐶の「訂正前ラベル」に対する正解率（横軸）と「訂正後ラベル」に対する正解率（縦軸）を比較する。 • 訂正後ラベルに対する正解率が高い方が望ましいが、ベンチマークにおける正解は訂正前のラベル.。 • ベンチマーク（データセット全体 𝑃 ）の精度が最も高かったのはNasnet [11]だが、訂正後ラベルに対する正解率は低く、訂正後ラベルに対して高い。 • CIFAR10でも、似たような現象がみられる。

21.

21 実験2 (考察) ベンチマークの結果が良いNasnetが誤った訂正前ラベルに対して正解率が高く、正しい訂正後ラベルに対して正解率が低めであるということは、 • 訂正前ラベルへの精度が高いのでベンチマークの結果が良い？ ⇒✖ 実験1で誤りを除外した場合でも精度が良い • Nasnetはテストデータと訓練データに共通するラベルミスのパターンの一部まで学習してしまっている可能性がある？ ⇒〇モデルキャパシティが大きいモデルはその傾向がある。 • とはいえ、ベンチマークでの序列が変わらないので無問題では？ ⇒ ✖ ImageNetで序列が変化しないのはラベルミス率が約3%と比較的小さいためである。よりミス率の大きいデータセットでは序列が変わってしまう可能性がある。実験３でテストラベルミス率の大きい場合に起こる影響について検証

22.

22 実験3 • テストデータのラベルミス率がより大きかった場合の影響をあるかを分析する。 • 𝑃 = 𝐵 ∪ 𝐶 であるので、 𝑃の要素のうちラベルミスのない𝐵の要素を段階的にランダムに除去することでラベルミス率を増やした場合の正解率を調べる。 • 訂正前ラベル・訂正後ラベルそれぞれに対して正解率を調べる。 • 訓練データのラベルミス率はそのままで、テストラベルミス率だけ増やすのはアンバランスにも思われるが（個人の感想です）、訓練データに対するラベル訂正は行っていないので、本実験では考慮していない。

23.

23 実験3（ImageNet） • 左図はテストラベルミス率（横軸）と正解率（縦軸）の関係性 • 上が修正前ラベル、下が修正後ラベル • ミス率が高くなると、修正後のラベルへの正答率の序列が変化する。（修正前はあまり変化しない）ベンチマーク（上図）で最も評価の高いモデルnasnetだが、ミス率が高い場合実際の精度では他のモデルに負けうる（下図） • ベンチマークでの精度が高いモデル（上図）と、実際に精度が高いモデル（下図）に差が出てしまう。

24.

24 実験3（CIFAR10） • 左図はCIFAR10に対するグラフである。 • CIFAR10でも序列の逆転が起きベンチマークではVGG19 > VGG11だが、ミス率が6%を超える場合、修正後のラベルではVGG19 < VGG11 • ラベルミスが多い環境ではVGG19 [12] よりVGG11の方が実質的な精度が高い。 • しかしながら、地道にラベルミスを直さない限り、この逆転を見抜けない。

25.

25 実験3（考察） • ミスを含むベンチマーク（修正前ラベル）で正解率の高いモデルと、実際に性能の高い（修正後ラベル）モデルが必ずしも一致しないので、テストラベルミスは最適モデル選択のミスに繋がりうる。 • 上記の原因の一つは、モデルが訓練データとテストデータに共通するミスの傾向まで学習する事であると考えられ（ベンチマークへの過適合）、ベンチマークのミス率が高い場合、一般的に高精度と言われるモデルが実環境下では数値上の優位性を示せない場合もある。 • 本来は修正後のラベルは手に入らない為、上記の悪影響の検知も出来ない。 • 上記問題を緩和する為にはデータのラベリング精度を上げるしかなく、従来思われていたよりも、ラベルの正確さの重要性は高い。

26.

26 目次 1. イントロダクション 2. テストラベルのラベルミス率推定 3. テストラベルミスによる影響に関する実験 4. まとめ

27.

27 まとめ • 今まであまり着目されてこなかったテストデータのラベルミス率に関する研究 • 広く使われるデータセットでも、平均数%のテストラベルミスがあると推定 • ImageNetやCIFAR10のラベルミス率では影響が少ないが、ミス率が大きくなるとモデルがベンチマークに過適合することで、ベンチマークで高評価なモデルが実際に精度が高いとは限らなくなり、最適モデルの選択ミスに繋がる • 今後更に増えるであろう超大規模データセットでは、ラベルミスを減らすのがより困難になるので、上記問題の重要性が増していくと考えられる • テストラベルミスを正すことでしか上記問題は解決されないので、テストラベルの正確性の重要さは想像以上に高い

28.

28 感想 ◼ 「テストラベルミス率が大きくなるとモデルの選択を誤りうる」という問題提起はベンチマーク至上主義に待ったをかけ、非常に意味のある研究だと感じた。 ◼ ただ、論理展開が少々わかりにくいと感じた。全データ𝑃 の修正前ラベルに対する正解率と 𝐶 の修正後ラベルに対する正解率の散布図等があると、もう少しわかりやすかった気する。 ◼ 今回はテストラベルミス率だけを増やしたが、実際には訓練ラベルミス率も大きくなりうるので、共通するミスの傾向が学習されてしまう影響はより大きくなると思う。 • 訓練データまでラベルをチェックするリソースを確保するのは難しいかもしれないが、訓練データのラベルミスも増やした場合、割と半端でない影響が出る気がするので今後の研究に期待。

29.

29 引用 1. Yann Lecun, Léon Bottou, Yoshua Bengio, and Patrick Haffner. Gradient-based learning applied to document recognition. In Proceedings of the IEEE, pages 2278–2324, 1998. 2. Alex Krizhevsky. Learning multiple layers of features from tiny images. Technical report, University of Toronto, 2009. 3. G. Griffin, A. Holub, and P. Perona. Caltech-256 object category dataset. Technical Report 7694, California Institute of Technology, 2007. 4. J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. ImageNet: A Large-Scale Hierarchical Image Database. In Conference on Computer Vision and Pattern Recognition (CVPR), 2009. 5. David Ha and Douglas Eck. A neural representation of sketch drawings. arXiv preprint arXiv:1704.03477, 2017. 6. Tom Mitchell. Twenty newsgroups dataset, 1999. 7. Andrew L. Maas, Raymond E. Daly, Peter T. Pham, Dan Huang, Andrew Y. Ng, and Christopher Potts. Learning word vectors for sentiment analysis. In Annual Conference of the Association for Computational Linguistics (ACL), pages 142–150, Portland, Oregon, USA, June 2011. 8. Julian McAuley, Christopher Targett, Qinfeng Shi, and Anton van den Hengel. Image-based recommendations on styles and substitutes. In Special Interest Group on Information Retrieval (SIGIR), pages 43–52, New York, NY, USA, 2015.

30.

30 引用 9. Jort F. Gemmeke, Daniel P. W. Ellis, Dylan Freedman, Aren Jansen, Wade Lawrence, R. Channing Moore, Manoj Plakal, and Marvin Ritter. Audio set: An ontology and human-labeled dataset for audio events. In IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), New Orleans, LA, 2017. 10. Curtis G. Northcutt, Lu Jiang, and Isaac L. Chuang. Confident learning: Estimating uncertainty in dataset labels. Journal of Artificial Intelligence Research (JAIR), 2021. 11. Barret Zoph, Vijay Vasudevan, Jonathon Shlens, and Quoc V Le. Learning transferable architectures for scalable image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 8697–8710, 2018. 12. Karen Simonyan and Andrew Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014.