>100 Views
May 28, 21
スライド概要
2021/05/28
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] “Divide and Contrast: Self-supervised Learning from Uncurated Data” Naoki Nonaka http://deeplearning.jp/ 2023/10/10 1
書誌情報 • 会議:Arxiv投稿 • 著者: 2023/10/10 2
概要 キュレーションされていないデータでの自己教師学習手法を提案 自己教師学習において,よりきめ細かい特徴を獲得できること, 下流タスクでの有効性を示した 提案手法は,Baseモデルの学習,Expertモデルの学習,蒸留 の三段階に分かれる 2023/10/10 3
背景 Curation gap ImageNet YFCC100M ◼ 収集したデータを人手でキュレーション ◼ キュレーションなし ◼ 対象物体が中心に位置することが多い ◼ クラスごとの画像数はLong-tailな分布 ◼ クラスバランスが整っている (「自然な」分布と乖離が生じている) Curation gapに対応する自己教師学習の手法を提案 2023/10/10 4
提案手法: Divide and Contrast (DnC) 1. Baseモデルの学習(全データを使用) 2. Baseモデルでデータをクラスタリングし,クラスタごとにExpertモデルを学習 3. BaseモデルとExpertモデルを蒸留 2023/10/10 5
Baseモデルとして“MoCLR”を提案 Momentum Encoder Memory bank Projector & predictor MoCLR o - - SimCLR - - - MoCo o o - BYOL o - o [1]より(MoCLRは画像を組み合わせて作成) 2023/10/10 6
MoCLRの性能評価 ImageNetにて,既存手法を上回る性能を達成 → 以降の実験でBaseモデルとして使用 2023/10/10 7
実験の内容 獲得される特徴の評価 ◼ ImageNetでの分類 ◼ 下流タスクでの評価(分類タスク) ◼ 下流タスクでの評価(物体検出・セグメンテーション・深度推定) 獲得される特徴についての分析 ◼ クラスタが形成されているか ◼ クラスタごとに学習する意義があるか ImageNetでの性能評価 2023/10/10 8
ImageNetでの線形分類 MoCLR単体やBYOLを上回る性能 ImageNetで学習した場合と比べて性能は低下 2023/10/10 9
下流タスクでの性能 キュレーションなしデータセットで事前学習 → 下流タスクで評価 分類タスクでの性能 物体検出・セグメンテーション・深度推定 どちらの場合でも提案手法DnCが優れた性能 2023/10/10 10
実験の内容 獲得される特徴の評価 ◼ ImageNetでの分類 ◼ 下流タスクでの評価(分類タスク) ◼ 下流タスクでの評価(物体検出・セグメンテーション・深度推定) 獲得される特徴についての分析 ◼ クラスタが形成されているか ◼ クラスタごとに学習する意義があるか ImageNetでの性能評価 2023/10/10 11
仮説の検証(クラスタの形成) Baseモデルの獲得した表現をクラスタリング → クラスタ内のラベル一致を評価 仮説:特徴をうまく獲得できていれば,同一クラスは同一クラスタに集中する クラスタごとの最頻クラスを予測ラベルとして分類 クラスごとにクラスタを 形成していることを示唆 2023/10/10 12
仮説の検証(クラスタごとに学習する意義) 全データで学習 vs 特定のカテゴリで学習 → 特定のカテゴリを線形分類 仮説:特定カテゴリで学習した方が,きめ細かい特徴が得られ,線形分類の精度が上がる 全データで学習するよりも,特定カテゴリで学習した方が良い性能 (データ数を揃えることはしていないので,全データ使用の方がデータ数は多い) 2023/10/10 13
実験の内容 獲得される特徴の評価 ◼ ImageNetでの分類 ◼ 下流タスクでの評価(分類タスク) ◼ 下流タスクでの評価(物体検出・セグメンテーション・深度推定) 獲得される特徴についての分析 ◼ クラスタが形成されているか ◼ クラスタごとに学習する意義があるか ImageNetでの性能評価 2023/10/10 14
ImageNetにおける性能(教師あり・半教師あり学習) 教師あり学習 半教師あり学習 ImageNetでの教師あり学習と半教師あり学習でも性能は低下しない 2023/10/10 15
仮説の検証(Ablation) クラスタに分けた上でExpertモデルを学習することが重要 Expertモデルを全データで 学習すると性能低下 Expertモデルをランダムな 分割で学習すると性能低下 蒸留時にBaseモデルとExpertモデルの両方を使用するのが重要 Baseモデルだけだと 性能低下 Expertモデルだけでも 性能低下 2023/10/10 16
まとめ キュレーションされていないデータセットにおける 自己教師学習の手法を提案 自己教示学習により獲得される特徴はクラスタを形成しており, クラスタごとの学習によりきめ細かい特徴が獲得できることを 示した 提案手法は,ImageNetにおける性能を落とすことなく, キュレーションされていないデータセットでの性能を向上 2023/10/10 17
参考資料 1. https://generallyintelligent.ai/understanding-self-supervised-contrastive-learning.html 2023/10/10 18
Appendix 2023/10/10 19