[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language

484 Views

February 04, 22

#deep learning #Deep Learning #data2vec #self-supervised learning #modality-independent #multi-layer output

スライド概要

2022/02/04
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.4K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.1K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 49.4K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.1K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 46.9K

各ページのテキスト

DEEP LEARNING JP [DL Papers] “data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language ” Naoki Nonaka http://deeplearning.jp/ 2022/2/2 1

http://deeplearning.jp/

書誌情報 • 会議：ICML? • 著者：Meta AI 2022/2/2 2

概要 p モダリティ非依存の自己教師あり学習の手法を提案 p 新規性 n Masked predictionと潜在表現の学習を組み合わせる n 複数層の出力の平均値を予測対象とする p Vision, NLP, SpeechでSOTAまたはそれと同程度の性能 2022/2/2 3

背景: モダリティ非依存の自己教師あり学習 p 自己教師あり学習の手法の成功 p これまでの自己教師あり学習はモダリティ依存的 p モダリティ依存的である必然性はないはず（人間の学習，Percieverの事例）モダリティ非依存の自己教師あり学習手法の開発 2022/2/2 4

提案手法：data2vec 提案手法の概念図: data2vecは異なるモダリティのデータに対しても同一の学習過程で学習 p Masked prediction + 潜在表現の学習 p TeacherとStudentの2つのモードを利用 n Teacher: 完全な入力データから表現を取得 n Student: マスクされた入力から完全なデータの表現を予測 p 先行研究との相違点：連続な潜在表現の学習 + 最終層以外の表現の利用 2022/2/2 5

提案手法: data2vec（学習手順） !! : Top-K average Teacher mode Transformer Transformer Transformer Transformer Embed Student mode … Exponential Moving Average (EMA) Transformer Transformer Transformer Transformer Embed … #! (%! ) p 元画像をTeacher modeで変換し，上位K層の出力の平均（!! ）を予測対象 p Maskした入力のStudent modeでの出力を!! に近づける p Teacher modeのweightはStudentの指数移動平均（EMA） 2022/2/3 6

提案手法: data2vec（学習手順）損失関数：Smooth L1 loss 2022/2/2 L1, L2損失とSmooth L1損失の形状比較（[2]より） 7

実験概要各モダリティの代表的なデータセットで評価 p Vision: ImageNet p Speech: Librispeech (LS-960) p NLP: GLUE benchmark 2022/2/2 8

実験：Vision Vision taskの学習条件 p 224 x 224 pixelを16 x 16のpatchに分割してEmbed p 各patchを線形変換後，系列としてTransformerに入力 p MaskingはBEiTと同じ方法 p Random resize, horizontal flip, color jitteringを使用 p Adam optimizer + cosine scheduleで学習 2022/2/2 9

10.

実験：Vision ImageNetの分類結果の比較 ViT-B, ViT-Lのいずれにおいても，先行研究を上回る精度 2022/2/2 10

11.

実験：Speech & NLP Speech: Librispeechでの結果の比較 NLP: GLUE benchmarkでの結果の比較両モダリティにおいても，先行研究を上回るor同程度の精度 2022/2/2 11

12.

実験：使用する層の数の影響予測対象として何層分の出力を用いるべきか？予測対象に使用する層の数と各モダリティにおける性能最終層のみを予測（K=1）する場合より複数層の平均値を予測する方が高い性能 2022/2/2 12

13.

実験：予測対象とする表現の比較 Transformer内の表現のうち，どの表現を予測対象とすべきか？ Transformer内の表現と LibrispeechにおけるWERの関係 ① ④ ③ ② ① ② ③ ④ FFNを予測対象とする場合の精度が最もよい 2022/2/2 Transformer encoder （[1]より改変） 13

14.

結論・まとめ p モダリティ非依存の自己教師あり学習の手法を提案 p Masked predictionと潜在表現の学習を組み合わせ， Vision, Speech, NLPにおいてSOTAまたはそれと同程度を達成 p TransformerのFFNを予測対象として，複数層の出力の平均値を予測対象とすることで高い性能を示した 2022/2/2 14

15.

Reference 1. Attention Is All You Need 2. Wing Loss for Robust Facial Landmark Localisation with Convolutional Neural Networks 2022/2/2 15