【DL輪読会】マルチモーダル基盤モデル

4.3K Views

June 09, 23

#deep learning #Deep Learning #Multimodal Foundation Models #Transformers #Representation Learning #Downstream Tasks

スライド概要

2023/6/9
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 87.4K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 58.7K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.5K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 38K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 37.6K

各ページのテキスト

DEEP LEARNING JP [DL Papers] マルチモーダルな基盤モデル Keno Harada, D1, the University of Tokyo http://deeplearning.jp/

http://deeplearning.jp/

前書き • Meta, Microsoft, Google, OpenAI, Salesforceの研究からシンプルめな手法 (主観・好みがかなり入ってます)を選んできました - DeepMindの研究ははちゃんとみれていない • Flamingo, GATOなど • 過去にPerceiverについて輪読会で扱いました - 【DL輪読会】Perceiver io a general architecture for structured inputs & outputs - 個人的にはOpenAIのAlec Radfordさんの研究(言語以外にも色々やっている)が好きです, MAEもシンプルで好き • 活用する, という点ではAndy Zengさんの研究が推しです - Socratic Models • JSAI2023 Tutorial 「基盤モデルの技術と展望」 - LLMを中心にスケール則や文脈内学習などの研究を整理 2

本日扱う内容 • 単一モダリティではどのようにTransformerで大規模に表現学習が行え, downstreamタスクで活用できるか - Token化 - 学習の際の工夫 • 複数モダリティ - どのようにモダリティ同士の関係性を扱うか • モダリティを横断した表現をどのように得るか - tokenを埋め込んでattentionかける方法、cross-attentionかける方法、 CLIP的な取得方法 - データセットの問題 - 単一モダリティでの学習結果を活用できるか • 今後の課題 - 表現学習 • contrastive/generative/JEPA - データの問題 3

基盤モデルとは “AI is undergoing a paradigm shift with the rise of models (e.g., BERT, DALL-E, GPT-3) trained on broad data (generally using selfsupervision at scale) that can be adapted to a wide range of downstream tasks. We call these models foundation models..” Downstreamタスクへの適用 • Embeddingの使用 • 重みをfinetuneしタスクに適用 • Promptによるタスク遂行 From Intro to Transformers 4

https://docs.google.com/presentation/d/1ZXFIhYczos679r70Yu8vV9uO6B1J0ztzeDxbnBxD1S0

Transformer以前 From Intro to Transformers 5

https://docs.google.com/presentation/d/1ZXFIhYczos679r70Yu8vV9uO6B1J0ztzeDxbnBxD1S0

Transformer以降 From Intro to Transformers 6

https://docs.google.com/presentation/d/1ZXFIhYczos679r70Yu8vV9uO6B1J0ztzeDxbnBxD1S0

Text embedding • 文章のembeddingを自己教師あり学習(contrastive)によって学習 - [EOS] tokenがEncoderを経て出てくる表現を使用 From Text and Code Embeddings by Contrastive Pre-Training 7

https://arxiv.org/abs/2201.10005

事前学習後タスクに合わせたfinetuning From BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 8

https://arxiv.org/abs/1810.04805

Promptによるタスク遂行 From Language Models are Few-Shot Learners 9

https://arxiv.org/abs/2005.14165

10.

Encoder/Decoder構造 From Intro to Transformers 10

https://docs.google.com/presentation/d/1ZXFIhYczos679r70Yu8vV9uO6B1J0ztzeDxbnBxD1S0

11.

Why transformer? From CS25 I Stanford Seminar - Transformers United 2023: Introduction to Transformers w/ Andrej Karpathy 11

https://www.youtube.com/watch?v=XfpMkf4rD6E

12.

LLMの発展を他モダリティへ応用、マルチモーダル化するには？ • どのようにToken化できるか • どのように自己教師あり学習できるか • どのように複数モダリティにまたがる表現を獲得できるか • スケールを見据えて単一モダリティの学習をどのように活かせるか？ 12

13.

どのようにtoken化すべきか？ • 自然言語ではword単位やBPEでtoken化できるが他のモダリティでは？ - 画像の場合1pixel単位でtoken化する？ • token長 224 * 224 * 3 = 150528, n_vocab 256 - API経由で使用できるGPT-4の最大token長は8000/30000ほど 13

14.

基本戦略: 適当に小さく切ってTransformerに入力してモダリティ間の関係をAttentionで学習 From CS25 I Stanford Seminar - Transformers United 2023: Introduction to Transformers w/ Andrej Karpathy 14

https://www.youtube.com/watch?v=XfpMkf4rD6E

15.

ViT • 224 * 224 * 3の画像をtoken長16 * 16として扱う(ViT-Large) - 14 * 14 * 3 ピクセルを線形層によって1024次元のベクトルにし、 1 tokenとして扱う • 16 * 16 + 1(cls token)が Transformerの入力となる • 教師あり学習によって学習 From An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale 15

https://arxiv.org/abs/2010.11929

16.

BEiT • 224 * 224 * 3の画像を token長14 * 14として扱う - 16 * 16 * 3 ピクセルを8192の語彙から選ぶ(別で学習させた tokenizerを使用) • 自己教師あり学習によって学習 • 事前学習後にEncoder の出力を用いて分類タスクやsegmentationタスクで学習 From BEiT: BERT Pre-Training of Image Transformers 16

https://arxiv.org/abs/2106.08254

17.

MAE • 224 * 224 * 3の画像を token長16 * 16として扱う - 14 * 14 * 3 ピクセルを線形層によって 1024次元のベクトルにし、1 tokenとして扱う • 自己教師あり学習によって学習 • Encoderの出力あるいはspecial tokenを用いてfinetuning From Masked Autoencoders Are Scalable Vision Learners 17

https://arxiv.org/abs/2111.06377

18.

Hiera From Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles 18

https://arxiv.org/abs/2306.00989

19.

Wav2Vec • 畳み込み層を経て、 16kHZの波形データが 210ms毎にcに埋め込まれる • 自己教師あり学習 (contrastive)によって学習 • Downstreamタスクにはcの表現を使用 From WAV2VEC: UNSUPERVISED PRE-TRAINING FOR SPEECH RECOGNITION 19

https://arxiv.org/abs/1904.05862

20.

HuBERT • 畳み込み層を経て、波形データがTransformerの入力へ • 自己教師あり学習(Mask)によって学習 - K-meansを用いて離散化したラベルの予測 From HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of 20

https://arxiv.org/abs/2106.07447

21.

AudioMAE • Spectrogramを入力として畳み込み層を経て、 Transformerの入力へ • 自己教師あり学習(Mask, 再構成誤差)によって学習 From Masked Autoencoders that Listen 21

https://arxiv.org/abs/2207.06405

22.

単一モダリティのTransformer化まとめ • 言語以外の連続空間ででマスク学習を行う際には工夫が必要 - クラスタリング手法やVQ-VAEのEncoderを使用しラベル予測 - MAEのようにマスク部分を再構成誤差によって学習 • 得られる表現が1patchごと、あるいはcls tokenのような入力全体を考慮した表現でも取得可能 • cls tokenのような入力全体を考慮した表現 - 教師あり学習でも、自己教師あり学習でも表現の獲得は可能 • 教師あり学習の例: BERT, ViT • 自己教師あり学習の例: Text and Code Embeddings by Contrastive Pre-Training 22

https://arxiv.org/abs/2201.10005

23.

LayoutLM • ドキュメント上におけるテキストの位置情報 (bbox)をposition emebddingにして埋め込む From LayoutLM: Pre-training of Text and Layout for Document Image Understanding 23

https://arxiv.org/abs/1912.13318

24.

MTM • 各モダリティ(ここではaction, state, return-to-go)をそれぞれのEncoderで通した後の表現ベクトルを Transformerへ入力 From Masked Trajectory Models for Prediction, Representation, and Control 24

https://arxiv.org/abs/2305.02968

25.

DALL-E • 256*256*3の画像を32 * 32の token列に置き換える、1tokenは事前学習済みのdVAEのEncoderを用いて8192個の中から選ばれる - EncoderはBEiTでも使用される • 最大256token長のtextとともに Transformerで学習 - 画像・キャプションのペアのデータセットが必要 From https://jashrathod.github.io/2021-12-13-zero-shot-text-to-image-generation/ 25

26.

VALL-E From Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers 26

https://arxiv.org/abs/2301.02111

27.

Whisper • Log-Mel Spectrogramから音声データがencodeされ、crossattentionを用いてtext modalityと接続 • 1つのモデルで音声認識だけでなく翻訳やVoice activity detection をspecial tokenによって可能にする • 音声・文字起こしのペアのデータセットが必要 From Robust Speech Recognition via Large-Scale Weak Supervision 27

https://arxiv.org/abs/2212.04356

28.

PaLM-E • 事前学習済みのLLMの embedding spaceへ各モダリティの表現を encodeする - finetuningによって変換を学習 From PaLM-E: An Embodied Multimodal Language Model 28

https://arxiv.org/abs/2303.03378

29.

VIMA • 画像・言語のプロンプトからマニピュレーターのアクション(手先位置 x, y)を出力 From PaLM-E: An Embodied Multimodal Language Model 29

https://arxiv.org/abs/2303.03378

30.

BLIP-2 • モダリティ間を繋ぐような表現をCrossattentionを用いた学習によって獲得 From BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models 30

https://arxiv.org/abs/2301.12597

31.

CLIP • Image EncoderとText Encoderの出力をもとに対照学習 From Learning Transferable Visual Models From Natural Language Supervision 31

https://arxiv.org/abs/2103.00020

32.

IMAGEBIND • 画像とあるモダリティのペアで対照学習を行うと、ペアでないモダリティ間でもペアのモダリティのような操作が可能に From ImageBind: One Embedding Space To Bind Them All 32

https://arxiv.org/abs/2305.05665

33.

LeCunのJEPAの話 From Yann LeCun, Chief AI Scientist at Meta AI: From Machine Learning to Autonomous Intelligence 33

https://www.youtube.com/watch?v=mViTAXCg1xQ

34.

LeCunのJEPAの話 From Yann LeCun, Chief AI Scientist at Meta AI: From Machine Learning to Autonomous Intelligence 34

https://www.youtube.com/watch?v=mViTAXCg1xQ

35.

LeCunのJEPAの話 From Yann LeCun, Chief AI Scientist at Meta AI: From Machine Learning to Autonomous Intelligence 35

https://www.youtube.com/watch?v=mViTAXCg1xQ

36.

マルチモーダル化まとめ • 表現学習したいモダリティを追加する方法 - embeddingに足す(LayoutLM) - それぞれのモダリティの表現を1tokenとしてTransformerに入力 • Self-attention(DALL-E, VALL-E, MTM, PALM-E) • Cross-attention(Whisper) - モダリティのペア間で対照学習(CLIP, IMAGEBIND) • 単一モダリティで大規模に学習した表現をうまく活用する方法 - LLMのembedding spaceへの変換をfinetuningによって獲得 • Pretrained Transformers as Universal Computation Engines - (追えてないが)LoRAのようなPEFT手法もありそう 36

https://arxiv.org/abs/2103.05247

37.

Video-LLaMA(BLIPの工夫+IMAGEBIND) From Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding 37

https://arxiv.org/abs/2306.02858

38.

まとめ言語以外のモダリティでTransformerを用いて大規模化するために • 適当なサイズでpatch化しVQ-VAEあるいはMAEのような工夫でマスク学習マルチモーダル化 • ペアデータでself-attention, cross-attention, 対照学習することでタスク遂行につながるモダリティ間の表現を獲得 - ペアデータの収集困難さはIMAGEBINDのような工夫で軽減できる？ • 単一モダリティでの大規模学習結果を活用する工夫も提唱されつつある 38

【DL輪読会】マルチモーダル 基盤モデル