3.4K Views
June 09, 23
スライド概要
2023/6/9
Deep Learning JP
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] マルチモーダルな基盤モデル Keno Harada, D1, the University of Tokyo http://deeplearning.jp/
前書き • Meta, Microsoft, Google, OpenAI, Salesforceの研究からシンプルめな手法 (主観・好みがかなり入ってます)を選んできました - DeepMindの研究ははちゃんとみれていない • Flamingo, GATOなど • 過去にPerceiverについて輪読会で扱いました - 【DL輪読会】Perceiver io a general architecture for structured inputs & outputs - 個人的にはOpenAIのAlec Radfordさんの研究(言語以外にも色々やってい る)が好きです, MAEもシンプルで好き • 活用する, という点ではAndy Zengさんの研究が推しです - Socratic Models • JSAI2023 Tutorial 「基盤モデルの技術と展望」 - LLMを中心にスケール則や文脈内学習などの研究を整理 2
本日扱う内容 • 単一モダリティではどのようにTransformerで大規模に表現学習が行え, downstreamタスクで活用できるか - Token化 - 学習の際の工夫 • 複数モダリティ - どのようにモダリティ同士の関係性を扱うか • モダリティを横断した表現をどのように得るか - tokenを埋め込んでattentionかける方法、cross-attentionかける方法、 CLIP的な取得方法 - データセットの問題 - 単一モダリティでの学習結果を活用できるか • 今後の課題 - 表現学習 • contrastive/generative/JEPA - データの問題 3
基盤モデルとは “AI is undergoing a paradigm shift with the rise of models (e.g., BERT, DALL-E, GPT-3) trained on broad data (generally using selfsupervision at scale) that can be adapted to a wide range of downstream tasks. We call these models foundation models..” Downstreamタスクへの適用 • Embeddingの使用 • 重みをfinetuneしタスクに適用 • Promptによるタスク遂行 From Intro to Transformers 4
Transformer以前 From Intro to Transformers 5
Transformer以降 From Intro to Transformers 6
Text embedding • 文章のembeddingを自己教師あり 学習(contrastive)によって学習 - [EOS] tokenがEncoderを経て出 てくる表現を使用 From Text and Code Embeddings by Contrastive Pre-Training 7
事前学習後タスクに合わせたfinetuning From BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 8
Promptによるタスク遂行 From Language Models are Few-Shot Learners 9
Encoder/Decoder構造 From Intro to Transformers 10
Why transformer? From CS25 I Stanford Seminar - Transformers United 2023: Introduction to Transformers w/ Andrej Karpathy 11
LLMの発展を他モダリティへ応用、マルチモーダ ル化するには? • どのようにToken化できるか • どのように自己教師あり学習できるか • どのように複数モダリティにまたがる表現を獲得できるか • スケールを見据えて単一モダリティの学習をどのように活かせるか? 12
どのようにtoken化すべきか? • 自然言語ではword単位やBPEでtoken化できるが他のモダリティでは? - 画像の場合1pixel単位でtoken化する? • token長 224 * 224 * 3 = 150528, n_vocab 256 - API経由で使用できるGPT-4の最大token長は8000/30000ほど 13
基本戦略: 適当に小さく切ってTransformerに入力 してモダリティ間の関係をAttentionで学習 From CS25 I Stanford Seminar - Transformers United 2023: Introduction to Transformers w/ Andrej Karpathy 14
ViT • 224 * 224 * 3の画像をtoken長16 * 16として扱う(ViT-Large) - 14 * 14 * 3 ピクセルを線形層に よって1024次元のベクトルにし、 1 tokenとして扱う • 16 * 16 + 1(cls token)が Transformerの入力となる • 教師あり学習によって学習 From An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale 15
BEiT • 224 * 224 * 3の画像を token長14 * 14として 扱う - 16 * 16 * 3 ピクセル を8192の語彙から選 ぶ(別で学習させた tokenizerを使用) • 自己教師あり学習に よって学習 • 事前学習後にEncoder の出力を用いて分類タ スクやsegmentationタ スクで学習 From BEiT: BERT Pre-Training of Image Transformers 16
MAE • 224 * 224 * 3の画像を token長16 * 16として 扱う - 14 * 14 * 3 ピクセル を線形層によって 1024次元のベクトル にし、1 tokenとし て扱う • 自己教師あり学習に よって学習 • Encoderの出力あるい はspecial tokenを用い てfinetuning From Masked Autoencoders Are Scalable Vision Learners 17
Hiera From Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles 18
Wav2Vec • 畳み込み層を経て、 16kHZの波形データが 210ms毎にcに埋め込ま れる • 自己教師あり学習 (contrastive)によって 学習 • Downstreamタスクに はcの表現を使用 From WAV2VEC: UNSUPERVISED PRE-TRAINING FOR SPEECH RECOGNITION 19
HuBERT • 畳み込み層を経て、波形データ がTransformerの入力へ • 自己教師あり学習(Mask)によっ て学習 - K-meansを用いて離散化した ラベルの予測 From HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of 20
AudioMAE • Spectrogramを入力とし て畳み込み層を経て、 Transformerの入力へ • 自己教師あり学習(Mask, 再構成誤差)によって学 習 From Masked Autoencoders that Listen 21
単一モダリティのTransformer化まとめ • 言語以外の連続空間ででマスク学習を行う際には工夫が必要 - クラスタリング手法やVQ-VAEのEncoderを使用しラベル予測 - MAEのようにマスク部分を再構成誤差によって学習 • 得られる表現が1patchごと、あるいはcls tokenのような入力全体を考 慮した表現でも取得可能 • cls tokenのような入力全体を考慮した表現 - 教師あり学習でも、自己教師あり学習でも表現の獲得は可能 • 教師あり学習の例: BERT, ViT • 自己教師あり学習の例: Text and Code Embeddings by Contrastive Pre-Training 22
LayoutLM • ドキュメント上におけ るテキストの位置情報 (bbox)をposition emebddingにして埋め 込む From LayoutLM: Pre-training of Text and Layout for Document Image Understanding 23
MTM • 各モダリティ(ここで はaction, state, return-to-go)をそれぞ れのEncoderで通した 後の表現ベクトルを Transformerへ入力 From Masked Trajectory Models for Prediction, Representation, and Control 24
DALL-E • 256*256*3の画像を32 * 32の token列に置き換える、1tokenは 事前学習済みのdVAEのEncoderを 用いて8192個の中から選ばれる - EncoderはBEiTでも使用される • 最大256token長のtextとともに Transformerで学習 - 画像・キャプションのペアの データセットが必要 From https://jashrathod.github.io/2021-12-13-zero-shot-text-to-image-generation/ 25
VALL-E From Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers 26
Whisper • Log-Mel Spectrogramから音声 データがencodeされ、crossattentionを用いてtext modalityと 接続 • 1つのモデルで音声認識だけでな く翻訳やVoice activity detection をspecial tokenによって可能にす る • 音声・文字起こしのペアのデータ セットが必要 From Robust Speech Recognition via Large-Scale Weak Supervision 27
PaLM-E • 事前学習済みのLLMの embedding spaceへ各 モダリティの表現を encodeする - finetuningによって変 換を学習 From PaLM-E: An Embodied Multimodal Language Model 28
VIMA • 画像・言語のプロンプ トからマニピュレー ターのアクション(手 先位置 x, y)を出力 From PaLM-E: An Embodied Multimodal Language Model 29
BLIP-2 • モダリティ間を繋ぐよ うな表現をCrossattentionを用いた学習 によって獲得 From BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models 30
CLIP • Image EncoderとText Encoderの出力をもと に対照学習 From Learning Transferable Visual Models From Natural Language Supervision 31
IMAGEBIND • 画像とあるモダリティ のペアで対照学習を行 うと、ペアでないモダ リティ間でもペアのモ ダリティのような操作 が可能に From ImageBind: One Embedding Space To Bind Them All 32
LeCunのJEPAの話 From Yann LeCun, Chief AI Scientist at Meta AI: From Machine Learning to Autonomous Intelligence 33
LeCunのJEPAの話 From Yann LeCun, Chief AI Scientist at Meta AI: From Machine Learning to Autonomous Intelligence 34
LeCunのJEPAの話 From Yann LeCun, Chief AI Scientist at Meta AI: From Machine Learning to Autonomous Intelligence 35
マルチモーダル化まとめ • 表現学習したいモダリティを追加する方法 - embeddingに足す(LayoutLM) - それぞれのモダリティの表現を1tokenとしてTransformerに入力 • Self-attention(DALL-E, VALL-E, MTM, PALM-E) • Cross-attention(Whisper) - モダリティのペア間で対照学習(CLIP, IMAGEBIND) • 単一モダリティで大規模に学習した表現をうまく活用する方法 - LLMのembedding spaceへの変換をfinetuningによって獲得 • Pretrained Transformers as Universal Computation Engines - (追えてないが)LoRAのようなPEFT手法もありそう 36
Video-LLaMA(BLIPの工夫+IMAGEBIND) From Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding 37
まとめ 言語以外のモダリティでTransformerを用いて大規模化するために • 適当なサイズでpatch化しVQ-VAEあるいはMAEのような工夫でマスク 学習 マルチモーダル化 • ペアデータでself-attention, cross-attention, 対照学習することでタス ク遂行につながるモダリティ間の表現を獲得 - ペアデータの収集困難さはIMAGEBINDのような工夫で軽減できる? • 単一モダリティでの大規模学習結果を活用する工夫も提唱されつつある 38