【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モデルによる少量プロンプト推論

0.9K Views

October 17, 22

スライド概要

2022/10/14
Deep Learning JP
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モデルによる少量プロンプト推論 山本 貴之(ヤフー株式会社) http://deeplearning.jp/ 1

2.

書誌情報 タイトル: Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モデルによる少量プロンプト推論 https://arxiv.org/abs/2204.14198 (NeurIPS 2022 Poster) DeepMind 著者: Jean-Baptiste Alayrac*,‡, Jeff Donahue*, Pauline Luc*, Antoine Miech*, Iain Barr†, Yana Hasson†, Karel Lenc†, Arthur Mensch†, Katie Millican†, Malcolm Reynolds†, Roman Ring†, Eliza Rutherford†, Serkan Cabi, Tengda Han, Zhitao Gong, Sina Samangooei, Marianne Monteiro, Jacob Menick, Sebastian Borgeaud, Andrew Brock, Aida Nematzadeh, Sahand Sharifzadeh, Mikolaj Binkowski, Ricardo Barreira, Oriol Vinyals, Andrew Zisserman, Karen Simonyan*,‡ *Equal contributions, ordered alphabetically, †Equal contributions, ordered alphabetically, ‡Equal senior contributions 概要: GPT-3の画像×言語版 選定理由: 学習済の画像と言語のモデルを使い、それらをドメイン適応する手法に対する興味 公式実装: なし ※出典記載の無い図表は本論文からの引用 2

3.

Flamingoは何が出来るモデルか? 画像とテキストの系列をプロンプト入力すると、その続きのテキスト系列を出力するモデル テキスト Token テキスト Token テキスト Token テキスト ・・・ Token テキスト 系列出力 Flamingoモデル 画像(or 動画) 系列入力 画像1 ※輪読者作図 画像2 テキスト 系列入力 画像3 ・・・ テキスト Token テキスト Token テキスト Token テキスト ・・・ Token 3

4.

Flamingoは何が出来るのか? 実例 画像とテキストを組み合わせたプロンプトを入力 → その続きのテキストを生成 4

5.

Flamingoは何が出来るのか? ゼロショットで動画QAや画像チャット ゼロショットQ&Aも可能 画像の代わりに動画もOK (上図) 画像チャット応答も可能 (左図) 5

6.

Flamingoのポイント 学習済モデルを 重み固定で利用 画像/動画 & 自然言語 画像とテキスト間の ドメイン適応部を学習 画像/動画(=視覚)は 一定次元ベクトルに圧縮 汎用性を高めている ✓ 言語:サイズ70BのChinchilla (Hoffmann et al., 2022) ✓ 画像:サイズ435MのNFNet-F6(Brock et al., 2021) ✓ XAttn-Denseで言語と画像学習済モデルを結合 学習する部分 Flamingoオリジナルの構造の提案手法 ✓ Perceiverで画像or動画を一定の潜在ベクトルに圧縮 学習する部分 関連研究として後述 Andrew Brock, Soham De, Samuel L. Smith, and Karen Simonyan. High-performance largescale image recognition without normalization. arXiv:2102.06171, 2021. Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, JohannesWelbl, Aidan Clark, Eric Noland Tom Hennigan, Katie Millican, George van den Driessche, Bogdan Damoc, Aurelia Guy, Simon Osindero, Karen Simonyan, Erich Elsen, Jack W. Rae, Oriol Vinyals, and Laurent Sifre. Training compute-optimal large language models. arXiv:2203.15556, 2022. 6

7.

関連研究 Perceiver 長期時系列×高次元データの圧縮 全体アーキテクチャ図 (次のページから詳細説明) 7

8.

関連研究 Perceiver モデルアーキテクチャ図 入力部 Perceiver入力部抜粋 潜在表現(圧縮先) 系列長N×各D次元 初期値はσ=0.02で -2~+2範囲のガウスノイズ 入力データ(圧縮元) 系列長M×各C次元 潜在表現(N×D)に圧縮 動画/画像など系列が長く高次元のデータ 8

9.

関連研究 Perceiver モデルアーキテクチャ図 全体 Cross Attention + Latent Transformerブロックの繰り返し(再帰的)構造 重みは共有する場合としない場合がある(任意) 系列N方向に平均し D次元のLogitsを生成 GPT-2アーキテクチャを利用 SelfAttention+Dense ブロック ブロック 繰返し数を レイヤー数と呼ぶ 9

10.

関連研究 Perceiver モデルアーキテクチャ図 Attention式 = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 𝑄𝐾𝑇 𝑑𝑘 CrossAttention部 𝑉 → QKTを計算する為K入力をD次元にしCrossAttentionに入力 ※輪読者が公式実装を参考に作図 V K MLP MLP C次元へ D次元へ 入力データ 系列長M× C次元 LayerNorm K V M×D次元 M×C次元 N×D次元 MLP Q次元へ N×C次元 Q Cross Attention N×D次元 Q MLP D次元へ 潜在表現 系列長N× D次元 LayerNorm Residual経路 出力 CrossAttentionでの次元数変化 Attention式 = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 𝑄𝐾𝑇 𝑑𝑘 𝑉 𝑄𝐾 𝑇 →[N,D][D,M]→[N,M] × 𝑉 →[N,M][M,C]→[N,C] MLP→[N,D] 10

11.

Flamingo モデルアーキテクチャ図 (全体) 画像と言語モデルは重み固定→破滅的忘却を防止 ピンク色部分のみを学習 テキスト出力 画像入力 テキスト入力 11

12.

次に、画像や動画入力部を説明 次に この部分の詳細を説明 12

13.

Flamingoモデルアーキテクチャ Vision Encoder & Perceiver Resampler 部 潜在 画像 動画 Perceiverにより、様々なサイズの画像や動画に対応 どんな長さ×次元でもOK K,VにQもconcatしているのは、オリジナルPerceiverと違う 13

14.

次に、ドメイン適応部を説明 (Flamingoのキモ) 次に、この部分の詳細を説明 14

15.

Flamingo ドメイン適応 Gated X-Attention部 1 2 CrossAttention(X-Attention)で 視覚とテキストをドメイン適応 CrossAttentionはPerceiver構造 を参考にQとKVが別次元でもOK ゲート機構 3 ゲート機構がある(詳細後述) X-Attention 4 視覚系列入力 LM layerとGATED XATTN-DENSE が複数層重なっている テキスト系列入力 系列長 64token 15

16.

Flamingo ドメイン適応 Gate機構詳細 ゲート機構とは 学習するパラメータα(1次元)のレイヤーの事 αの初期値は0なので学習初期はResidual経路になる ゲート:tanh(α) tanh関数 ゲート出力を -1 ~ +1 にする為 Residual バイパス ゲート:tanh(α) Residual バイパス 16

17.

Flamingo ドメイン適応 模擬コードでの理解 αは初期値0 学習により変化 アテンション出力 * tanh(α) + Residual 17

18.

次に、画像系列をテキスト系列にインターリーブする部分を説明 次に、この部分を説明 18

19.

Flamingo インターリーブのロジック 濃色部分のみX-Attentionにアタッチされる Image2 猫 Image1 犬 <image> タグ <image> タグ すなわち、テキスト系列の関係する部分にのみ、該当する視覚の情報が入る 19

20.

Flamingo 学習データセット (全てWEBスクレイプデータ) Flamingo自体の学習データセット(言語と画像の学習済モデルではない) 名称 M3W Multi-Modal Massive Web VTP Video & Text Pairs LTIP Long Text & Image Pairs ALIGN A Large-scale ImaGe and Noisy-text サイズ・内容 特徴 43.3M instance ✓ 複数画像がありインター テキスト容量 182GB リーブ学習に適している 画像枚数 185M 重みλ データイメージ 1.0 27M instance 動画テキストペア ✓ 動画 ✓ 説明的なテキスト ✓ 比較的高品質 0.03 312M instance 画像テキストペア ✓ 長文で説明的なテキスト ✓ 比較的高品質 0.2 1,800M instance 画像テキストペア ✓ 低品質だが大量 ✓ 画像とAlt-Text(短文) 0.2 ALIGNの画像出典:Jia, C., Yang, Y., Xia, Y., Chen, Y. T., Parekh, Z., Pham, H., ... & Duerig, T. (2021, July). Scaling up visual and vision-language representation learning with noisy text supervision. In International Conference on Machine Learning (pp. 4904-4916). PMLR. 20

21.

Flamingo 学習手法 lは系列 位置 視覚 l番目の テキスト 視覚 l番目までの内 最後尾のもの 視覚条件付きテキスト尤度 ※ テキスト テキスト l-1番目まで テキスト尤度をモデル化できるのがFlamingoの重要な点(視覚をインターリーブした上で) 学習データ 種類 重み 学習データ 分布 モデル分布 負の対数尤度 交差エントロピーの加重和 学習は、視覚言語シーケンス長Lのミニバッチを、各データセットMの特性に応じた重みλを乗じて モデルの負の対数尤度と学習データ分布の交差エントロピーの加重和を最小化するよう学習 21

22.

Flamingoのモデル3種と学習時間等 Flamingoのモデル3種(特に記載がない場合は最大モデルの事) 学習時間等 項目 値 TPUチップ数 1,536個 日数 15日間 パラメータ数 806億(内、学習部分は102億) 22

23.

Flamingo モデルのハイパーパラメータ Flamingo各モデルのパイパーパラメータ 言語 層 次元 ヘッド Flamingoモデルのレイヤー構造 項目 値 言語モデル 80層 XATTN挿入箇所 1層目+各x7層毎の前 (1,7,14,21,28,35,42,49,56,63,70,77) XATTN層数 12層 レイヤー構造図 23

24.

実験結果 従来タスク精度を100%とした時のFlamingoの相対性能 100%ラインが従来のSotA。FineTuning等を行った従来最善の結果 グレー色は、従来手法でゼロもしくはFew-shotでの結果 上から6タスク(OKVQAまで)は、提案手法Few-shotでSotA ゼロもしくはFew-shotという同一比較条件では 16のタスクでSotA ※16タスク目のRareActはこのグラフでは省略されている 24

25.

FlamingoはFew-shotで高い精度を実現 実験結果 従来タスク Zero/Few shot 提案手法 Few shot 従来タスク FineTune 25

26.

アブレーションスタディ 基準(小モデル) 学習データmix -21.5% Tanhゲート -4.4% X-ATTN構造 -11.0% ・VANILLA XATTN:オリジナルTransformer ・Grafting:2022年論文で類似目的手法 Perceiver構造 -5.1% 26 言語モデル学習 -1.2%

27.

まとめ 結論  Few-shotで画像/動画を理解する言語タスクに応用できるFlamingoモデルの紹介  Few-shotによる様々なタスクで最先端の性能を発揮  タスク固有のFineTuningを要する既存手法に対して、競争力のある性能を発揮  画像/動画に対するチャットQAのような対話能力は、従来手法を超える柔軟性  言語と視覚を橋渡しするFlamingoが、汎用的視覚理解への重要な一歩を踏み出した 感想  学習データの「質が重要」と記載があるが、そのデータはWEBスクレイプデータのみ →質を担保する手法が気になる  思ったよりドメイン適応学習が計算資源を使う為、ここがFew-shotで出来る手法がないか  大規模学習済モデルをリーズナブルに複数繋げられれば(ドメイン適応)、事業応用の幅が広がりそう 27