【DL輪読会】Perceiver io a general architecture for structured inputs & outputs

>100 Views

September 27, 21

スライド概要

2021/09/17
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

Perceiver IO: A General Architecture for Structured Inputs & Outputs Keno Harada, the University of Tokyo, M1 1

2.

書誌情報 • 著者 – Andrew Jaegle, Sebastian Borgeaudなど – DeepMind • 公式実装 – JAX実装 • 概要 – Cross Attention構造をEncoder, Decoderに取り入れることにより, 入力モダリティやタスク に柔軟に対応できるモデル構造Perceiver IOを提案. 2

3.

• 岩澤さんの発表 – 言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc) 3

4.

アウトライン • • • • • 背景 関連研究 提案手法 実験・結果 考察 4

5.

背景 • 人間や他の動物は様々なデータ入力を扱え, 統合し様々なアクションを取れる – 機械学習: タスク・モダリティに特化したネットワーク構造 • 異なるモダリティを組み合わせる際システムが複雑になる • 新しいモダリティやタスクに柔軟に適応できない • →モダリティ・タスクに依存しないシンプルなモデルが欲しい • Perceiver – Attention構造を用いて入力データを固定長の潜在空間に写像し処理 • 入力データのサイズやモダリティに関係なく処理が可能 • 大規模, マルチモーダルなデータに対応可能 – しかし分類タスクのようなシンプルなoutput形式しか扱えなかった – →様々なoutput形式を扱えるようにPerceiverを拡張 • Perceiver IO – 特定の出力に関連するクエリを用いて, 潜在空間にattentionをかけることで出力を生成 5

6.

前提知識 • Self-Attention • Cross Attention • Transformer 6

7.

tは画像ならピクセル数, 言語処理なら入力系列長 新しい表現hは他の位置の入力を考慮した値になる αはどれくらい対象の値を考慮するかを表すスコア Slide from NYU Deep Learning Spring 2021 7

8.

新しい表現を得る際にt*tのAが必要だが集合の要素数が大きくなると大変 例: (224*224)**2 で約25億くらい Slide from NYU Deep Learning Spring 2021 8

9.

Self attention query, key, valueがもともと同じ入力xから得られる場合 Slide from NYU Deep Learning Spring 2021 9

10.

Cross attention queryはxから key, valueは別のところから参照(図中ではξ) Slide from NYU Deep Learning Spring 2021 10

11.

Cross Attention Attention is All You Needよ り 11

12.

関連研究 • Generative Adversarial Transformer 12

13.

Perceiver IO 13

14.

実験 14

15.

実験 C 15

16.

Decoding the latent representation with a query array • Qには出力に必要な構造が含まれている必要がある – クラス分類 • 使い回しのできる, 学習で得られる値 – 空間構造やシーケンス構造を持つ出力 • 複合されるべき位置を表すもの • a learned positional encodingやFourier feature – マルチタスクあるいはマルチモーダルな設定 • それぞれのタスクやモダリティに対応したsingle queryを学習 – 見分けがつくように 16

17.

実験 Pretraining: Mask位置を予測するPerceiver IO ある位置の表現はpositional encodingをqueryとして与えることで得られる その表現からMaskの位置を予測するよう学習 深くできるため性能向上(同じようなFLOPs比較) 17

18.

実験 3x3のパッチを一つのtokenとみなす 時間方向のチャンネルはconcat(つまり3x3x2) positional encodingを加える Decodeの際はpositional encodingをqueryとする 18

19.

実験 画像は4x4パッチ, 音声は16sampleに切 り分け, それぞれFourier-basedな positional encodingをする 704次元に揃うようにpadding 潜在空間は共有 lossの重みづけにそれぞれのmodalityの 再構成が左右される 19

20.

実験 • StarCraftII – Alpha StarのTransformer部分をPerceiverIOに置き換える – 87% の勝率 vs Elite bot 20

21.

実験 CutMixとMixUpを使用 positionの情報は2D Fourier featureか learned position featureで入力に与え られる 21

22.

まとめ • 入力モダリティやタスクに柔軟に対応できるモデル構造Perceiver IOを提案 • Cross Attentionを用いてモダリティやタスクを変更する手法は今後注目されそ う • OutputのQueryの設計が難しい場合とは? – 何かあるのか? • instance segmentation? – 今は基本positionalで該当の表現を持ってくる • Perceiver IO + 後処理NNか? • 自己教師あり+大量のデータでいろんなタスク・モダリティに対応できるモデル が発表されるか? 22

23.

Cross Attentionについて • Generative Adversarial Transformer – the keys track the centroids K of the attention-based assignments between Y and X, which can be computed as K = a(Y, X) – namely, the weighted averages of the X elements using the bipartite attention distribution derived through comparing it to Y • Perceiver – The model can also be seen as performing a fully end-to-end clustering of the inputs with latent positions as cluster centres, leveraging a highly asymmetric cross-attention layer • Perceiver IO – Cross-attention itself is in widespread use as a mechanism for allowing information from a source to influence processing of a target domain of a different size or structure 23