【人工知能・深層学習】論文紹介：You Only Need Less Attention at Each Stage in Vision Transformers

1.7K Views

August 25, 24

#論文紹介 #deeplearning #人工知能 #深層学習 #vision transformer #Vision Transformer #Attention Mechanism #Computational Efficiency #Object Detection #Image Segmentation

スライド概要

M2の増村さんが論文「You Only Need Less Attention at Each Stage in Vision Transformers(https://arxiv.org/abs/2406.00427)」の紹介を担当しました。本論文は、ViT(Vision Transformer)ベースのマルチタスク用バックボーンモデルの課題点である、計算コストの高さに焦点を当てています。同論文ではLess Attentionと呼ばれる、前層のAttention-mapを継承する構造を提案しており、これによって大幅なコスト削減とスコアの維持を実現したことを報告しています。

Taki lab.

@8328889256

スライド一覧

立教大学大学院人工知能科学研究科における瀧雅人准教授が主催する研究室で2020年度からスタートしているまだ若い組織です。最先端の深層学習について、高度化・説明性向上などをテーマに深く幅広く研究しています。また医療や神経科学・物理学におけるデータ分析や、産業への社会実装にも携わっています。研究室内のPaper Reading活動の記録として、研究室学生の発表資料を公開しています。ご興味をお持ちの方は、HPをご確認ください。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【人工知能・深層学習】論文紹介：Vision-Language Models Create Cross-Modal Task Representations

deeplearning 論文紹介深層学習人工知能 llm in-context learning task vector vlm

Taki lab. 4.5K

【人工知能・深層学習】レビュー：モダリティギャップの研究紹介

論文紹介 deeplearning 深層学習人工知能マルチモーダルモダリティギャップ

Taki lab. 4.4K

【人工知能・深層学習】論文紹介：Towards Modular LLMs by Building and Reusing a Library of LoRAs

論文紹介 deeplearning 人工知能深層学習 lora

Taki lab. 2K

【人工知能・深層学習】論文紹介：DecomCAM: Advancing Beyond Saliency Maps through Decomposition and Integration

論文紹介 deeplearning 人工知能深層学習 vlm

Taki lab. 2K

【人工知能・深層学習】論文紹介：SeedFormer: Patch Seeds based Point Cloud Completion with Upsample Transformer

論文紹介 deeplearning 深層学習 point cloud 3d点群

Taki lab. 1.5K

【人工知能・深層学習】論文紹介：カーネルサイズ100を超えるCNN - PeLK

論文紹介 deeplearning 人工知能 cnn pelk 深層学習

Taki lab. 1.4K

各ページのテキスト

論文紹介 You Only Need Less Attention at Each Stage in Vision Transformers ジャーナルクラブ(7月13日) 23VR007L 増村翔

論文概要論文名 You Only Need Less Attention at Each Stage in Vision Transformers 研究分野概要分類・物体検知・セグメンテーションの全タスクに対応した， ViT型バックボーンモデルの作成工夫点 attentionの計算を行わない,less-attentionの提案 1

研究背景：ViTの課題課題1：ViT(self-attention)の深層化によるスコアの頭打ち=Attention-Collapse ViTのblock数をある程度まで増やすと， Attention-Mapの変化が起こりにくくなっていく。出典 2

https://search.proquest.com/docview/2504619795

研究背景：ViTの課題課題2：feature-mapが低画質かつ入力と同サイズ • パッチサイズが大きいと物体検知や，セグメンテーションがうまくいかない． R:ResNet X:ResNext CNNと異なり，attentionを通しても，画像サイズが変わらないことも原因． 3

関連研究1：Pyramid Vision Transformer(PVT) General用途のViTの構造一例 • 各ステージ毎にpatch-embeddingを行いダウンサンプリング． • Patch-sizeがViTの比べて小さいため，パラメータサイズが大きい． 𝑝: 4 × 4 𝑝: 2 × 2 𝑝: 2 × 2 𝑝: 2 × 2 CNNと同様， Feature-mapのサイズを徐々に小さくしていく構造 4

補遺B：PVT関連 PVTでは，attention内での計算量削減を図っている(Spatial-Reduction Attention)． 𝐻𝑊 (𝐻𝑊, 𝐶)のmapを 𝑅2 , 𝐶𝑅2 にreshapeした後， (𝐶𝑅2 , 𝐶)の行列𝑊 𝑆 を掛けることで， 𝐻𝑊 ,𝐶 𝑅2 にダウンサンプリングしている． 5

関連研究2：RetinaNeT ViTを用いたobject-detection • • • バックボーンモデルのFeature-mapをFPNに通した後に分類・回帰を行う．バックボーンはImageNet等で分類用の事前学習を行う深い層のfeature-mapをアップサンプリングして，足し上げる． FPNの入力はバックボーンのfeature-map クラス分類&ボックス回帰 ViT等のバックボーンモデル(事前学習済み) 6

LaViT:アーキテクチャ 1. 各ステージの前半でself-attentionを行う(𝐿𝑉𝐴 𝑚 回)． 2. less-attentionでは前層のfeature-mapを線形変換して再利用(𝐿𝑚 − 𝐿𝑉𝐴 𝑚 回)． 7

LaViT:アーキテクチャ 1. 各ステージの前半でself-attentionを行う(𝐿𝑉𝐴 𝑚 回)． 2. less-attentionでは前層のfeature-mapを線形変換して再利用(𝐿𝑚 − 𝐿𝑉𝐴 𝑚 回)． 𝑄𝐾 ⊤ 行列相当のものを承継 8

10.

LaViT:アーキテクチャ異なるステージ間のless-attention • 一部ステージは，less-attentionのみで構成されている． →前ステージのfeature-mapをダウンサンプリングして承継する．各ステージ内のattention数ダウンサンプリング方法 less-attention 数

11.

LaViT:損失関数 less-attentionによる，feature-mapへの束縛条件 • self-attentionによって得られる，feature-mapの特性をless-attentionでも再現したい． 1. 対称行列(正確には対称ではない) 𝐴𝑖𝑗 = 𝐴𝑗𝑖 2. 対角成分の値が大きい 𝐴𝑖𝑖 > 𝐴𝑖𝑗 ∀𝑗 ≠ 𝑖 Diagonality Preserving Loss

12.

LaViT:実験条件分類 • 物体検知データセット • ImageNet-1K データセット(バックボーン) セグメンテーション • データセット(バックボーン) ImageNet-1K • データセット ImageNet-1K • データセット COCO2017 ADE20K • 物体検知モデル RetinaNet • 評価指標 AveragePrecision(AP) • 物体検知モデル Semantic-FPN 評価指標 mean-IOU(m-IOU)

13.

LaViTの性能：Classification • 低パラメータでありながら，精度を保持． • self-attention以外のattentionとの組み合わせにも有効 ImageNet-1kでのスコア 12

14.

LaViTの性能：Object-Detection • 従来モデル(Swin-Transformer)と比較して，コスト減・スコア上昇 COCOによる物体検知スコア(バックボーンはImageNet-1k) 13

15.

LaViTの性能：Segmentation • 従来モデル(Swin-Transformer)と比較して，コスト減・スコア上昇 14

16.

LaViTの性能：その他対Attention-Collapse • 18層(vanilla:14層,less:4層)のfeature-map類似度の低減(=多層化への対応) • • 特に，less-attentionではない層に対しても類似度の低下が見られる． ViTによる分類モデルも，less-attentionよってトークンの類似度が下がる．バックボーン型の類似度分類モデルの類似度 15

17.

LaViTの性能：その他 DP-lossの効果 • less-attentionに対してDP-lossを使わないと分類精度が下がる． →線形変換によって，トークンの相関関係に関する情報が欠落？ ImageNet-1kのTop-1スコア

18.

個人的に気になった点 • DP-lossの式は，feature-mapが大きいステージの配点が大きくなっている． • self-attentionに対して対称性の束縛条件をつけることの是非． Diagonality Preserving Loss ・DP-lossの有無による，feature-mapの可視化

19.

20.

補遺A：DeepViT関連 Attention-CollapseをRe-Attention機構を用いて回避 MHSAで得られた𝑄𝐾 ⊤ 行列に対して，trainableな行列Θを掛けることで，各head同士の情報を交換し，attention-mapに対して多様性を持たす． 19

21.

補遺A：DeepViT関連 Attention-Mapの類似度指標類似度はシンプルなコサイン類似度で表される． ViTの各層に対する， Attention-MapとのK-Nearestな類似度 20

22.

補遺A：DeepViT関連 Attention-Mapの類似度指標 (ViT)同一ブロック内の異なるヘッド同士の類似度は，どれも0.3を下回る．これが，head情報の交換を行うDeepViT作成のきっかけとなっている． 21

23.

補遺B：PVT関連 PVTでは，Patch-embeddingによるダウンサンプリングの他に，attention内での計算量削減を図っている(Spatial-Reduction Attention)． 𝐻𝑊 (𝐻𝑊, 𝐶)のmapを 𝑅2 , 𝐶𝑅2 にreshapeした後， (𝐶𝑅2 , 𝐶)の行列𝑊 𝑆 を掛けることで， 𝐻𝑊 ,𝐶 𝑅2 にダウンサンプリングしている． 22

24.

補遺C：Swin-Transformer関連 feature-map全体をwindowに分割した後，window毎にself-attentionを適用(計算コスト減)．異なるwindowに属するpatchの相関関係を担保するため，windowをズラしている． 23