865 Views
August 25, 24
スライド概要
M2の増村さんが論文「You Only Need Less Attention at Each Stage in Vision Transformers(https://arxiv.org/abs/2406.00427)」の紹介を担当しました。本論文は、ViT(Vision Transformer)ベースのマルチタスク用バックボーンモデルの課題点である、計算コストの高さに焦点を当てています。同論文ではLess Attentionと呼ばれる、前層のAttention-mapを継承する構造を提案しており、これによって大幅なコスト削減とスコアの維持を実現したことを報告しています。
立教大学大学院人工知能科学研究科における瀧雅人准教授が主催する研究室で2020年度からスタートしているまだ若い組織です。 最先端の深層学習について、高度化・説明性向上などをテーマに深く幅広く研究しています。 また医療や神経科学・物理学におけるデータ分析や、産業への社会実装にも携わっています。 研究室内のPaper Reading活動の記録として、研究室学生の発表資料を公開しています。 ご興味をお持ちの方は、HPをご確認ください。
論文紹介 You Only Need Less Attention at Each Stage in Vision Transformers ジャーナルクラブ(7月13日) 23VR007L 増村翔
論文概要 論文名 You Only Need Less Attention at Each Stage in Vision Transformers 研究分野概要 分類・物体検知・セグメンテーションの全タスクに対応した, ViT型バックボーンモデルの作成 工夫点 attentionの計算を行わない,less-attentionの提案 1
研究背景:ViTの課題 課題1:ViT(self-attention)の深層化によるスコアの頭打ち=Attention-Collapse ViTのblock数をある程度まで増やすと, Attention-Mapの変化が起こりにくく なっていく。 出典 2
研究背景:ViTの課題 課題2:feature-mapが低画質かつ入力と同サイズ • パッチサイズが大きいと物体検知や,セグメンテーションがうまくいかない. R:ResNet X:ResNext CNNと異なり,attentionを通しても, 画像サイズが変わらないことも原因. 3
関連研究1:Pyramid Vision Transformer(PVT) General用途のViTの構造一例 • 各ステージ毎にpatch-embeddingを行いダウンサンプリング. • Patch-sizeがViTの比べて小さいため,パラメータサイズが大きい. 𝑝: 4 × 4 𝑝: 2 × 2 𝑝: 2 × 2 𝑝: 2 × 2 CNNと同様, Feature-mapのサイズを 徐々に小さくしていく構造 4
補遺B:PVT関連 PVTでは,attention内での計算量削減を図っている(Spatial-Reduction Attention). 𝐻𝑊 (𝐻𝑊, 𝐶)のmapを 𝑅2 , 𝐶𝑅2 にreshapeした後, (𝐶𝑅2 , 𝐶)の行列𝑊 𝑆 を掛けることで, 𝐻𝑊 ,𝐶 𝑅2 に ダウンサンプリングしている. 5
関連研究2:RetinaNeT ViTを用いたobject-detection • • • バックボーンモデルのFeature-mapをFPNに通した後に分類・回帰を行う. バックボーンはImageNet等で分類用の事前学習を行う 深い層のfeature-mapをアップサンプリングして,足し上げる. FPNの入力はバックボーンのfeature-map クラス分類&ボックス回帰 ViT等のバックボーンモデル(事前学習済み) 6
LaViT:アーキテクチャ 1. 各ステージの前半でself-attentionを行う(𝐿𝑉𝐴 𝑚 回). 2. less-attentionでは前層のfeature-mapを線形変換して再利用(𝐿𝑚 − 𝐿𝑉𝐴 𝑚 回). 7
LaViT:アーキテクチャ 1. 各ステージの前半でself-attentionを行う(𝐿𝑉𝐴 𝑚 回). 2. less-attentionでは前層のfeature-mapを線形変換して再利用(𝐿𝑚 − 𝐿𝑉𝐴 𝑚 回). 𝑄𝐾 ⊤ 行列相当のもの を承継 8
LaViT:アーキテクチャ 異なるステージ間のless-attention • 一部ステージは,less-attentionのみで構成されている. →前ステージのfeature-mapをダウンサンプリングして承継する. 各ステージ内 のattention数 ダウンサンプリング方法 less-attention 数
LaViT:損失関数 less-attentionによる,feature-mapへの束縛条件 • self-attentionによって得られる,feature-mapの特性をless-attentionでも再現したい. 1. 対称行列(正確には対称ではない) 𝐴𝑖𝑗 = 𝐴𝑗𝑖 2. 対角成分の値が大きい 𝐴𝑖𝑖 > 𝐴𝑖𝑗 ∀𝑗 ≠ 𝑖 Diagonality Preserving Loss
LaViT:実験条件 分類 • 物体検知 データセット • ImageNet-1K データセット(バックボーン) セグメンテーション • データセット(バックボーン) ImageNet-1K • データセット ImageNet-1K • データセット COCO2017 ADE20K • 物体検知モデル RetinaNet • 評価指標 AveragePrecision(AP) • 物体検知モデル Semantic-FPN 評価指標 mean-IOU(m-IOU)
LaViTの性能:Classification • 低パラメータでありながら,精度を保持. • self-attention以外のattentionとの組み合わせにも有効 ImageNet-1kでのスコア 12
LaViTの性能:Object-Detection • 従来モデル(Swin-Transformer)と比較して,コスト減・スコア上昇 COCOによる物体検知スコア(バックボーンはImageNet-1k) 13
LaViTの性能:Segmentation • 従来モデル(Swin-Transformer)と比較して,コスト減・スコア上昇 14
LaViTの性能:その他 対Attention-Collapse • 18層(vanilla:14層,less:4層)のfeature-map類似度の低減(=多層化への対応) • • 特に,less-attentionではない層に対しても類似度の低下が見られる. ViTによる分類モデルも,less-attentionよってトークンの類似度が下がる. バックボーン型の類似度 分類モデルの類似度 15
LaViTの性能:その他 DP-lossの効果 • less-attentionに対してDP-lossを使わないと分類精度が下がる. →線形変換によって,トークンの相関関係に関する情報が欠落? ImageNet-1kのTop-1スコア
個人的に気になった点 • DP-lossの式は,feature-mapが大きいステージの配点が大きくなっている. • self-attentionに対して対称性の束縛条件をつけることの是非. Diagonality Preserving Loss ・DP-lossの有無による,feature-mapの可視化
補遺A:DeepViT関連 Attention-CollapseをRe-Attention機構を用いて回避 MHSAで得られた𝑄𝐾 ⊤ 行列に対して,trainableな行列Θを掛けることで, 各head同士の情報を交換し,attention-mapに対して多様性を持たす. 19
補遺A:DeepViT関連 Attention-Mapの類似度指標 類似度はシンプルなコサイン類似度で表される. ViTの各層に対する, Attention-MapとのK-Nearestな類似度 20
補遺A:DeepViT関連 Attention-Mapの類似度指標 (ViT)同一ブロック内の異なるヘッド同士の類似度は, どれも0.3を下回る. これが,head情報の交換を行うDeepViT作成のきっかけ となっている. 21
補遺B:PVT関連 PVTでは,Patch-embeddingによるダウンサンプリングの他に,attention内での計算量削 減を図っている(Spatial-Reduction Attention). 𝐻𝑊 (𝐻𝑊, 𝐶)のmapを 𝑅2 , 𝐶𝑅2 にreshapeした後, (𝐶𝑅2 , 𝐶)の行列𝑊 𝑆 を掛けることで, 𝐻𝑊 ,𝐶 𝑅2 に ダウンサンプリングしている. 22
補遺C:Swin-Transformer関連 feature-map全体をwindowに分割した後,window毎にself-attentionを適用(計算コスト減). 異なるwindowに属するpatchの相関関係を担保するため,windowをズラしている. 23