【DL輪読会】Vision Transformers Need Registers

7.2K Views

December 01, 23

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] DL輪読会: Vision Transformers Need Registers Taichi Okunishi, Keio Univ. http://deeplearning.jp/ Taichi Okunishi DL輪読会 1 2023/12/01

2.

書誌情報 ⚫ 概要 ► ViT の入力系列にトークンの追加により,attention map のアーチファクトを低減し下流タスクで精度を改善 ⚫ 公開日 ► 2023年9月, arXiv: https://arxiv.org/abs/2309.16588 ► ICLR 2024,under review ⚫ コード ► https://github.com/facebookresearch/dinov2 Taichi Okunishi DL輪読会 2023/12/01 2

3.

背景 図:入力画像と,各学習手法ごとの ViT の (高解像度化した) Attention Map ⚫ ViTでは Attention Map に高ノルムのアーチファクト ► 画像内の情報量の少ないトークンに存在 ViT: Vision Transformer ► 画像認識タスクに影響を与える可能性 ⚫ 本研究ではまず,このアーチファクトのあるトークンが何を表すかを2つの実験により調査 ► 大域的特徴を持つかの実験,局所的特徴量を持つかの実験 Taichi Okunishi DL輪読会 2023/12/01 3

4.

実証実験(1/2)|大域的特徴の有無の実証 表:トークンごと(CLS, normal, outlier)の代表的な画像認識タスクでの結果比較 ⚫ 一般的な画像認識タスクでの実験 ► CLSトークンと正常な画像トークンとアーチファクトのある画像トークンで結果を比較 ⚫ アーチファクトのあるトークン (outlier) は,通常のトークン (normal) より高い精度 ► アーチファクトのあるトークンは大域的な情報を保持している可能性 Taichi Okunishi DL輪読会 2023/12/01 4

5.

実証実験(2/2)|局所的特徴の有無の実証 表:トークンごと(normal, outlier) の局所特徴が重要なタスクの結果比較 ⚫ アーチファクトのあるトークンが局所的な特徴を持つかを実証するための2つの実験 ► Position prediction: 各トークンが画像のどこに位置するかの予測タスク ► Reconstruction: 各トークンのembedding から,元のピクセルの値の再構成タスク ⚫ 両方のタスクで,異常トークンは通常トークンよりも低い精度 ► 異常トークンは局所的な情報を破棄している可能性 Taichi Okunishi DL輪読会 2023/12/01 5

6.

実証実験のまとめと本研究の目的 ⚫ 実証実験のまとめ ► 異常トークンは,局所的な情報が少ない場所に出現 ► 異常トークンは,大域的な情報を保持し,局所的な情報を破棄 ➡️ ピクセル単位の局所的な情報が重要なタスクで性能低下を引き起こす可能性 ⚫ 本研究の位置付け ► 目的:Attention map のアーチファクト除去により,下流タスクでの精度改善 ► 提案手法:ViT の入力系列にトークンを追加 ViT: Vision Transformer ► 貢献 – Attention map で高ノルムのトークンは,大域情報を保持していることを実証 – 実験によりトークンを追加する提案手法での下流タスクでの精度改善を確認 Taichi Okunishi DL輪読会 2023/12/01 6

7.

提案手法|レジスタトークンの追加 図:提案手法の概要図 ⚫ 提案手法 ► 入力系列に,レジスタトークンを明示的に追加(本研究では4つのレジスタトークン) – 従来の ViT のアーチファクトのあるトークンの役割 (大域的情報の保持) をこのトークンが担う事が目的 ► 出力時にレジスタ用トークンを破棄 – Taichi Okunishi 下流タスクで影響しないように除去 DL輪読会 2023/12/01 7

8.

実験設定 ⚫ 3つの学習アルゴリズムで,レジスタを追加した ViT を訓練 ► DEIT-III (supervised) ► OpenCLIP (text-supervised) ► DINOv2 (self-supervised) ⚫ 実験 ► 画像認識タスクでの性能比較 – 画像分類タスク (ImageNet),セグメンテーションタスク (ADE-20k) ,深度推定タスク (NYUd) で評価 ► Object discovery タスクでの性能比較 – Object discovery タスク: 教師ラベルなしのオブジェクトの特定タスク – 評価指標:corloc (correct location) : 正しく配置された bounding box の割合 Taichi Okunishi DL輪読会 2023/12/01 8

9.

実験結果|画像認識タスクでの性能比較 表:画像認識タスクでの提案手法の結果比較 ⚫ レジスタを使用しても性能は低下せず,時には性能改善 ⚫ DINO v2 + レジスタ有りの場合で全てのタスクで最良の精度 ► 追加したレジスタの有用性を示唆 Taichi Okunishi DL輪読会 2023/12/01 9

10.

実験結果 | Object discovery タスクでの性能比較 表:object discovery タスクでの提案手法の結果比較 ⚫ 全ての学習アルゴリズムでレジスタありの方が大幅に精度改善 ► Ojbect discovery タスクでは attention map の滑らかさが重要 Taichi Okunishi DL輪読会 2023/12/01 10

11.

実験結果|定性的な結果 図:レジスタの有無による attention map の比較 ⚫ レジスタの追加により,高ノルムのアーチファクトの除去に成功 Taichi Okunishi DL輪読会 2023/12/01 11

12.

実験結果|レジスタトークンの数による比較 図:レジスタ数による,Attention mapの比較と,画像認識タスクの結果の比較 ⚫ レジスタを1つ追加するだけで,特徴マップのノイズは大幅に低減 ⚫ 各タスクにおいても,1つ追加するだけで精度が改善 ► ImageNet 分類タスクでは,レジスタ数が多いほど精度改善 ⚫ 本研究では,全ての実験でレジスタ数を4つに固定 Taichi Okunishi DL輪読会 2023/12/01 12

13.

まとめ ⚫ 背景 ► ViTの attention map には高ノルムのアーチファクトのあるトークンが存在 ⚫ 本研究 ► 実験により,アーチファクトを含むトークンは,大域的な情報を保持することを実証 ► ViT にレジスタ用のトークンを追加する手法を提案 ⚫ 実験結果 ► 画像認識タスク,object discovery タスクにおいて,精度改善 – Taichi Okunishi トークンを追加する提案手法の有用性を提示 DL輪読会 2023/12/01 13