【人工知能・深層学習】論文紹介：DecomCAM: Advancing Beyond Saliency Maps through Decomposition and Integration

1.9K Views

August 27, 24

#論文紹介 #deeplearning #人工知能 #深層学習 #vlm #DecomCAM #モデル解釈 #特異値分解 #サリエンシーマップ

スライド概要

M2の宮坂優樹さんが論文「DecomCAM: Advancing Beyond Saliency Maps through Decomposition and Integration」の紹介を担当しました。本論文は、特に事前トレーニングされたVLMの解釈を改善するための新しい手法を提案しています。特異値分解を用いて、クラス識別アクティベーションマップをよりシンプルで独立したサリエンシーマップに分割し、ターゲットコンセプトへの貢献度に基づいて統合することで、より正確で解釈可能なサリエンシーマップを生成できたことを報告しています。

Taki lab.

@8328889256

スライド一覧

立教大学大学院人工知能科学研究科における瀧雅人准教授が主催する研究室で2020年度からスタートしているまだ若い組織です。最先端の深層学習について、高度化・説明性向上などをテーマに深く幅広く研究しています。また医療や神経科学・物理学におけるデータ分析や、産業への社会実装にも携わっています。研究室内のPaper Reading活動の記録として、研究室学生の発表資料を公開しています。ご興味をお持ちの方は、HPをご確認ください。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【人工知能・深層学習】レビュー：モダリティギャップの研究紹介

論文紹介 deeplearning 深層学習人工知能マルチモーダルモダリティギャップ

Taki lab. 2.3K

【人工知能・深層学習】論文紹介：Vision-Language Models Create Cross-Modal Task Representations

deeplearning 論文紹介深層学習人工知能 llm in-context learning task vector vlm

Taki lab. 2.2K

【人工知能・深層学習】論文紹介：Towards Modular LLMs by Building and Reusing a Library of LoRAs

論文紹介 deeplearning 人工知能深層学習 lora

Taki lab. 1.6K

【人工知能・深層学習】論文紹介：You Only Need Less Attention at Each Stage in Vision Transformers

論文紹介 deeplearning 人工知能深層学習 vision transformer

Taki lab. 1.6K

【人工知能・深層学習】論文紹介：Cross-Modal Safety Mechanism Transfer in Large Vision-Language Models

論文紹介 deeplearning 深層学習

Taki lab. 1K

【人工知能・深層学習】論文紹介：カーネルサイズ100を超えるCNN - PeLK

論文紹介 deeplearning 人工知能 cnn pelk 深層学習

Taki lab. 1K

各ページのテキスト

DecomCAM: Advancing Beyond Saliency Maps through Decomposition and Integration

目次 1. 2. 3. 4. 論文概要研究背景提案手法実験 5.1 実験設定 5.2 データセット 5.3 評価メトリック 5. 6. 7. 8. 9. ゼロショット位置解釈因果解釈属性分析まとめ参考文献 1

論文概要タイトル： DecomCAM: Advancing Beyond Saliency Maps through Decomposition and Integration 目標: 既存のCAM手法の限界を克服し、より解釈性の高い注目領域マップを生成する。成果: 特異値分解（SVD）を用いて注目領域マップを複数の独立した成分に分解。分解した注目領域マップを統合して総合的な注目領域マップを作成することで、各メトリックスで既存の手法よりも良い結果が得られた。 2

研究背景 1）ノイズの問題 VLMの進化により、 DLモデルのパラメータとデータの規模が拡大。これにより、活性化マップにはより豊富な視覚概念が含まれるようになり、モデルの性能が向上。 →一方、注目領域マップを使用した信頼性のある視覚的解釈には課題があり、モデル解釈においてノイズの影響を慎重に考慮する必要がある。 3

研究背景 2）重要な要素の絡み合いの問題従来の方法では、活性化マップに重み付け集計操作を使用して最終的な注目領域マップを生成する。しかし、この直接的な集計アプローチには統計解析が欠けており、モデルが学習した重要な要素の絡み合いを引き起こす可能性がある。 →モデルが予測する際に考慮する複数の重要な特徴が相互に影響し合い、その結果、個々の特徴の寄与度が不明確になり、解釈が難しくなる。 4

提案手法 5

提案手法分解パート 6

提案手法 Step1:クラス活性化マップの生成クラスcに対するクラス活性化マップを作成。これにより、入力画像xに対するクラス識別活性化マップが得られる。 7

提案手法 Step2:重要なチャンネルの選択ノイズを含む可能性のある、重要ではないチャンネルを除外する。具体的には、各チャンネルの勾配値に基づいて、チャンネルをソートし、トップPの重要なチャンネルを選択する。 8

10.

提案手法 Step3:チャンネルのベクトル化選択されたトップPのチャンネルをベクトル化して行列を構成。ここで、各チャンネルはフラット化され、ベクトルとして表される。これにより、行列が構築される。 9

11.

提案手法 Step4:特異値分解の適用構築された行列に対して特異値分解を適用。これによって共通のパターンを抽出し、ノイズのある特徴を除去。特異値分解の結果として、行列は左特異ベクトル、対角行列、および右特異ベクトルに分解される。 10

12.

提案手法 Step5:再構成とアップサンプリング再構成された特徴マップを元の空間次元に戻して、特徴マップを得る。そして、各特徴マップを入力のサイズにアップサンプルする。ここで、アップサンプリング操作up(・)と Min-Max正規化関数s(・)を適用し、OSSMs を得る。 11

13.

提案手法統合パート 12

14.

提案手法 Step1:OSSMの重み付け各OSSM に対してガウシアンブラーを適用して新しい画像を生成。この操作は、ガウシアンブラー操作g(・)と要素ごとの最大操作max(・)を用いて、画像の一部をぼかしている。 13

15.

提案手法 Step2:スコア差の計算ぼかし画像と参照画像g(I)のモデルの予測スコアを比較して各OSSMの属性値（各 OSSMapがモデルの予測にどれだけ貢献しているかを示すスコア）を計算。ここでスコア差は、ぼかし画像と参照画像のモデルの予測スコアの差。モデル：CLIP-ResNet50 14

16.

提案手法 Step3:ソフトマックス正規化スコア差に対してソフトマックス正規化を適用し、最終的な重みを得る。 15

17.

提案手法 Step4:最終サリエンシーマップの生成 OSSMとその重みを線形結合して、最終的なサリンシーマップを生成。 16

18.

実験 DecomCAMの有効性を検証するために 1. ゼロショット位置解釈モデルが事前に見たことのない画像に対してどのように反応するかを評価するための手法。この評価方法を採用する理由は、モデルの一般化能力と未知のデータに対する適応力を確認するため。 2. 因果解釈モデルの予測結果に対して特定の入力特徴がどのように寄与しているかを評価するための手法。この評価方法を採用する理由は、モデルの内部動作と予測に対する各特徴の因果関係を明らかにするため。 17

19.

実験設定・DecomCAMのハイパーパラメータを P = 100およびQ = 10に設定 𝑃：クラス識別活性化マップの中から選択されるトップ𝑃チャンネルの数を表す。勾配値の降順に基づいてチャンネルをソートし、上位𝑃個のチャンネルを選択。 𝑄：特異値分解によって選択された主要な成分の数を表す。上位𝑄個の成分を使用することで、ノイズを削減し、重要な特徴を強調。・CLIPのstage-4アーキテクチャの最終畳み込み層を選択 CAMベースのアプローチに類似した方法論に従い、解釈可能な視覚化を生成するために、 CLIPのstage-4アーキテクチャの最終畳み込み層を選択 18

20.

データセット ● ● ● ● ● ● ImageNet-v2 Pascal VOC 2012 MSCOCO 2017 PartImageNet PS-ImageNet PASCAL-Part 19

21.

評価メトリック ● BoxAcc: バウンディングボックスの一致度を評価。 ○ 予測ボックスと実際のボックスのIoUを計算し、一定の閾値を超える場合を正解とする。 ● MaxBoxAccV2: バウンディングボックスの位置精度の改良版。 ○ 複数のIoU閾値を使用し、各閾値での精度を平均化して評価。 ● KAM（Keep Absolute Metric）: 注目領域の保持による予測スコアの変動。 ○ 注目領域が保持された場合の予測スコアの変動を測定。 ● RAM（Remove Absolute Metric）: 注目領域の削除による予測スコアの変動。 ○ 注目領域が削除された場合の予測スコアの変動を測定。 ● PG-ACC（Pointing Game Accuracy）: 注目領域の最も高いスコアのピクセルが実際のオブジェクトの位置に一致するかを評価。 ○ 注目領域のピークピクセルがグラウンドトゥルースのオブジェクト領域内にあるかを確認。 20

22.

ゼロショット位置解釈さまざまな勾配ベースの CAM の顕著性マップの視覚化。 DecomCAM は一貫して他の方法よりも優れており、ノイズが少なくターゲットコンセプトに重点を置いた顕著性マップを生成している。結果は CLIP-ResNet50x4 バックボーンから取得されます。 21

23.

ゼロショット位置解釈 ImageNetV2：単一オブジェクトの位置特定 MSCOCO：複数オブジェクトの位置特定 PartImageNet：オブジェクト部分の位置特定 22

24.

ゼロショット位置解釈 23

25.

因果解釈 24

26.

因果解釈 PS-ImageNetにおける因果解釈可能性実験の比較結果。 CLIP-ResNet50モデルでテストパフォーマンス指標。 DecomCAMのパラメータ：P=100, Q=10 A5000 GPU and Intel(R) Core(TM) i9-10900X @ 3.70GHZ CPU. 25

27.

属性分析これまでの実験を経て分解プロセス中に生成されるOSSM の恩恵を受け、これにより活性化マップから重要な要素を抽出し、正確な顕著性マップを作成できた。疑問 →これらの要素は、飛行機の車輪、エンジン、翼など、ターゲットコンセプトのコンポーネントに直接対応できるか？つまりOSSMが、視覚的な概念の中で具体的な物理的構造を正確に反映しているかどうか。 26

28.

属性分析 PASCAL-Part データセットにおける OSSM のリコール率。この棒グラフは、評価に CLIP-ResNet50x4 を使用して、上位 i 個の特異値に対する OSSM のリコール率を示す。x軸は特異値のインデックス i を表し、各 OSSM に割り当てられた重要度のランクを示している。 27

29.

属性分析 OSSM を使用した視覚概念のローカリゼーション。 28

30.

属性分析 29

31.

属性分析 30

32.

まとめ分解による解釈可能性の向上 ● 特異値分解により、活性化マップから重要な要素を抽出し、ノイズを削減。 ● DecomCAMは、より正確なサリエンシーマップを生成。カテゴリレベルの解釈 ● DecomCAMは、モデルがどの属性に基づいて予測しているかを解釈可能に。 ● カテゴリの属性ごとの寄与を定量化し、モデルの認識基準を評価。倫理的配慮とモデルの透明性 ● DecomCAMは、モデルが偏った特徴に依存していないかを検出。 ● 公平で倫理的なAIシステムの開発に貢献。課題 ● ピクセルレベルのパターン抽出の必要性。 ● データセット全体での適用の研究が必要。 31

33.

参考文献 DecomCAM: Advancing Beyond Saliency Maps through Decomposition and Integration Yuguang Yang, Runtang Guo, Sheng Wu, Yimi Wang, Linlin Yang, Bo Fan, Jilong Zhong, Juan Zhang, Baochang Zhang https://arxiv.org/abs/2405.18882 32

https://arxiv.org/abs/2405.18882

34.

35.

Appendix 34