論文紹介:Iterated Learning Improves Compositionality in Large Vision-Language Models (CVPR2024)

14.6K Views

July 06, 24

スライド概要

第61回 コンピュータビジョン勉強会@関東(前編)の発表資料です。
https://kantocv.connpass.com/event/321174/

紹介する論文:https://openaccess.thecvf.com/content/CVPR2024/html/Zheng_Iterated_Learning_Improves_Compositionality_in_Large_Vision-Language_Models_CVPR_2024_paper.html

profile-image

某生成AI企業でVLM開発やVLM開発にまつわる研究をしています。奈良先端大で客員助教をしています。 まとめたスライドをこちらで公開します。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

論文紹介 Iterated Learning Improves Compositionality in Large VisionLanguage Models (CVPR2024) 紹介者:品川 政太朗 ※以下、登場する図は論文からの引用です

2.

自己紹介 1 品川 政太朗 (しながわ せいたろう) @sei_shinagawa 居住地:札幌→仙台→生駒(奈良)→竹芝(東京) 2021 2024 2024.04 奈良先端大博士(工学) 奈良先端大助教 客員助教 Vision-Language Models 某生成AI企業でVLM構築 書籍 • コンピュータビジョン最前線2021Winter ニュウモン Vision and Language(共立出版) • コンピュータビジョン最前線2023 Summer フカヨミCLIP(共立出版) • Vision Transformer入門 7章8章(技術評論社) 最近の興味 • VLM構築周りや学習データのフィルタリング、データ生成、VLM評価周り © 品川 政太朗

3.

書誌情報: Iterated Learning Improves Compositionality in Large Vision-Language Models Chenhao Zheng, University of Michigan Jieyu Zhang, University of Washington Aniruddha Kembhavi, University of Michigan Ranjay Krishna, Allen Institute for Artificial Intelligence 2 Compositionalityベン チ マークCREPEの著者 概要: VLMはスケールしても画像と言語の構成性を捉えにくい →CLIP型のVLMに構成性を促す反復訓練アルゴリズムを提案 • Lewisシグナリングゲーム(とは言いつつも普通のCLIPの学習の枠組み)に基づく • 訓練中に言語エンコーダの重みを初期化して学習しなおす • 擬似的に文化的な伝達を次の世代のエージェントに継承していることに相当 • 自己蒸留によるLipchitz正規化的なsmoothing効果がある 論文の選定理由: • 研究ストーリーとアイデアがユニークで面白かった • ポテンシャルを感じつつもシンプルな実装で実行できそうなのが良さげ https://openaccess.thecvf.com/content/CVPR2024/html/Zheng_Iterated_Learning_Improves_Compos itionality_in_Large_Vision-Language_Models_CVPR_2024_paper.html © 品川 政太朗

4.

まず構成性ってなんぞ? 3 構成性(Compositionality) 単純なものの組み合わせで複雑なものが表現されるという考え方 自然言語処理では古くから意味論で扱われてきた • • 文の意味は複数の単語とその位置関係で構成される 単語は文字で構成される 画像でもよく扱われてきた • 画像は前景・背景から構成され、前景は複数の物体により構成され、各物体はその部位で構 成される、各部位は形状と属性のプロパティを持つ →これは構成性を前提とした考え方 LangRobo研究会もよろしく お願いします!(宣伝) 詳細は綱島秀樹さんのLangRobo研究会の下記の資料がとても勉強になるのでおススメです 「人間にAIはどのように辿り着けばよいのか?ー 系統的汎化からの第一歩 ー」 https://speakerdeck.com/maguro27/ren-jian-niaihadonoyounichan-rizhao-kebayoinoka-xi-tong-de-fan-hua-karanodi-bu-at-di22hui-language-and-roboticsyan-jiu-hui © 品川 政太朗

5.

VLMが構成性を理解しているか確かめる方法の例 4 画像テキストペアから負例を作成して正しい画像テキストペアを選べるかを評価する VL-Checklist apple→dog appleを認識できず 電球の周りに植物 植物の周りに電球 テキスト:文中の単語を置き換える 画像:同じ背景に異なる大きさ、位置に物 体を配置する [Zhao+,2022] Tiancheng Zhao, Tianqi Zhang, Mingwei Zhu, Haozhan Shen, Kyusong Lee, Xiaopeng Lu, Jianwei Yin. An Explainable Toolbox for Evaluating Pre-trained Vision-Language Models. EMNLP2022. Winoground 使っている語彙は同じだが、並び方が異な るテキストとそれらに対応する画像による 画像テキストペアを用意 [Thrush+2022] Tristan Thrush, Ryan Jiang, Max Bartolo, Amanpreet Singh, Adina Williams, Douwe Kiela, Candace Ross. Winoground: Probing Vision and Language Models for Visio-Linguistic Compositionality. CVPR2022. © 品川 政太朗

6.

VLMは構成性を捉えられてる? 5 捉えられてないという報告多数 VLMは小さい物体や画像の端 にある物体の認識能力が弱い。 属性や関係性の理解も弱い VL-Checklist [Zhao+, 2022] 複数物体があるときに、文中の どの属性がどの物体に割り当た るかを結びつける能力が弱い Cola [Ray+, 2023] 見たことない組み合わせにドチャクソ弱い。複雑さが増すと検索性 能がほぼランダムレベル。訓練データやモデルのサイズは良い影響 を与えなかった(感想:CLIPとかでやってるのでそれはそう) CREPE [Ma+, 2023] [Ray+,2023] Arijit Ray, Filip Radenovic, Abhimanyu Dubey, Bryan Plummer, Ranjay Krishna, Kate Saenko. Cola: A Benchmark for Compositional Text-to-image Retrieval. NeurIPS2023. [Ma+,2023] Zixian Ma, Jerry Hong, Mustafa Omer Gul, Mona Gandhi. Irena Gao, Ranjay Krishna. CREPE: Can Vision-Language Foundation Models Reason Compositionally?. CVPR2023. © 品川 政太朗

7.

GPT-4VやGeminiすらも間違いがち これもCVPR2024 6 Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [Tong+, 2024] • DINOv2だと類似しない、CLIPだと類似する画像ペアを集めてCLIPで解けない画像 付き選択問題を人手で作成 • GPT-4Vを含めたVLM(CLIPベース含む)が軒並み間違えた [Tong+,2024] Shengbang Tong, Zhuang Liu, Yuexiang Zhai, Yi Ma, Yann LeCun, and Saining Xie. Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs. CVPR, 2024. © 品川 政太朗

8.

GPT-4VやGeminiすらも間違いがち これもCVPR2024 7 Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [Tong+, 2024] • DINOv2だと類似しない、CLIPだと類似する画像ペアを集めてCLIPで解けない画像 付き選択問題を人手で作成 • GPT-4Vを含めたVLM(CLIPベース含む)が軒並み間違えた 大規模のモデル・データでスケールさせるだけではだめ! (学習の工夫が必要!) [Tong+,2024] Shengbang Tong, Zhuang Liu, Yuexiang Zhai, Yi Ma, Yann LeCun, and Saining Xie. Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs. CVPR, 2024. © 品川 政太朗

9.

最近のCLIPの学習にはいい負例を入れようという流れに [Yuksekgonul+,2023] 良いhard negativeを学習に含めるとCLIPの性能が向上する 8 構成性のベンチマーク AROも提案した論文 構成性ベンチマークで 性能が大きく向上 画像は類似する画像を予め検索して抽出 [Yuksekgonul+,2023] Mert Yuksekgonul, Federico Bianchi, Pratyusha Kalluri, Dan Jurafsky, and James Zou. When and Why Vision-Language Models Behave like Bags-Of-Words, テキストは置き換えなどで負例を作成 © 品川 政太朗 and What to Do About It?. ICLR, 2023.

10.

本研究のアイデア:人間の言語の構成性の創発における知見や仮説を参考にする 9 認知科学では、次の世代に言語を継承する上で学習しやすい言語が好まれて残って いくという仮説がある →限られた記号の組み合わせで無数の概念を表現できるように圧力が働く →言語が構成性を持つように発展! 技術的嬉しさ:負例を明示的に作らずにCLIPの構成性理解に関する能力を促せる • 負例作成はめんどい!やらなくて済むのは嬉しい! 道具立て:Lewis Signaling Game • • 今回はあまり深く考えなくてOK 結局やってるのはCLIPの学習 Senderが画像を言語化し、メッセージとしてReceiverに伝える Receiverはメッセージから元の画像を当てる Sender 画像 Receiver メッセージ ⋮ © 品川 政太朗

11.

使っているモデル:CLIPの共有の潜在空間にcodebook 画像特徴と言語特徴を対照学習する前に codebookとcross attentionする 10 画像と言語が共通の新しい構成単位 (codebook)に変換される • codebookの重み付き和で特徴量 を表現=構成性 Query Key Value Finite Discrete Tokens (FDT) [Chen+, 2023] [Chen+,2023] Yuxiao Chen, Jianbo Yuan, Yu Tian, Shijie Geng, Xinyu Li, Ding Zhou, Dimitris N Metaxas, and Hongxia Yang. Revisiting multimodal representation in contrastive learning: from patch and token embeddings to finite discrete tokens. CVPR, 2023.© 品川 政太朗

12.

Q. codebookを使う利点は? A. 複数の情報に自然に対応できる 11 大域的情報を一つの潜在表現に潰さず、複数の潜在表現の重みつき和で表現するため 犬 草 CLIPは画像と言語を大域的に 対応付ける帰納バイアスを持つ (おそらく情報が潰れやすい) 笑 CLIP-FDTは画像と言語の部分情 報を明示的にcodebookの一つに 対応づける帰納バイアスを持つ © 品川 政太朗

13.

提案手法:Iterated Learning 12 画像エンコーダ 言語エンコーダ Vision Agent (V)とLanguage Agent (L)を学習する 1. VとLを普通に対照学習。コードブックも同時に学習される 2. 言語エンコーダを新しいものに入れ替える 3. codebookを固定して訓練(自己蒸留)する 4. VとLを普通に対照学習。コードブックも更新される © 品川 政太朗

14.

提案手法:Iterated Learning Step1 13 Vision Agent (V)とLanguage Agent (L)を学習する 1. VとLを普通に対照学習。コードブックも同時に学習される 2. 言語エンコーダを新しいものに入れ替える(初期化する) 3. codebookを固定して訓練(自己蒸留)する 4. VとLを普通に対照学習。コードブックも更新される © 品川 政太朗

15.

提案手法:Iterated Learning Step2 14 Vision Agent (V)とLanguage Agent (L)を学習する 1. VとLを普通に対照学習。コードブックも同時に学習される 2. 言語エンコーダを新しいものに入れ替える(初期化する) 3. codebookを固定して訓練(自己蒸留)する 4. VとLを普通に対照学習。コードブックも更新される © 品川 政太朗

16.

提案手法:Iterated Learning Step3 15 Vision Agent (V)とLanguage Agent (L)を学習する 1. VとLを普通に対照学習。コードブックも同時に学習される 自己蒸留:モデル構成が同 2. 言語エンコーダを新しいものに入れ替える(初期化する) じモデルによる蒸留 3. codebookを固定して訓練(自己蒸留)する 4. VとLを普通に対照学習。コードブックも更新される 画像エンコーダは固定しな いらしい © 品川 政太朗

17.

提案手法:Iterated Learning Step4 16 Vision Agent (V)とLanguage Agent (L)を学習する 1. VとLを普通に対照学習。コードブックも同時に学習される 2. 言語エンコーダを新しいものに入れ替える(初期化する) 3. codebookを固定して訓練(自己蒸留)する 4. VとLを普通に対照学習。コードブックも更新される ここまでで一世代終了。Step2から学習を繰り返す © 品川 政太朗

18.

Q. 言語エンコーダだけ交換するのはどうして? 17 著者らの主張 • 両方初期化すると時間がかかる • 画像エンコーダのみ、言語エンコーダのみ交換だと後者が実験的に良かった • 画像エンコーダはlow-levelな特徴も再度学習する必要があるので時間がかかる説 • 私見:おそらくStep3の時間を伸ばせば同等になる可能性はありそう © 品川 政太朗

19.

実験設定 18 学習 • データセット:CC3M, CC12M • 画像エンコーダ:CLIP-ViT-B/32(重みはランダム初期化) • 言語エンコーダ:CLIP-Transformer(重みはランダム初期化) • codebook:16, 384個, 512次元 • batch size: 1024 • 1世代分の学習時間:step3: 1000 iter → step4: 5000 iter • step1は6000 iter、最後の世代はstep4に追加で12,000 iter 評価 構成性の評価ベンチマーク:CREPE, SugarSrepe, Cola, Winoground • 本研究の関心事。似ているが間違えている負例(画像、テキスト)と比較して正 例の方を正しく選べるか 一般的な画像タスクでの評価:画像分類、(画像テキスト検索、probingは付録を参照) • Iterated Learningが一般的な画像タスクに影響を及ぼすかを確認 © 品川 政太朗

20.

学習曲線の様子 19 損失関数は順調に下がっている • 感想:定期的にロススパイクを起こしているみたいな感じの図・・・ © 品川 政太朗

21.

構成性のベンチマークではIterated Learningが良い性能 20 Iterated Learningなし手法より、あり手法の方が良い性能 • Iterated Learningなし(Codebook-CLIP)< Iterated Learningあり(IL-CLIP) Iterated Learningは負例を頑張ってつくる方法(NegCLIP)にも負けてない性能 • 私見:NegCLIPはhard negative miningのコストが高いのでIL-CLIPすごい © 品川 政太朗

22.

負例を明示的に作らなくても同程度に高性能 21 Iterated Learningなし手法より、あり手法の方が良い性能 • Iterated Learningなし(Codebook-CLIP)< Iterated Learningあり(IL-CLIP) Iterated Learningは負例を頑張ってつくる方法(NegCLIP)にも負けてない性能 • 私見:NegCLIPはhard negative miningのコストが高いのでIL-CLIPすごい © 品川 政太朗

23.

zero-shot 画像分類でも悪くない性能 22 ただ、若干Iterated Learningなし(Codebook-CLIP)に負ける場合も →Iterated Learningが悪影響な場合もある模様 私見: • 構成性理解と画像分類性能にはトレードオフがある? • 画像分類というタスクに過剰に適合している(short cut)が起きてる説? © 品川 政太朗

24.

Iterated Learningは世代を経るごとに性能向上がみられる 23 各世代時点で言語エンコーダを初期化して訓練した場合のバッチ内平均正解率 • Iterated Learningでは世代が新しくなるごとに性能限界が大きく上昇する • Codebook-CLIPはあまり上がらない→最初からIterated Learningするのが大事 Iterated Learningあり Iterated Learningなし © 品川 政太朗

25.

世代を経るごとの性能向上はLipschitz constantの減少と対応している 24 Lipschitz constantが小さい = 滑らかな関数を持つ = 学習しやすい(蒸留しやすい) = Iterated LearningはLipschitz正規化 (smoothingの一種)の効果がある Lipschitz constants 𝐿(𝑓)はDNN 𝑓(𝑥)の全体的な変動しやすさの上限 Lipschitz constants 𝐿 ≥ 0 が存在するとき、 𝑓: ℝ𝑛 → ℝ𝑚 は 𝒳 ⊆ ℝ𝑛 でLipschitz連続 𝑓 𝑥 − 𝑓(𝑦) ≤ 𝐿 𝑥 − 𝑦 for all 𝑥, 𝑦 ∈ 𝒳 各線形層の後ろにspectral normalizationを かけて得られた𝐿の積が全体のconstant (詳細は[Gouk+,2021] を参照) [Gouk+,2021] Henry Gouk, Eibe Frank, Bernhard Pfahringer, and Michael J Cree. Regularisation of neural networks by enforcing lipschitz continuity. Machine Learning, 110:393–416, 2021. https://link.springer.com/article/10.1007/s10994-020-05929-w © 品川 政太朗

26.

Ablation Study 25 構成性ベンチマーク 画像分類 1世代(step3-4) あたりの学習時間 世代あたりで 学習しすぎるのは良くない step2で 入れ替える(初期化 する)モデル 画像エンコーダを置き換え るのは避けた方が良い step3でcodebookを 固定するか codebookをstep3で固定し ないと悪化する codebookありなし codebookなしだと性能 が劇的に悪化する Iterated Learningを Lipschitz正規化で置 き換えた場合 Lipschitz正規化はIterated Learningの代替には不十分 © 品川 政太朗

27.

codebookの特定のトークンに反応する画像トークンの注意の可視化 26 codeごとに以下の概念に反応して いることがわかった • #4: Horse • #7: Crowd codeが局所領域に当たっている点 がポイント CLIPが苦手にしている局所領域の 特徴抽出ができている! © 品川 政太朗

28.

一画像に複数物体がある場合もうまくいく HorseとTentに反応するコードが上位にランクされる 27 codebookとの注意重みの高い順 CrowdとHorseに反応するコードが上位にランクされる © 品川 政太朗

29.

まとめ 28 CLIP型の視覚言語モデルに構成性を促すIterated Learningを提案 • 訓練中に言語エンコーダの重みを初期化して学習しなおす • 擬似的に文化的な伝達を次の世代のエージェントに継承していることに相当(と著者は主張) • 自己蒸留によるLipchitz正規化的なsmoothing効果があるのがポイント 所感 • 肝はcodebook+自己蒸留 • 構成性理解と画像分類性能のトレードオフが少し気になる • 画像分類データセットの性能が高いモデルの方が過剰にfitting(short cut)している説? • 構成性理解の性能を重視する方が個人的には重要と思っています • 学習をし過ぎるのがまずいという点は学習の制御がやりにくそう • 著者らも訓練時の不安定性に言及していた © 品川 政太朗

30.

以下補足スライド © 品川 政太朗 29

31.

VL-Checklist https://aclanthology.org/2022.emnlp-demos.4/ https://github.com/om-ai-lab/VL-CheckList 30 An Explainable Toolbox for Evaluating Pre-trained Vision-Language Models (ENMLP2022 demo) VLMの能力を評価するためのベンチマークを提案 • テキスト内の物体、属性、関係の置き換え • 画像中の物体の位置や大きさを変えて実験 得られた知見: • 物体のサイズ小さい、中央に位置しない場合はVLMでの認識が難しくなる • 属性と関係の認識は物体の認識よりも難しい。特に関係の認識が難しい © 品川 政太朗

32.

Winoground https://openaccess.thecvf.com/content/CVPR2022/html/Thrush_Winoground_Probing_Visio n_and_Language_Models_for_Visio-Linguistic_Compositionality_CVPR_2022_paper.html 31 Winoground: Probing Vision and Language Models for Visio-Linguistic Compositionality (CVPR2022) • VLMが構成性を捉えられるかを評価するベンチマーク • 1サンプルが2組の画像テキストペアで構成される • 正しい組み合わせを選べるかを評価 • Image-Score: テキストにマッチする画像選択の正解率 • Text-Score: 画像にマッチするテキスト選択の正解率 • Goup-Score: 上記2つがどちらも正解の割合を算出 • データセット作成は言語学、V&Lの専門家による人手作業 画像A • 当時の代表的なモデル(VinVL, UNITER, CLIP, FLAVAなど)を評価 • 全体的に低いスコア 0.30 0.31 画像B 0.42 • 特にImage-Scoreがチャンスレートを下回る・・・ 0.43 テキストA • スコア計算のアルゴリズムが悪い説 テキストB • テキストAについて∩正解テキストBについて正解が必要 • テキストエンコーダが貧弱だと、特徴量がほぼ同じになる • 画像A、Bの選択はどちらかに偏るのでスコアが0になりがち(右図だと共に画像Bを選択) 西田京介さんの最先端NLP勉強会の資料が参考になります。 https://speakerdeck.com/kyoun/winoground-probing-vision-and-language-modelsfor-visio-linguistic-compositionality © 品川 政太朗

33.

Cola https://neurips.cc/virtual/2023/poster/73493 https://cs-people.bu.edu/array/research/cola/ 32 Cola: A Benchmark for Compositional Text-to-image Retrieval (NeurIPS2023) • CLIP型のVLMが構成性を捉えられるかを評価するベンチマーク • 物体と属性の結びつきの評価に特化 • Winogroundような関係性には着目してない • 複数物体にも注目している点が異なる • 評価はmAPのほか2画像2テキストのマッチング(WinogroundのGoup-Scoreと同じもの)を利用 © 品川 政太朗

34.

VALSE https://aclanthology.org/2022.acl-long.567/ 33 https://github.com/heidelberg-nlp/valse VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena (ACL2023) 言語学的な観点から、以下の言語現象に着目したVLM評価ベンチマークを提案 存在(existence)、複数性(plurality)、カウント(counting)、空間関係(spatial relations)、 行動(actions)、共参照(coreference) 画像キャプションとVQAデータセットから作成 foil(負例)を作成してVLMが正例を選べるかを評価 • 作成したデータの県境にはMLMやNLI、AMTによる人手評価を実施してデータの信頼性をチェック © 品川 政太朗

35.

VALSEのまとめ 34 © 品川 政太朗

36.

ARO https://openreview.net/forum?id=KRLUvxh8uaX 35 When and Why Vision-Language Models Behave like Bags-Of-Words, and What to Do About It? (ICLR2023) 構成性に関するベンチマーク 特に語順の理解に着目 VLMの対照学習において 負例の作成が重要という点を指摘 村岡雅康さんの資料が参考になります https://speakerdeck.com/muraoka7/snlp2023-when-and-why-vision-languagemodels-behave-like-bags-of-words-and-what-to-do-about-it © 品川 政太朗

37.

AROで提案されたCLIPの学習手法:NegCLIP 36 hard negativeを学習に含めるとCLIPの性能が向上する 画像は類似する画像を予め検索して抽出 テキストは置き換えなどで負例を作成 構成性ベンチマークで 性能が大きく向上 © 品川 政太朗

38.

CREPE https://cvpr.thecvf.com/virtual/2023/poster/21031 37 CREPE: Can Vision-Language Foundation Models Reason Compositionally? (CVPR2023) 下記の構成性に着目したベンチマーク • 系統性(Systematicity) • 見たことのある構成要素と見たことのない構成要素の組み合わせに対するモデルの性能を評価 • 生産性(Productivity) • テキストの複雑さが増すにつれてのモデルの評価 • VLMの構成性の性能は全体的に悪い。学習データセットやモデルサイズに依存しない傾向 Systematicity dataset Productivity dataset 画像は著者らのスライド資料から https://cvpr.thecvf.com/media/cvpr-2023/Slides/21031.pdf © 品川 政太朗

39.

CREPE論文での実験:OpenCLIPをはじめとした各種CLIP派生モデルで評価 38 Unseen 系統性(Systematicity) • 全体的に性能が悪い • Unseenなデータセットに対してモデルの性能はさらに低下する傾向にある 線が右に傾くほど unseen性能が悪い Seen HN-ATOM: テキスト内の単語1つを間違った単語で置き換える(on top of→under) HN-COMP: HN-ATOMの例を2つ作り連結する(a pink car→a blue car and a pink toy) ※単語はシーングラフのノードを指す HN-COMPのスコアが全体的に上がっているのは負例としての情報が増えている(文も伸びている) から、と著者らは考察している © 品川 政太朗

40.

CREPE論文での実験:OpenCLIPをはじめとした各種CLIP派生モデルで評価 39 生産性(Productivity) • テキストの複雑さが増すにつれて、画像 テキスト検索のR@1は低下し、高い複雑 さではランダム選択の場合に近づく • データセットを変えても同じ傾向 • モデルを変えても同じ傾向 • 負例の作成方法(Atomic Foils: 間違いに 変更, Negate: 否定形の追加, Swap: 似た 表現に置き換え) © 品川 政太朗

41.

CREPE論文の面白い知見:ImageNetのzero-shot性能との相関 40 系統性と生産性はImageNetのtop-1正解率と相関 する傾向あり • 特に系統性はseen/unseenで相関係数0.99/0.95 • 生産性はまちまち • 複雑度が上がると相関しなくなる傾向 • ただしNegateを除く • Swapは最初からあまり相関しない © 品川 政太朗

42.

Sugarcrepe https://openreview.net/forum?id=Jsc7WSCZd4 https://github.com/RAIVNLab/sugar-crepe 41 Sugarcrepe: Fixing hackable benchmarks for vision-language compositionality (NeurIPS2023) 既存の構成性ベンチマークのhard negativesは画像入力なしモデルでも見分けられるという問題を指摘 • 原因は正例と負例の分布間ギャップ • 負例が文として尤もらしくない(Nonsensical)、流暢でない(Non-fluent)なのが問題 • 既存手法はルールベースで正例の単語を置き換えたりして負例を作成しているため 提案手法:ChatGPTを用いてsensicalでfluentな負例を作成した 敵対的なrefinementによりバイアスを消去するアルゴリズムを提案している点もポイント © 品川 政太朗

43.

構成性も根本的にはバイアスの問題 42 共起の偏りがあると回答が引っ張られる(画像を見ずに答えを出す) 私見:離散で同じ表現が用いられやすいテキストの方が共起を捉えやすい説? "物体は何色ですか?", "赤" "物体は何色ですか?", "青" "物体は何色ですか?" 学習 "赤" "物体は何色ですか?", "赤" 関連資料:中島悠太先生のSSII2024チュートリアル『深層学習に潜むバイアス』 https://speakerdeck.com/ssii/ssii2024-ts2-nakashima © 品川 政太朗

44.

バイアスの対処:王道は偏りをなくすこと 43 データ作成時に回答の分布を揃える 画像もバイアスを無くせるとベスト "物体は何色ですか?", "赤" "物体は何色ですか?", "青" "物体は何色ですか?", "赤" "物体は何色ですか?" 学習 "青" "物体は何色ですか?", "青" "物体は何色ですか?", "赤" "物体は何色ですか?", "青" © 品川 政太朗

45.

王道ができない場合1:予測時にバイアスを打ち消す 44 検出した物体へのマスクありなしの予測分布の差をとる→ ↓(画像ありモデルの予測)から(画像なしモデルの予測)を引く Counterfactual VQA [Niu+,2021] Contrastive Region Guidance [Wan+,2024] [Niu+,2024] Yulei Niu, Kaihua Tang, Hanwang Zhang, Zhiwu Lu, Xian-Sheng Hua, Ji-Rong Wen. Counterfactual VQA: A CauseEffect Look at Language Bias. CVPR2021. [Wan+,2024] David Wan, Jaemin Cho, Elias Stengel-Eskin, Mohit Bansal. Contrastive Region Guidance: Improving Grounding in Vision-Language Models without Training. ECCV2024. © 品川 政太朗

46.

王道ができない場合2:反実仮想(Counterfactual)なデータを生成して学習 45 反実仮想(Counterfactual)なデータをマスクで作って学習 [Chen+,2020] 回答に必要な情報を抽出してマ スクする • 画像の物体領域にマスク • Qの単語にマスク 左図の例だとネクタイの情報が隠 されるので正解できなくなる →"NOT green"を真値にする ネクタイ以外の情報と正解回答と の相関が消える! [Chen+,2020] Long Chen, Xin Yan, Jun Xiao, Hanwang Zhang, Shiliang Pu, Yueting Zhuang. Counterfactual Samples Synthesizing for Robust Visual Question Answering. CVPR2020. © 品川 政太朗