論文紹介：Iterated Learning Improves Compositionality in Large Vision-Language Models (CVPR2024)

21.7K Views

July 06, 24

#CVPR2024 #Vision-Language Model #Compositionality #Iterated Learning #CLIP

スライド概要

第61回コンピュータビジョン勉強会＠関東（前編）の発表資料です。
https://kantocv.connpass.com/event/321174/

紹介する論文：https://openaccess.thecvf.com/content/CVPR2024/html/Zheng_Iterated_Learning_Improves_Compositionality_in_Large_Vision-Language_Models_CVPR_2024_paper.html

品川政太朗

@sei_shinagawa

スライド一覧

某生成AI企業でVLMの開発や研究をしています。奈良先端大で客員助教をしています。まとめたスライドをこちらで公開します。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

論文紹介：Beyond Accuracy: Evaluating the Reasoning Behavior of Large Language Models - A Survey

品川政太朗 8.9K

学振特別研究員になるために～2025年度申請版

学振 dc1 dc2 jsps pd

大上雅史 750.7K

研究に使える便利なフリーソフト ImageJ

imagej 放射線技師

片山豊 346.4K

StampFlyで学ぶマルチコプタ制御

伊藤恒平 296K

大規模言語モデルに追加学習で専門知識を教える試み (2023, arXiv:2312.03360)

Kan Hatakeyama 288.7K

ZAZA株式会社_会社紹介

ZAZA株式会社 254.2K

各ページのテキスト

論文紹介 Iterated Learning Improves Compositionality in Large VisionLanguage Models (CVPR2024) 紹介者：品川政太朗 ※以下、登場する図は論文からの引用です

自己紹介 1 品川政太朗（しながわせいたろう） @sei_shinagawa 居住地：札幌→仙台→生駒（奈良）→竹芝（東京） 2021 2024 2024.04 奈良先端大博士（工学）奈良先端大助教客員助教 Vision-Language Models 某生成AI企業でVLM構築書籍 • コンピュータビジョン最前線2021Winter ニュウモン Vision and Language（共立出版） • コンピュータビジョン最前線2023 Summer フカヨミCLIP（共立出版） • Vision Transformer入門 7章8章（技術評論社）最近の興味 • VLM構築周りや学習データのフィルタリング、データ生成、VLM評価周り © 品川政太朗

書誌情報: Iterated Learning Improves Compositionality in Large Vision-Language Models Chenhao Zheng, University of Michigan Jieyu Zhang, University of Washington Aniruddha Kembhavi, University of Michigan Ranjay Krishna, Allen Institute for Artificial Intelligence 2 CompositionalityベンチマークCREPEの著者概要： VLMはスケールしても画像と言語の構成性を捉えにくい →CLIP型のVLMに構成性を促す反復訓練アルゴリズムを提案 • Lewisシグナリングゲーム（とは言いつつも普通のCLIPの学習の枠組み）に基づく • 訓練中に言語エンコーダの重みを初期化して学習しなおす • 擬似的に文化的な伝達を次の世代のエージェントに継承していることに相当 • 自己蒸留によるLipchitz正規化的なsmoothing効果がある論文の選定理由： • 研究ストーリーとアイデアがユニークで面白かった • ポテンシャルを感じつつもシンプルな実装で実行できそうなのが良さげ https://openaccess.thecvf.com/content/CVPR2024/html/Zheng_Iterated_Learning_Improves_Compos itionality_in_Large_Vision-Language_Models_CVPR_2024_paper.html © 品川政太朗

https://openaccess.thecvf.com/content/CVPR2024/html/Zheng_Iterated_Learning_Improves_Compositionality_in_Large_Vision-Language_Models_CVPR_2024_paper.html

まず構成性ってなんぞ？ 3 構成性（Compositionality）単純なものの組み合わせで複雑なものが表現されるという考え方自然言語処理では古くから意味論で扱われてきた • • 文の意味は複数の単語とその位置関係で構成される単語は文字で構成される画像でもよく扱われてきた • 画像は前景・背景から構成され、前景は複数の物体により構成され、各物体はその部位で構成される、各部位は形状と属性のプロパティを持つ →これは構成性を前提とした考え方 LangRobo研究会もよろしくお願いします！（宣伝）詳細は綱島秀樹さんのLangRobo研究会の下記の資料がとても勉強になるのでおススメです「人間にAIはどのように辿り着けばよいのか？ー系統的汎化からの第一歩ー」 https://speakerdeck.com/maguro27/ren-jian-niaihadonoyounichan-rizhao-kebayoinoka-xi-tong-de-fan-hua-karanodi-bu-at-di22hui-language-and-roboticsyan-jiu-hui © 品川政太朗

https://speakerdeck.com/maguro27/ren-jian-niaihadonoyounichan-rizhao-kebayoinoka-xi-tong-de-fan-hua-karanodi-bu-at-di-22hui-language-and-roboticsyan-jiu-hui

VLMが構成性を理解しているか確かめる方法の例 4 画像テキストペアから負例を作成して正しい画像テキストペアを選べるかを評価する VL-Checklist apple→dog appleを認識できず電球の周りに植物植物の周りに電球テキスト：文中の単語を置き換える画像：同じ背景に異なる大きさ、位置に物体を配置する [Zhao+,2022] Tiancheng Zhao, Tianqi Zhang, Mingwei Zhu, Haozhan Shen, Kyusong Lee, Xiaopeng Lu, Jianwei Yin. An Explainable Toolbox for Evaluating Pre-trained Vision-Language Models. EMNLP2022. Winoground 使っている語彙は同じだが、並び方が異なるテキストとそれらに対応する画像による画像テキストペアを用意 [Thrush+2022] Tristan Thrush, Ryan Jiang, Max Bartolo, Amanpreet Singh, Adina Williams, Douwe Kiela, Candace Ross. Winoground: Probing Vision and Language Models for Visio-Linguistic Compositionality. CVPR2022. © 品川政太朗

VLMは構成性を捉えられてる？ 5 捉えられてないという報告多数 VLMは小さい物体や画像の端にある物体の認識能力が弱い。属性や関係性の理解も弱い VL-Checklist [Zhao+, 2022] 複数物体があるときに、文中のどの属性がどの物体に割り当たるかを結びつける能力が弱い Cola [Ray+, 2023] 見たことない組み合わせにドチャクソ弱い。複雑さが増すと検索性能がほぼランダムレベル。訓練データやモデルのサイズは良い影響を与えなかった（感想：CLIPとかでやってるのでそれはそう） CREPE [Ma+, 2023] [Ray+,2023] Arijit Ray, Filip Radenovic, Abhimanyu Dubey, Bryan Plummer, Ranjay Krishna, Kate Saenko. Cola: A Benchmark for Compositional Text-to-image Retrieval. NeurIPS2023. [Ma+,2023] Zixian Ma, Jerry Hong, Mustafa Omer Gul, Mona Gandhi. Irena Gao, Ranjay Krishna. CREPE: Can Vision-Language Foundation Models Reason Compositionally?. CVPR2023. © 品川政太朗

GPT-4VやGeminiすらも間違いがちこれもCVPR2024 6 Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [Tong+, 2024] • DINOv2だと類似しない、CLIPだと類似する画像ペアを集めてCLIPで解けない画像付き選択問題を人手で作成 • GPT-4Vを含めたVLM（CLIPベース含む）が軒並み間違えた [Tong+,2024] Shengbang Tong, Zhuang Liu, Yuexiang Zhai, Yi Ma, Yann LeCun, and Saining Xie. Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs. CVPR, 2024. © 品川政太朗

GPT-4VやGeminiすらも間違いがちこれもCVPR2024 7 Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [Tong+, 2024] • DINOv2だと類似しない、CLIPだと類似する画像ペアを集めてCLIPで解けない画像付き選択問題を人手で作成 • GPT-4Vを含めたVLM（CLIPベース含む）が軒並み間違えた大規模のモデル・データでスケールさせるだけではだめ！（学習の工夫が必要！） [Tong+,2024] Shengbang Tong, Zhuang Liu, Yuexiang Zhai, Yi Ma, Yann LeCun, and Saining Xie. Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs. CVPR, 2024. © 品川政太朗

最近のCLIPの学習にはいい負例を入れようという流れに [Yuksekgonul+,2023] 良いhard negativeを学習に含めるとCLIPの性能が向上する 8 構成性のベンチマーク AROも提案した論文構成性ベンチマークで性能が大きく向上画像は類似する画像を予め検索して抽出 [Yuksekgonul+,2023] Mert Yuksekgonul, Federico Bianchi, Pratyusha Kalluri, Dan Jurafsky, and James Zou. When and Why Vision-Language Models Behave like Bags-Of-Words, テキストは置き換えなどで負例を作成 © 品川政太朗 and What to Do About It?. ICLR, 2023.

10.

本研究のアイデア：人間の言語の構成性の創発における知見や仮説を参考にする 9 認知科学では、次の世代に言語を継承する上で学習しやすい言語が好まれて残っていくという仮説がある →限られた記号の組み合わせで無数の概念を表現できるように圧力が働く →言語が構成性を持つように発展！技術的嬉しさ：負例を明示的に作らずにCLIPの構成性理解に関する能力を促せる • 負例作成はめんどい！やらなくて済むのは嬉しい！道具立て：Lewis Signaling Game • • 今回はあまり深く考えなくてOK 結局やってるのはCLIPの学習 Senderが画像を言語化し、メッセージとしてReceiverに伝える Receiverはメッセージから元の画像を当てる Sender 画像 Receiver メッセージ ⋮ © 品川政太朗

11.

使っているモデル：CLIPの共有の潜在空間にcodebook 画像特徴と言語特徴を対照学習する前に codebookとcross attentionする 10 画像と言語が共通の新しい構成単位 (codebook)に変換される • codebookの重み付き和で特徴量を表現＝構成性 Query Key Value Finite Discrete Tokens (FDT) [Chen+, 2023] [Chen+,2023] Yuxiao Chen, Jianbo Yuan, Yu Tian, Shijie Geng, Xinyu Li, Ding Zhou, Dimitris N Metaxas, and Hongxia Yang. Revisiting multimodal representation in contrastive learning: from patch and token embeddings to finite discrete tokens. CVPR, 2023.© 品川政太朗

12.

Q. codebookを使う利点は？ A. 複数の情報に自然に対応できる 11 大域的情報を一つの潜在表現に潰さず、複数の潜在表現の重みつき和で表現するため犬草 CLIPは画像と言語を大域的に対応付ける帰納バイアスを持つ（おそらく情報が潰れやすい）笑 CLIP-FDTは画像と言語の部分情報を明示的にcodebookの一つに対応づける帰納バイアスを持つ © 品川政太朗

13.

提案手法：Iterated Learning 12 画像エンコーダ言語エンコーダ Vision Agent (V)とLanguage Agent (L)を学習する 1. VとLを普通に対照学習。コードブックも同時に学習される 2. 言語エンコーダを新しいものに入れ替える 3. codebookを固定して訓練（自己蒸留）する 4. VとLを普通に対照学習。コードブックも更新される © 品川政太朗

14.

提案手法：Iterated Learning Step1 13 Vision Agent (V)とLanguage Agent (L)を学習する 1. VとLを普通に対照学習。コードブックも同時に学習される 2. 言語エンコーダを新しいものに入れ替える（初期化する） 3. codebookを固定して訓練（自己蒸留）する 4. VとLを普通に対照学習。コードブックも更新される © 品川政太朗

15.

提案手法：Iterated Learning Step2 14 Vision Agent (V)とLanguage Agent (L)を学習する 1. VとLを普通に対照学習。コードブックも同時に学習される 2. 言語エンコーダを新しいものに入れ替える（初期化する） 3. codebookを固定して訓練（自己蒸留）する 4. VとLを普通に対照学習。コードブックも更新される © 品川政太朗

16.

提案手法：Iterated Learning Step3 15 Vision Agent (V)とLanguage Agent (L)を学習する 1. VとLを普通に対照学習。コードブックも同時に学習される自己蒸留：モデル構成が同 2. 言語エンコーダを新しいものに入れ替える（初期化する）じモデルによる蒸留 3. codebookを固定して訓練（自己蒸留）する 4. VとLを普通に対照学習。コードブックも更新される画像エンコーダは固定しないらしい © 品川政太朗

17.

提案手法：Iterated Learning Step4 16 Vision Agent (V)とLanguage Agent (L)を学習する 1. VとLを普通に対照学習。コードブックも同時に学習される 2. 言語エンコーダを新しいものに入れ替える（初期化する） 3. codebookを固定して訓練（自己蒸留）する 4. VとLを普通に対照学習。コードブックも更新されるここまでで一世代終了。Step2から学習を繰り返す © 品川政太朗

18.

Q. 言語エンコーダだけ交換するのはどうして？ 17 著者らの主張 • 両方初期化すると時間がかかる • 画像エンコーダのみ、言語エンコーダのみ交換だと後者が実験的に良かった • 画像エンコーダはlow-levelな特徴も再度学習する必要があるので時間がかかる説 • 私見：おそらくStep3の時間を伸ばせば同等になる可能性はありそう © 品川政太朗

19.

実験設定 18 学習 • データセット：CC3M, CC12M • 画像エンコーダ：CLIP-ViT-B/32（重みはランダム初期化） • 言語エンコーダ：CLIP-Transformer（重みはランダム初期化） • codebook：16, 384個, 512次元 • batch size: 1024 • 1世代分の学習時間：step3: 1000 iter → step4: 5000 iter • step1は6000 iter、最後の世代はstep4に追加で12,000 iter 評価構成性の評価ベンチマーク：CREPE, SugarSrepe, Cola, Winoground • 本研究の関心事。似ているが間違えている負例（画像、テキスト）と比較して正例の方を正しく選べるか一般的な画像タスクでの評価：画像分類、（画像テキスト検索、probingは付録を参照） • Iterated Learningが一般的な画像タスクに影響を及ぼすかを確認 © 品川政太朗

20.

学習曲線の様子 19 損失関数は順調に下がっている • 感想：定期的にロススパイクを起こしているみたいな感じの図・・・ © 品川政太朗

21.

構成性のベンチマークではIterated Learningが良い性能 20 Iterated Learningなし手法より、あり手法の方が良い性能 • Iterated Learningなし（Codebook-CLIP）< Iterated Learningあり（IL-CLIP） Iterated Learningは負例を頑張ってつくる方法（NegCLIP）にも負けてない性能 • 私見：NegCLIPはhard negative miningのコストが高いのでIL-CLIPすごい © 品川政太朗

22.

負例を明示的に作らなくても同程度に高性能 21 Iterated Learningなし手法より、あり手法の方が良い性能 • Iterated Learningなし（Codebook-CLIP）< Iterated Learningあり（IL-CLIP） Iterated Learningは負例を頑張ってつくる方法（NegCLIP）にも負けてない性能 • 私見：NegCLIPはhard negative miningのコストが高いのでIL-CLIPすごい © 品川政太朗

23.

zero-shot 画像分類でも悪くない性能 22 ただ、若干Iterated Learningなし（Codebook-CLIP）に負ける場合も →Iterated Learningが悪影響な場合もある模様私見： • 構成性理解と画像分類性能にはトレードオフがある？ • 画像分類というタスクに過剰に適合している（short cut）が起きてる説？ © 品川政太朗

24.

Iterated Learningは世代を経るごとに性能向上がみられる 23 各世代時点で言語エンコーダを初期化して訓練した場合のバッチ内平均正解率 • Iterated Learningでは世代が新しくなるごとに性能限界が大きく上昇する • Codebook-CLIPはあまり上がらない→最初からIterated Learningするのが大事 Iterated Learningあり Iterated Learningなし © 品川政太朗

25.

世代を経るごとの性能向上はLipschitz constantの減少と対応している 24 Lipschitz constantが小さい = 滑らかな関数を持つ = 学習しやすい（蒸留しやすい） = Iterated LearningはLipschitz正規化（smoothingの一種）の効果がある Lipschitz constants 𝐿(𝑓)はDNN 𝑓(𝑥)の全体的な変動しやすさの上限 Lipschitz constants 𝐿 ≥ 0 が存在するとき、 𝑓: ℝ𝑛 → ℝ𝑚 は 𝒳 ⊆ ℝ𝑛 でLipschitz連続 𝑓 𝑥 − 𝑓(𝑦) ≤ 𝐿 𝑥 − 𝑦 for all 𝑥, 𝑦 ∈ 𝒳 各線形層の後ろにspectral normalizationをかけて得られた𝐿の積が全体のconstant （詳細は[Gouk+,2021] を参照） [Gouk+,2021] Henry Gouk, Eibe Frank, Bernhard Pfahringer, and Michael J Cree. Regularisation of neural networks by enforcing lipschitz continuity. Machine Learning, 110:393–416, 2021. https://link.springer.com/article/10.1007/s10994-020-05929-w © 品川政太朗

https://link.springer.com/article/10.1007/s10994-020-05929-w

26.

Ablation Study 25 構成性ベンチマーク画像分類１世代（step3-4）あたりの学習時間世代あたりで学習しすぎるのは良くない step2で入れ替える（初期化する）モデル画像エンコーダを置き換えるのは避けた方が良い step3でcodebookを固定するか codebookをstep3で固定しないと悪化する codebookありなし codebookなしだと性能が劇的に悪化する Iterated Learningを Lipschitz正規化で置き換えた場合 Lipschitz正規化はIterated Learningの代替には不十分 © 品川政太朗

27.

codebookの特定のトークンに反応する画像トークンの注意の可視化 26 codeごとに以下の概念に反応していることがわかった • #4: Horse • #7: Crowd codeが局所領域に当たっている点がポイント CLIPが苦手にしている局所領域の特徴抽出ができている！ © 品川政太朗

28.

29.

まとめ 28 CLIP型の視覚言語モデルに構成性を促すIterated Learningを提案 • 訓練中に言語エンコーダの重みを初期化して学習しなおす • 擬似的に文化的な伝達を次の世代のエージェントに継承していることに相当（と著者は主張） • 自己蒸留によるLipchitz正規化的なsmoothing効果があるのがポイント所感 • 肝はcodebook+自己蒸留 • 構成性理解と画像分類性能のトレードオフが少し気になる • 画像分類データセットの性能が高いモデルの方が過剰にfitting（short cut）している説？ • 構成性理解の性能を重視する方が個人的には重要と思っています • 学習をし過ぎるのがまずいという点は学習の制御がやりにくそう • 著者らも訓練時の不安定性に言及していた © 品川政太朗

30.

31.

VL-Checklist https://aclanthology.org/2022.emnlp-demos.4/ https://github.com/om-ai-lab/VL-CheckList 30 An Explainable Toolbox for Evaluating Pre-trained Vision-Language Models (ENMLP2022 demo) VLMの能力を評価するためのベンチマークを提案 • テキスト内の物体、属性、関係の置き換え • 画像中の物体の位置や大きさを変えて実験得られた知見： • 物体のサイズ小さい、中央に位置しない場合はVLMでの認識が難しくなる • 属性と関係の認識は物体の認識よりも難しい。特に関係の認識が難しい © 品川政太朗

32.

Winoground https://openaccess.thecvf.com/content/CVPR2022/html/Thrush_Winoground_Probing_Visio n_and_Language_Models_for_Visio-Linguistic_Compositionality_CVPR_2022_paper.html 31 Winoground: Probing Vision and Language Models for Visio-Linguistic Compositionality (CVPR2022) • VLMが構成性を捉えられるかを評価するベンチマーク • 1サンプルが2組の画像テキストペアで構成される • 正しい組み合わせを選べるかを評価 • Image-Score: テキストにマッチする画像選択の正解率 • Text-Score: 画像にマッチするテキスト選択の正解率 • Goup-Score: 上記2つがどちらも正解の割合を算出 • データセット作成は言語学、V＆Lの専門家による人手作業画像A • 当時の代表的なモデル（VinVL, UNITER, CLIP, FLAVAなど）を評価 • 全体的に低いスコア 0.30 0.31 画像B 0.42 • 特にImage-Scoreがチャンスレートを下回る・・・ 0.43 テキストA • スコア計算のアルゴリズムが悪い説テキストB • テキストAについて∩正解テキストBについて正解が必要 • テキストエンコーダが貧弱だと、特徴量がほぼ同じになる • 画像A、Bの選択はどちらかに偏るのでスコアが0になりがち（右図だと共に画像Bを選択）西田京介さんの最先端NLP勉強会の資料が参考になります。 https://speakerdeck.com/kyoun/winoground-probing-vision-and-language-modelsfor-visio-linguistic-compositionality © 品川政太朗

33.

Cola https://neurips.cc/virtual/2023/poster/73493 https://cs-people.bu.edu/array/research/cola/ 32 Cola: A Benchmark for Compositional Text-to-image Retrieval (NeurIPS2023) • CLIP型のVLMが構成性を捉えられるかを評価するベンチマーク • 物体と属性の結びつきの評価に特化 • Winogroundような関係性には着目してない • 複数物体にも注目している点が異なる • 評価はmAPのほか2画像2テキストのマッチング(WinogroundのGoup-Scoreと同じもの)を利用 © 品川政太朗

34.

VALSE https://aclanthology.org/2022.acl-long.567/ 33 https://github.com/heidelberg-nlp/valse VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena (ACL2023) 言語学的な観点から、以下の言語現象に着目したVLM評価ベンチマークを提案存在（existence）、複数性（plurality）、カウント（counting）、空間関係（spatial relations）、行動（actions）、共参照（coreference）画像キャプションとVQAデータセットから作成 foil（負例）を作成してVLMが正例を選べるかを評価 • 作成したデータの県境にはMLMやNLI、AMTによる人手評価を実施してデータの信頼性をチェック © 品川政太朗

35.

36.

ARO https://openreview.net/forum?id=KRLUvxh8uaX 35 When and Why Vision-Language Models Behave like Bags-Of-Words, and What to Do About It? (ICLR2023) 構成性に関するベンチマーク特に語順の理解に着目 VLMの対照学習において負例の作成が重要という点を指摘村岡雅康さんの資料が参考になります https://speakerdeck.com/muraoka7/snlp2023-when-and-why-vision-languagemodels-behave-like-bags-of-words-and-what-to-do-about-it © 品川政太朗

37.

AROで提案されたCLIPの学習手法：NegCLIP 36 hard negativeを学習に含めるとCLIPの性能が向上する画像は類似する画像を予め検索して抽出テキストは置き換えなどで負例を作成構成性ベンチマークで性能が大きく向上 © 品川政太朗

38.

CREPE https://cvpr.thecvf.com/virtual/2023/poster/21031 37 CREPE: Can Vision-Language Foundation Models Reason Compositionally? (CVPR2023) 下記の構成性に着目したベンチマーク • 系統性（Systematicity） • 見たことのある構成要素と見たことのない構成要素の組み合わせに対するモデルの性能を評価 • 生産性（Productivity） • テキストの複雑さが増すにつれてのモデルの評価 • VLMの構成性の性能は全体的に悪い。学習データセットやモデルサイズに依存しない傾向 Systematicity dataset Productivity dataset 画像は著者らのスライド資料から https://cvpr.thecvf.com/media/cvpr-2023/Slides/21031.pdf © 品川政太朗

39.

CREPE論文での実験：OpenCLIPをはじめとした各種CLIP派生モデルで評価 38 Unseen 系統性（Systematicity） • 全体的に性能が悪い • Unseenなデータセットに対してモデルの性能はさらに低下する傾向にある線が右に傾くほど unseen性能が悪い Seen HN-ATOM: テキスト内の単語１つを間違った単語で置き換える（on top of→under） HN-COMP: HN-ATOMの例を２つ作り連結する（a pink car→a blue car and a pink toy） ※単語はシーングラフのノードを指す HN-COMPのスコアが全体的に上がっているのは負例としての情報が増えている（文も伸びている）から、と著者らは考察している © 品川政太朗

40.

CREPE論文での実験：OpenCLIPをはじめとした各種CLIP派生モデルで評価 39 生産性（Productivity） • テキストの複雑さが増すにつれて、画像テキスト検索のR@1は低下し、高い複雑さではランダム選択の場合に近づく • データセットを変えても同じ傾向 • モデルを変えても同じ傾向 • 負例の作成方法（Atomic Foils: 間違いに変更, Negate: 否定形の追加, Swap: 似た表現に置き換え） © 品川政太朗

41.

CREPE論文の面白い知見：ImageNetのzero-shot性能との相関 40 系統性と生産性はImageNetのtop-1正解率と相関する傾向あり • 特に系統性はseen/unseenで相関係数0.99/0.95 • 生産性はまちまち • 複雑度が上がると相関しなくなる傾向 • ただしNegateを除く • Swapは最初からあまり相関しない © 品川政太朗

42.

Sugarcrepe https://openreview.net/forum?id=Jsc7WSCZd4 https://github.com/RAIVNLab/sugar-crepe 41 Sugarcrepe: Fixing hackable benchmarks for vision-language compositionality (NeurIPS2023) 既存の構成性ベンチマークのhard negativesは画像入力なしモデルでも見分けられるという問題を指摘 • 原因は正例と負例の分布間ギャップ • 負例が文として尤もらしくない(Nonsensical)、流暢でない(Non-fluent)なのが問題 • 既存手法はルールベースで正例の単語を置き換えたりして負例を作成しているため提案手法：ChatGPTを用いてsensicalでfluentな負例を作成した敵対的なrefinementによりバイアスを消去するアルゴリズムを提案している点もポイント © 品川政太朗

43.

構成性も根本的にはバイアスの問題 42 共起の偏りがあると回答が引っ張られる（画像を見ずに答えを出す）私見：離散で同じ表現が用いられやすいテキストの方が共起を捉えやすい説？ "物体は何色ですか?", "赤" "物体は何色ですか?", "青" "物体は何色ですか?" 学習 "赤" "物体は何色ですか?", "赤" 関連資料：中島悠太先生のSSII2024チュートリアル『深層学習に潜むバイアス』 https://speakerdeck.com/ssii/ssii2024-ts2-nakashima © 品川政太朗

https://speakerdeck.com/ssii/ssii2024-ts2-nakashima

44.

バイアスの対処：王道は偏りをなくすこと 43 データ作成時に回答の分布を揃える画像もバイアスを無くせるとベスト "物体は何色ですか?", "赤" "物体は何色ですか?", "青" "物体は何色ですか?", "赤" "物体は何色ですか?" 学習 "青" "物体は何色ですか?", "青" "物体は何色ですか?", "赤" "物体は何色ですか?", "青" © 品川政太朗

45.

王道ができない場合１：予測時にバイアスを打ち消す 44 検出した物体へのマスクありなしの予測分布の差をとる→ ↓（画像ありモデルの予測）から（画像なしモデルの予測）を引く Counterfactual VQA [Niu+,2021] Contrastive Region Guidance [Wan+,2024] [Niu+,2024] Yulei Niu, Kaihua Tang, Hanwang Zhang, Zhiwu Lu, Xian-Sheng Hua, Ji-Rong Wen. Counterfactual VQA: A CauseEffect Look at Language Bias. CVPR2021. [Wan+,2024] David Wan, Jaemin Cho, Elias Stengel-Eskin, Mohit Bansal. Contrastive Region Guidance: Improving Grounding in Vision-Language Models without Training. ECCV2024. © 品川政太朗

46.

王道ができない場合２：反実仮想（Counterfactual）なデータを生成して学習 45 反実仮想（Counterfactual）なデータをマスクで作って学習 [Chen+,2020] 回答に必要な情報を抽出してマスクする • 画像の物体領域にマスク • Qの単語にマスク左図の例だとネクタイの情報が隠されるので正解できなくなる →"NOT green"を真値にするネクタイ以外の情報と正解回答との相関が消える！ [Chen+,2020] Long Chen, Xin Yan, Jun Xiao, Hanwang Zhang, Shiliang Pu, Yueting Zhuang. Counterfactual Samples Synthesizing for Robust Visual Question Answering. CVPR2020. © 品川政太朗