【人工知能・深層学習】レビュー：モダリティギャップの研究紹介

1.

モダリティギャップの研究紹介 2025/02 立教大学人工知能科学研究科瀧雅人研究室D2 安木駿介 RIKKYO UNIVERSITY Graduate School of Artificial Intelligence and Science

2.

目次 - モダリティギャップ原論文の紹介 - 論文概要 - 前提知識 - Introduction - コーン効果はモダリティギャップを引き起こす - 対照学習はモダリティギャップを保持する - モダリティギャップの下流タスクへの影響 - 結論 - その後のモダリティギャップ研究の紹介 - モダリティギャップ研究の流れ - 論文その2：It's Not a Modality Gap - 論文その3：Two Effects, One Trigger 2

3.

モダリティギャップ原論文の紹介 3

4.

論文概要 Mind the Gap: Understanding the Modality Gap in Multi-modal Contrastive Representation Learning http://arxiv.org/abs/2203.02053 Submitted on 2022/10/19 NeurIPS 2022 Abstract - マルチモーダルモデルの表現空間における「モダリティギャップ」という幾何学的現象を提示 - CLIPなどのマルチモーダルモデルにおいて、異なるデータモダリティ（画像とテキストなど）が共有表現空間で一定の距離を保って埋め込まれることを示す - モダリティギャップの原因は、モデルの初期化と対照学習の最適化の組み合わせであることを体系的に分析 - モデル初期化時、深層ニューラルネットワークの表現が狭い円錐に制限されることを実証的・理論的に示す（→いわゆるコーン効果） - 対照学習の最適化過程で、損失関数の温度パラメータの影響を受けながら、異なるモダリティが一定の距離を保つことを明らかにする - モダリティギャップの距離を変化させることが、モデルのダウンストリームタスクのゼロショット分類性能と公平性の向上に大きな影響を与えることを実験的に示す 4

5.

前提知識 5

6.

7.

CLIPとContrastive Objective CLIPはN * N個の画像-テキストペアのどれが整列しているかを学習する • N組の正しいペアの画像-テキスト埋め込みのコサイン類似度を最大化 • N2 - N組の不正確なペアの画像-テキスト埋め込みのコサイン類似度を最小化図の引用元：https://arxiv.org/abs/2103.00020 # image_encoder - ResNet or Vision Transformer # text_encoder - CBOW or Text Transformer # I[n, h, w, c] - minibatch of aligned images # T[n, 1] - minibatch of aligned texts # W_i[d_i, d_e] - learned proj of image to embed # W_t[d_t, d_e] - learned proj of text to embed # t - learned temperature parameter # extract feature representations of each modality I_f = image_encoder(I) #[n, d_i] T_f = text_encoder(T) #[n, d_t] # joint multimodal embedding [n, d_e] I_e = l2_normalize(np.dot(I_f, W_i), axis=1) T_e = l2_normalize(np.dot(T_f, W_t), axis=1) # scaled pairwise cosine similarities [n, n] logits = np.dot(I_e, T_e.T) * np.exp(t) # symmetric loss function labels = np.arange(n) loss_i = cross_entropy_loss(logits, labels, axis=0) loss_t = cross_entropy_loss(logits, labels, axis=1) loss = (loss_i + loss_t)/2 7

8.

L2正規化されたCLIP埋め込みは常に単位球面上にある L2正規化は、ベクトルの長さ(ノルム)が常に1になるような正規化 • L2正規化されたベクトルは、2次元→単位円周上、3次元→単位球面上、より高次元（CLIPの埋め込みなど）→n次元単位球面上に位置 → 埋め込み間の類似度をコサイン類似度で簡単に計算できるなどの利点がある元のベクトル: [ 3.48656009 0.00456475 -2.88740818] 正規化後のベクトル: [ 0.77017915 0.00100835 -0.63782683] 正規化後のベクトルのL2ノルム: 1.0 Original Vector Original L2 Normalized Vector Normalized 1.00 0.75 0.50 0.25 0.00 -0.25 -0.50 -0.75 -1.00 1.00 0.75 0.50 0.25 0.00 -0.25 -0.50 -0.75 -1.00 -1.00-0.75-0.50-0.250.000.250.500.751.001.00 1.00 0.75 0.50 0.25 0.00 -0.25 -0.50 -0.75 -1.00 1.00 0.75 0.50 0.25 0.00 -0.25 -0.50 -0.75 -1.00 -1.00-0.75-0.50-0.250.000.250.500.751.001.00 8

9.

対照学習の温度パラメータ対照学習では、ソフトマックス関数に温度パラメータτを導入し、ソフトマックス関数の出力分布の「シャープさ」を制御する • τ = 1：通常のソフトマックス関数と同じ挙動 • τ > 1：出力確率分布がより平坦になり、確率がより均一に • 0 < τ < 1：分布はシャープになり、予測TOP1クラスの確率が大きくなる • 一般的なCLIPの学習温度はτ = 1/100 9

10.

コーン効果埋め込みが単位球面の狭い領域に制限される現象 • コーン効果は、言語モデル（BERTなど）からの言語表現で観察されている ○ 一般的な説明は、単語頻度の偏った分布が最適化を偏らせたというもの ○ アンバランスなデータ分布が引き起こすものと考えられている • 本研究では、上記ケースに限らずより一般的な初期化バイアスとして紹介される(例：右図。参考：Understanding and Fixing the Modality Gap in Vision-Language Models) Text embeddings Image embeddings Unit hypersphere 10

11.

Introduction 11

12.

モダリティギャップ現象 CLIPの画像とテキスト埋め込みは、埋め込み空間の全く別の2つの領域に位置している • この現象は、テキスト、自然画像、ビデオ、医用画像、アミノ酸配列など、様々なマルチモーダルモデルで一貫して見られる (b) Initialization: Pre-trained CLIP Natural Image - Text VideoCLIP Natural Video - Text ConVIRT Medical Image - Text CLASP Amino-acid Sequence - Text 8 6 4 2 0 0 10 20 14 12 10 8 6 4 2 0 10 20 12 10 8 6 4 2 12 10 8 6 4 0 10 20 -5 0 5 10 15 UMAP 1 UMAP 2 12

13.

モダリティギャップは学習前にもみられるランダムな重みを持つ場合にも、ギャップは依然として存在 • ギャップの原因は、データ分布の違いやエンコーダーのアーキテクチャの違いに起因すると考えるのが妥当 • しかし論文ではこれらの要因が根本的な原因ではないことを示している。 (c) Initialization: Random 10 8 6 4 0 5 10 15 20 UMAP 1 UMAP 2 10 8 6 4 2 10 20 9 8 7 6 5 4 0 5 10 15 12 10 8 6 4 2 0 -2 -10 0 10 13

14.

モダリティギャップ現象説明のための3つの観点 • DNNアーキテクチャの一般的な帰納的バイアスは、コーン効果を生み出す ○ 訓練済みモデルやランダムな重みを持つモデルでは、有効な埋め込み空間が狭いコーンに制限される • 異なるランダムな初期化は異なる埋め込みコーンを作る ○ 2つのエンコーダーは、ランダムな初期化で異なるコーンを作るため、初期化時にモダリティギャップが存在することが説明できる • マルチモーダルモデルで一般的な対照学習は、ギャップを維持する ○ 分析により、より深いアーキテクチャでより狭いコーンを作ることを示す 14

15.

ギャップの変化による下流タスクへの影響ギャップ拡大による下流タスク性能向上を確認 • CLIPのようなモデルにおいてモダリティギャップを大きくすると・・・ ○ →いくつかのゼロショット学習や公平性タスクにおいて、その下流の性能を向上させることができる。 15

16.

研究目的 3つの研究目的 • 異なるデータモダリティとNNアーキテクチャにわたってモダリティギャップ現象を実証的に示す • ギャップがどのように生じるかを説明 • ギャップの大きさが下流タスクに影響を与える可能性を示す注意 • モダリティギャップが無いことが望ましいかはまだ不明。 • ギャップを埋める方法の提案が目的ではない 16

17.

コーン効果はモダリティギャップを引き起こす 17

18.

コーン効果に関する新発見 • 各事前学習モデル内で埋め込み間のコサイン類似度を測定(1段目) ○ 正の類似度 → 埋め込みが狭い円錐 • ランダム重みモデルの場合(2段目) ○ さらに高い正の類似度 • ランダムノイズ入力の場合(3段目) ○ 同様の傾向 ⇔以前の研究：コーン効果はアンバランスなデータ分布によるもの → コーン効果は、これまで評価されてきたよりも、一般的なDNNの帰納的バイアス？ ResNet Vision Transformer Text Transformer Initialization: Pretrained Input: Real Data Initialization: Random Input: Real Data Initialization: Random Input: Random Noise 80000 60000 40000 20000 0 0.25 0.50 0.75 1.00 Avg=0.56 125000 100000 75000 50000 25000 0 0.96 0.98 1.00 Avg=0.99 80000 60000 40000 20000 0 0.9985 0.9990 0.9995 Avg=0.999 80000 60000 40000 20000 0 0.5 1.0 Avg=0.47 125000 100000 75000 50000 25000 0 0.0 0.5 1.0 Avg=0.72 80000 60000 40000 20000 0 0.900 0.925 0.950 Avg=0.94 80000 60000 40000 20000 0 0.0 0.5 1.0 Avg=0.51 100000 80000 60000 40000 20000 0 0.25 0.50 0.75 1.00 Avg=0.67 80000 60000 40000 20000 0 0.00 0.25 0.50 0.75 Avg=0.41 (a) The cosine similarity between all pairs of embeddings 18

19.

コーン効果に対する非線形活性化関数の影響非線形Activationはコーン効果を促進 • 埋め込み間の高いコサイン類似度は、コーンが狭いことを表す(右図) • 活性化関数別にMLPを比較するとコーンの狭さ(顕著なコーン効果)は非線形Activation > 線形Activation • 比較したモデルの活性化関数は非負値を強制するReLUに限定されないことに注意 • BNやLNを組み込んでいても観察される Average cos similarity 1.0 0.8 0.6 0.4 0.2 0.0 0 5 10 15 20 25 Number of layers (n) n*(Linear+Sigmoid) n*(Linear+LeakyReLU) n*(Linear+ReLU) n*(Linear+Tanh) n*(Linear) (b) Effects of nonlinear activation and depth 19

20.

異なるランダム初期化が異なるコーンを作り出す 2つのエンコーダが同一モダリティの同じデータを処理してもギャップが存在する • モデルをランダムに25回初期化し、同じ実データからの埋め込みを2次元可視化 →各ランダム初期化が明確に異なるコーンを形成 ResNet Vision Transformer Text Transformer (c) UMAP visualization of embeddings of 25 randomly initialized models on real data (color indicates random seed) • この現象は多様なNNアーキテクチャ、入力モダリティ、Imagenet事前学習モデル、ランダムなノイズ入力でも保持される → 同一モダリティでもギャップが存在する可能性。モダリティギャップは非自明。 20

21.

コーン効果現象の理論分析非線形活性化DNNは二つの定理により深層でコーン効果が顕著に • 定理1：埋め込み間のコサイン類似度は層が深くなるにつれて増加する ○ 定理は、1回のFeed Forward計算(下式左)が高確率(1 - O(1/dout))でコサイン類似度を高めることを示す。※u, vは層計算前の2つのベクトル。Oは関数の漸近的な上昇を表現。出力次元が大きいほど定理が成り立つ確率が1に近づく。 cos(φ(Wu + b), φ(Wv + b)) > cos(u, v) • 定理2：中間出力の分散のほとんどはモデルのランダムな初期化に由来する ○ 分散全体は、データのランダム性とランダム初期化による分散に分解できる ○ 後者の分散の比率は、前の層の出力の平均コサイン類似度βを下限とする。 ○ 定理1よりβは1に近づき、深い層ほど分散へのランダム初期化の影響も増大 Var[hΘ(U)] = E[Var[hΘ(U) | Θ]] + Var[E[hΘ(U) | Θ]] Due to the randomness of data Due to random initializations Var[E[hΘ(U) | Θ]] Var[hΘ(U)] ≥ β 21

22.

対照学習はモダリティギャップを保持する 22

23.

埋め込みシフト実験ギャップを閉じる方向に埋め込みをシフトすると損失が増加する • defaultのCLIP(τ = 1/100)におけるモダリティギャップは0.82 ※図bの点線 • これは実際に大域的最小値を達成している(図b) • 埋め込みを図aのように手動でシフトさせると図bのように対照損失は増加する Embedding Shift Experiment (a) Shifting embeddings (b) Temperature=1/100 Validation loss 0.3 0.2 0.1 0.0 -0.1 -0.2 -0.3 -0.4 -0.2 0.0 0.2 0.4 2 1 -2 0 2 Euclidean distance Image Text → 対照損失の最小化とモダリティギャップの最小化は反発構造にある？ 23

24.

温度別の埋め込みシフト実験反発構造と最適なギャップは温度に依存する • 温度が上昇すると(図c,d)、反発構造は徐々に消失し、ギャップを閉じることがより最適になる。※温度を高くする=許容度を高め、出力分布より平坦にする (a) Shifting embeddings (b) Temperature=1/100 (c) Temperature=1/50 (d) Temperature=1 Validation loss 2 1 -2 0 2 Euclidean distance Validation loss 3 2 1 -2 0 2 Euclidean distance Validation loss 3.90 3.85 3.80 3.75 -2 0 2 Euclidean distance • さらにFine-tuningでも、ギャップは温度の上昇とともに単調減少した T=1/100 T=1/50 T=1/10 T=1 Gap-Temperature Gap Temperature 24

25.

ミスマッチデータを用いたシミュレーションミスマッチデータの存在が低温度でのギャップの重要な形成要因 • ミスマッチデータ：不一致の画像-テキストペア。※実際にはよくある • ミスマッチデータを用いた場合、特に低温度時に反発構造がみられる(図c) • ミスマッチデータを除いた場合、反発構造は消失する(図d) Loss 2.0 1.5 1.0 -75 -50 -25 0 25 50 75 Δθ (degree °) (c) Loss landscape with misalignment Temperature τ=1/1 τ=1/5 τ=1/35 τ=1/50 τ=1/100 Loss 1.5 1.0 0.5 0.0 -75 -50 -25 0 25 50 75 Δθ (degree °) (d) Loss landscape without misalignment Temperature τ=1/1 τ=1/5 τ=1/35 τ=1/50 τ=1/100 25

26.

初期化と最適化の比較最終的なドメインギャップは初期化と最適化の両方に起因 • 異なる2つのCLIPモデルをゼロから訓練 ○ ①ランダム初期化モデル(学習前のGAP=1.1891±0.0017) ○ ②初期化時のギャップを解消したモデル(学習前のGAP=0.0388±0.0351) ■ テキスト埋め込みに直行行列を適用し、埋め込み間の距離を最小化 • 学習後のGAP ○ ①1.1891±0.0017から1.2991±0.0389に変化 ○ ②0.0388±0.0351から0.7457±0.0633に変化 → 初期化時にギャップをなくすと、対照損失は依然としてギャップを助長するが、ギャップを修正しないモデルに比べて、ギャップ距離は57%にしかならない 26

27.

モダリティギャップの下流タスクへの影響 27

28.

ゼロショット性能への影響ギャップの適切な変更は、複数の下流タスクの性能を向上させる • ギャップの変更=埋め込みシフト • 複数の下流タスク ○ Coarse-grained Classification ○ Fine-grained Classification ○ OCR Dataset Original gap Modified gap Direction Coarse-grained Classification CIFAR10 0.9013 0.9081 ↑ CIFAR100 0.6658 0.6737 ↓ Fine-grained Classification EuroSAT 0.5410 0.5645 ↓ Optical Character Recognition SVHN 0.5389 0.5396 ↑ HatefulMemes 0.5800 0.5811 ↑ Table 1: Modifying the modality gap can im- prove zero-shot performances for downstream tasks. Number indicates top-1 accuracy. Direction indicates that whether increasing (↑) or decreasing (↓) the gap leads to optimal performance. 28

29.

公平性への影響モダリティギャップを修正すると、あらゆる人種へのバイアスが減少 • 単純なギャップの相殺アプローチが、全人種にわたって一貫したバイアスの減少につながる Denigration Biases Original gap Crime Non related human Sum Modified gap Crime Non related human Sum Black 1.0% 0.1% 1.1% 0.8% 0.1% 1.0% White 15.5% 0.2% 15.7% 13.2% 0.4% 13.7% Indian 1.2% 0.0% 1.2% 1.1% 0.0% 1.1% Latino 2.8% 0.1% 2.8% 1.9% 0.1% 2.0% Middle Eastern 6.3% 0.0% 6.3% 5.2% 0.0% 5.2% Southeast Asian 0.5% 0.0% 0.5% 0.3% 0.0% 0.3% East Asian 0.7% 0.0% 0.7% 0.6% 0.0% 0.6% Table 2: Modifying the modality gap reduces biases for all races. Number indicates the fraction FairFace images whose top-1 prediction is offensive. Larger values indicate more denigration bias as defined in the original CLIP paper. Increasing the gap from 0.82 to 0.97 reduces denigration harms consistently for all races. 29

30.

結論要点 • ランダムな初期化でモダリティギャップが生まれる ○ 初期化時点でコーン効果が発生する • 非線形活性化DNNは二つの定理により深層でコーン効果が顕著に ○ 定理1：埋め込み間のコサイン類似度は層が深くなるにつれて増加する ○ 定理2：中間出力の分散のほとんどはモデルのランダムな初期化に由来する • 対照学習がギャップを助長する • 最終的なギャップは初期化と最適化の両方に起因する • 反発構造(損失最小化vsGAP最小化)と最適なギャップは温度に依存する • 低い温度設定下でミスマッチデータがあると、ギャップを助長する • ギャップの変更は下流タスク性能に影響する 30

31.

その後のモダリティギャップ研究の紹介 31

32.

モダリティギャップ研究の流れ 1 ① Mind the Gap: Understanding the Modality Gap in Multi-modal Contrastive Representation Learning (NeurIPS 2022) • ギャップの原因: 「ランダム初期化によるコーン効果」と「データセット中の不一致のペア」、「対照学習によるギャップの維持」 • 幾何学的現象としてのギャップのモデル化: 初期化時の「コーン効果」という構造的バイアスを初めて数学的にモデル化 • 温度パラメータの動的影響: 「温度が最適化過程でギャップの幅を決定する」というメカニズムを解明 • 公平性への応用: ギャップの調整がモデルのバイアス低減に寄与することを実証 ② UNDERSTANDING THE MODALITY GAP IN CLIP (ICLR 2023 workshop) • ギャップの原因: ギャップはCLIPのコントラスティブ損失の最適化過程で発生する局所最適解に起因すると指摘。画像とテキストの埋め込みが互いに引き離される方向で損失関数が収束しやすく、この分離がモダリティギャップとして定着すると説明 • 主張: 局所最適解の回避が実践的に困難であると示し、ギャップが単なる初期化の問題ではなく、学習に深く関連すると結論 ③ It's Not a Modality Gap: Characterizing and Addressing the Contrastive Gap (2024/06) • 主張・発見: ①におけるギャップの原因を除外しても、高次元CLIPではギャップが残ることを示した。低次元、すなわち3次元CLIPでは、ギャップは解消された。 • ギャップの原因: モダリティギャップはコントラスティブ損失自体が生成する「コントラスティブギャップ」であり、高次元のCLIP空間の副産物であると指摘 • 解決策: 均一性 (uniformity) とアラインメントを追加した損失関数を提案し、ギャップ削減と下流タスク性能向上を実現 ④ Mitigate the Gap: Investigating Approaches for Improving Cross-Modal Alignment in CLIP (2024/06) • アプローチ: 画像エンコーダとテキストエンコーダのパラメータ共有と、モダリティ分離 (Intra-Modality Separation) を導入し、 CLIPのモダリティギャップの軽減に成功 (手法名はAlignCLIP) • ①が初期化と損失関数に焦点を当てたのに対し、モデルアーキテクチャの変更で問題に直接介入 32

33.

モダリティギャップ研究の流れ 2 ⑤ Two Effects, One Trigger: On the Modality Gap, Object Bias, and Information Imbalance in Contrastive Vision-Language Models (2024/10) • ①と異なり、モダリティギャップに加えて、オブジェクトバイアスも研究対象としている • ギャップの原因: モダリティギャップとロジットエントロピーとの関連性を分析し、モダリティ別の情報の不均衡がギャップの主要因であり、オブジェクトバイアスの原因でもあることを発見。コーン効果は主要因ではないと主張。ギャップの要因をコントラスティブ損失とする主張を部分的に支持しつつも、情報の不均衡の方が大きく影響することを示したさらに、単純化された設定では、コントラスティブ損失がギャップを縮めることを示した。また埋め込み空間の分析より、少数の次元がギャップの要因であると示した • ギャップと下流タスク性能間に複雑な関係があり、関連因子を制御すると、ギャップが小さいほど性能が向上する傾向を示した ⑥ Explaining and Mitigating the Modality Gap in Contrastive Multimodal Learning (2024/12) • モダリティギャップの発生メカニズムを、特にgradient flowの観点から理論的に分析ギャップ軽減のための温度パラメータスケジューリングやモダリティスワッピングを提案し、有効性を検証 • ギャップの原因: ギャップは主にデータペアの不一致や学習可能な温度パラメータによって引き起こされると説明 ⑦ Cross the Gap: Exposing the Intra-modal Misalignment in CLIP via Modality Inversion (ICLR2025 2025/02) • 発見: CLIPのモダリティギャップがモダリティ内タスク (例: 画像検索) の性能低下を招くことを実証ギャップ縮小により、モダリティ内の整合性が向上 • 手法: 画像埋め込みをテキスト空間に逆転 (Modality Inversion) させることで、クロスモーダル検索やゼロショット分類などのタスクで性能を向上させることを示した 33

34.

論文その2：It's Not a Modality Gap 以降では後続研究を2つほど粗く紹介 34

35.

論文概要 It's Not a Modality Gap: Characterizing and Addressing the Contrastive Gap https://arxiv.org/abs/2405.18570 Submitted on 2024/05/28 主張・発見：原論文(Mind the Gap)におけるギャップの原因、すなわち • 異なるランダムな初期化によるコーン効果 • データセットにおける不一致のペアの存在 • 異なるモダリティを除外しても、高次元(512次元)CLIPではギャップが残ることを示した。低次元(3次元)CLIPでは、ギャップは解消された。ギャップの原因: モダリティギャップはコントラスティブ損失自体が生成する「コントラスティブギャップ」であり、高次元のCLIP空間の副産物であると指摘解決策: 均一性 (uniformity) とアラインメントを追加した損失関数を提案し、ギャップ削減と下流タスク性能向上を実現 35

36.

前提知識 36

37.

CLIPの損失関数 CLIPは対照学習にInfoNCE損失関数(のバリエーション)を使用する LinfoNCE = - log exp(sim(q,k+)/τ) exp(sim(q,k+)/τ)+∑K i=0 exp(sim(q,ki)/τ) • qはアンカー、k+は正例、kiは負例を表す • アンカーと正例の類似度を最大化し、アンカーと負例の類似度を最小化する • CLIPの場合、同一モダリティのペア（画像&画像や、テキスト&テキスト）は考慮されない cat cake アンカー正例負例負例類似異なる異なる → CLIPでは、類似の画像とテキストは類似の特徴ベクトルに、類似でない画像とテキストは類似でない特徴ベクトルになるように、エンコーダを学習する 37

38.

InfoNCE損失関数の解釈 LinfoNCE = - log exp(sim(q,k+)/τ) exp(sim(q,k+)/τ)+∑K i=0 exp(sim(q,ki)/τ) • sim(.,.): 類似度関数 (多くの場合、コサイン類似度が使用される) • τ: 温度パラメータ • sim(.,.): コサイン類似度の場合、値域は[-1, 1] • exp(.): 常に正の値をとり、値域は(0, ∞) • τ: 正の実数（一般的に0.1から1の範囲で設定） • 全体の損失: 理論上は(0, ∞)だが、実際には有限の正の値をとる • 分子: アンカーと正例の類似度を表す • 分母: アンカーと正例の類似度 + アンカーと全ての負例の類似度の和 • 対数内の値: 0から1の範囲をとり、1に近いほど損失が小さくなる 38

39.

ユニモーダルなContrastive表現空間の望ましい特性ユニモーダルなContrastive表現空間は、アライメントされ、均一性があることが望ましい • 均一性：埋め込みがContrastive潜在空間全体に一様に分布していること • アライメント：ポジティブペアが潜在空間内で近接(整列)していること • 先行研究：Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hypersphere ○ ユニモーダル設定下で、均一性とアライメントの値が高い画像モデルがより良い表現を学習し、下流タスク性能を一貫して向上させることを示した 39

40.

マルチモーダル対照学習におけるギャップ 40

41.

先行研究が主張するギャップの要因概要 • ①原論文 (「Mind the Gap」 NeurIPS 2022) ○ 異なるランダムな初期化によるコーン効果 ○ データセットにおける不一致のペアの存在 • ②UNDERSTANDING THE MODALITY GAP IN CLIP (ICLR 2023 workshop) ○ Contrastive lossにおける相反する一様性と整列項が、ギャップを助長する局所極小の存在につながると主張 • ③Geodesic Multi-Modal Mixup for Robust Fine-Tuning (NeurIPS 2023)と① ○ Fine-tuning後もモダリティギャップは維持されると主張 41

42.

全ての要因を考慮した実験ユニモーダル・初期化時コーン効果解消・不一致ペア無し • 単一モダリティでの実験 ○ CLIPのテキストエンコーダを画像エンコーダの別のコピーに変更 ○ 2つのエンコーダは、ランダムな初期化が異なる同一の画像エンコーダに • 初期化時の各エンコーダの埋め込みを、同じコーン内に納める ○ エンコーダ2の埋め込みがエンコーダ1と重なるように行列計算で変換 ○ これにより初期化時のモダリティギャップはなくなる • 不一致なペアが存在しないデータセットを構築して利用 42

43.

全ての要因を考慮してもモダリティギャップは残る 2つのエンコーダーが同じモダリティを整列させる学習でも、対照損失の副産物としてContrastive Gapが生じる • データセットが理想化され、最適化が低コストで、モデルがギャップなしに初期化された場合でも、損失ゼロまで訓練した後にCLIP埋め込みは完全に線形分離可能 At initialization After 1200 epochs Centroid distance 0.00 0.06 Linear separability acc. 0.50 1.00 Contrastive loss 4.83 0.00 表1: モダリティギャップは、すべての要因が考慮された場合でも持続する: 理想的なデータセット条件でCLIPをゼロからトレーニングする前後のモダリティギャップメトリクスとCLIP損失値。初期化時: 画像とテキストのセントロイド間の距離はゼロであり、埋め込みは線形分離可能ではない。学習後: セントロイド間の距離はわずかに増加するが、テキストと画像の埋め込みは完全に線形分離可能である。したがって、モダリティ・ギャップは対比的損失によって生じる。 43

44.

低次元(3次元)CLIPでのギャップの可視化次元数を減らせば実世界データでもContrastive Gapを無くせる • デフォルトのCLIPと損失でMS COCO内の画像-テキスト1000セットを最適化 • 訓練が進むほど埋め込みは均一に分布し、テキスト検索精度も向上 (a) Epoch 0 I → T accuracy: 0.0 (b) Epoch 37 I → T accuracy: 0.0 (c) Epoch 150 I → T accuracy: 0.1 (d) Epoch 275 I → T accuracy: 0.87 ⇔ただし、単純にCLIPの次元数を減らしてギャップを縮めることは、表現が低次元で保持する情報が少ないため、望ましくない可能性がある 44

45.

CLIP表現の整列と均一性の最適化 Optimizing Alignment and Uniformity of CLIP Representations 45

46.

マルチモーダル空間に均一性とアライメントを促す Contrastive Gapを縮める効果を調べるために、先行研究を踏まえ、均一性とアライメント特性をマルチモーダルコントラスティブ空間に適用均一性(Uniformity) • モダリティ内の均一性のための損失 : Luniform ○ 画像埋め込み内の均一性 : Luniform I ○ テキスト埋め込み内の均一性 : Luniform T • クロスモーダルな均一性のための損失 : LXUniform アライメント(Alignment) • アライメントのための損失 : LAlign 46

47.

モダリティ内の均一性損失関数の理解 Luniform = log ( 1 N ∑Nj=1 ∑Nk=1 exp(-t||ETj - ETk||2)) ※画像ではTをIに Luniform = 1 2 (Luniform + Luniform) • Ej、Ekは同一モダリティ内の異なるサンプルの埋め込み(単位超球面上) • ||Ej - Ek||2は埋め込みベクトル間のユークリッド距離(0~2)の2乗 • tは距離重要度を制御(2や3)。大きいと大きな距離に対して強いペナルティ • exp(-t||ETj - ETk||2) : 2ベクトルが完全一致で1、遠いと0に近づく • log(...) : 0~1を-∞~0の負値に変換 → 損失の最小化で、エンコーダは異なるデータポイントを埋め込み空間内で均等に分散させるように学習。大きな負値(-2や-3)への収束が期待される 47

48.

クロスモーダル均一性とアライメントのための損失損失関数の理解クロスモーダル均一性 LXUniform = log ( 1 N ∑Nj=1 ∑Nk=1,k≠j exp(-t||EIj - ETk||2)) • CLIPのInfoNCEは、負例をアンカーから遠ざけるのみ • モーダルを跨いだ均一性のためにLXUniformを追加アライメントのための損失 LAlign = 1 N ∑Nj=1 (|EIj - ETj||2) • ユークリッド距離を最小化しアンカーと正例をよりよく整列させる項 48

49.

実験 49

50.

異なる損失関数設定でのFine-tuning比較実験 3つの損失設定でFine-tuningし、4つの実験で効果を研究 • LCLIP =デフォルトのCLIP損失 (=アンカーと不例を遠ざける) • LCUA = LCLIP + Uniform + Align (+ =in-modal均一性 + 正例の整列) • LCUAXU = LCLIP + Uniform + Align + XUniform (+ =cross-modal均一性) 4つの実験 • MS COCO検証データセット上で、ギャップの大きさを測定・比較 • 上記データで、画像-テキスト検索精度を測定し、ギャップ縮小効果を分析 • 5つの標準的なデータセットでゼロショット画像の分類性能を評価 ○ 分布外のデータセットでも同じ結果が成り立つかどうかを実験 • マルチモーダル演算で、損失関数別の表現空間の細かな違いを探る 50

51.

結果1：線形分離可能性とギャップの距離 LCUAで最もGAPが解消された参考用の再掲 • LCLIP =アンカーと不例を遠ざける • LCUA = LCLIP + in-modal均一性 + 正例の整列 • LCUAXU = LCUA + cross-modal均一性 Linear Sep. Accuracy (↓) Centroid Distance (↓) LCLIP 1.00 0.66 LCUA 0.73 0.08 LCUAXU 0.83 0.14 Table 2: Gap metrics on MS COCO validation dataset. Recall: the gap closes when linear sepa- rability ~ 0.5 and centroid distance is small. The size of the gap is much smaller with uniformity and alignment terms included. 51

52.

結果2：学習後の均一性とアライメントの損失値 LCUAXU導入による均一性の改善も確認された参考用の再掲 • LCLIP =アンカーと不例を遠ざける • LCUA = LCLIP + in-modal均一性 + 正例の整列 • LCUAXU = LCUA + cross-modal均一性 LUniform LXUniform LAlign LCLIP -2.02 -2.79 0.82 LCUA -3.64 -3.68 0.54 LCUAXU -3.76 -3.81 0.69 Table 3: Final loss values for in-modality unifor- mity, cross-modality uniformity, and alignment on the MS COCO validation set. 52

53.

結果3：128の各次元の損失への寄与から均一性を評価理想的に均一であれば、各次元が均一に結果に寄与すると期待 →LCUAXUで、最も均一性の改善が確認された Cumulative PCA Explained Variance 1.0 0.8 0.6 0.4 0.2 0.0 0 20 40 60 80 100 120 Dimensions LCLIP LCLIP + Uniform + Align LCLIP + Uniform + Align + XUniform Figure 2: Explained variances for all principle components of the 128D latent space for several losses. 53

54.

結果4：損失別Fine-Tuning後のゼロショット性能異なる損失でCLIPをFine-Tuningした結果、均一性やアライメント項を持つ設定で常に高い性能を示した Average Zero-Shot Accuracy 0.370 0.365 0.360 0.355 0.350 0.345 0.340 0.335 0.330 40 60 80 100 120 CLIP Dimensionality LCLIP LCLIP + Uniform + Align LCLIP + Uniform + Align + XUniform Figure 3: Average zero-shot classification accu- racies for fine-tuned CLIP on the different losses. CLIP losses with uniformity and alignment terms added consistently get better zero-shot accuracies than default fine-tuned CLIP on the same dimen- sionality. 54

55.

結果5：テキストによる画像検索の性能均一性やアライメント項を追加したFine-Tuning設定で性能向上 →これらの項によりギャップを縮めることが、下流タスクに有益である可能性を示唆 SIMAT Score (↑) LCLIP 36.02 LCLIP+Uniform+Align 42.18 LCLIP+Uniform+XUniform+Align 42.47 Table 6: SIMAT evaluation scores (λ = 1) for the different finetuning losses. Loss functions that reduce the contrastive gap produce higher SIMAT scores (18% improvement over LCLIP ). 55

56.

論文その3：Two Effects, One Trigger 56

57.

モダリティギャップ研究の流れ 1 ① Mind the Gap: Understanding the Modality Gap in Multi-modal Contrastive Representation Learning (NeurIPS 2022) • ギャップの原因: 「ランダム初期化によるコーン効果」と「データセット中の不一致のペア」、「対照学習によるギャップの維持」 • 幾何学的現象としてのギャップのモデル化: 初期化時の「コーン効果」という構造的バイアスを初めて数学的にモデル化 • 温度パラメータの動的影響: 「温度が最適化過程でギャップの幅を決定する」というメカニズムを解明 • 公平性への応用: ギャップの調整がモデルのバイアス低減に寄与することを実証 ② UNDERSTANDING THE MODALITY GAP IN CLIP (ICLR 2023 workshop) • ギャップの原因: ギャップはCLIPのコントラスティブ損失の最適化過程で発生する局所最適解に起因すると指摘。画像とテキストの埋め込みが互いに引き離される方向で損失関数が収束しやすく、この分離がモダリティギャップとして定着すると説明 • 主張: 局所最適解の回避が実践的に困難であると示し、ギャップが単なる初期化の問題ではなく、学習に深く関連すると結論 ③ It's Not a Modality Gap: Characterizing and Addressing the Contrastive Gap (2024/06) • 主張・発見: ①におけるギャップの原因を除外しても、高次元CLIPではギャップが残ることを示した。低次元、すなわち3次元CLIPでは、ギャップは解消された。 • ギャップの原因: モダリティギャップはコントラスティブ損失自体が生成する「コントラスティブギャップ」であり、高次元のCLIP空間の副産物であると指摘 • 解決策: 均一性 (uniformity) とアラインメントを追加した損失関数を提案し、ギャップ削減と下流タスク性能向上を実現 ④ Mitigate the Gap: Investigating Approaches for Improving Cross-Modal Alignment in CLIP (2024/06) • アプローチ: 画像エンコーダとテキストエンコーダのパラメータ共有と、モダリティ分離 (Intra-Modality Separation) を導入し、 CLIPのモダリティギャップの軽減に成功 (手法名はAlignCLIP) • ①が初期化と損失関数に焦点を当てたのに対し、モデルアーキテクチャの変更で問題に直接介入 57

58.

モダリティギャップ研究の流れ 2 ⑤ Two Effects, One Trigger: On the Modality Gap, Object Bias, and Information Imbalance in Contrastive Vision-Language Models (2024/10) • ①と異なり、モダリティギャップに加えて、オブジェクトバイアスも研究対象としている • ギャップの原因: モダリティギャップとロジットエントロピーとの関連性を分析し、モダリティ別の情報の不均衡がギャップの主要因であり、オブジェクトバイアスの原因でもあることを発見。コーン効果は主要因ではないと主張。ギャップの要因をコントラスティブ損失とする主張を部分的に支持しつつも、情報の不均衡の方が大きく影響することを示したさらに、単純化された設定では、コントラスティブ損失がギャップを縮めることを示した。また埋め込み空間の分析より、少数の次元がギャップの要因であると示した • ギャップと下流タスク性能間に複雑な関係があり、関連因子を制御すると、ギャップが小さいほど性能が向上する傾向を示した ⑥ Explaining and Mitigating the Modality Gap in Contrastive Multimodal Learning (2024/12) • モダリティギャップの発生メカニズムを、特にgradient flowの観点から理論的に分析ギャップ軽減のための温度パラメータスケジューリングやモダリティスワッピングを提案し、有効性を検証 • ギャップの原因: ギャップは主にデータペアの不一致や学習可能な温度パラメータによって引き起こされると説明 ⑦ Cross the Gap: Exposing the Intra-modal Misalignment in CLIP via Modality Inversion (ICLR2025 2025/02) • 発見: CLIPのモダリティギャップがモダリティ内タスク (例: 画像検索) の性能低下を招くことを実証ギャップ縮小により、モダリティ内の整合性が向上 • 手法: 画像埋め込みをテキスト空間に逆転 (Modality Inversion) させることで、クロスモーダル検索やゼロショット分類などのタスクで性能を向上させることを示した 58

59.

論文概要 Two Effects, One Trigger: On the Modality Gap, Object Bias, and Information Imbalance in Contrastive Vision-Language Models https://arxiv.org/abs/2404.07983 Submitted on 2024/10/10 特徴：モダリティギャップに加えて、オブジェクトバイアスも研究対象ギャップの原因: • モダリティギャップとロジットエントロピーとの関連性を分析し、モダリティ別の情報の不均衡がギャップの主要因であり、オブジェクトバイアスの原因でもあることを発見。コーン効果は主要因ではないと主張。 • ギャップの要因をコントラスティブ損失とする主張を部分的に支持しつつも、情報の不均衡の方が大きく影響することを示し、コントラスティブ損失がギャップを縮めるケースを示した。 • また埋め込み空間の分析より、少数の次元がギャップの要因であると示した • ギャップと下流タスク性能間に複雑な関係があり、関連因子を制御すると、ギャップが小さいほど性能が向上する傾向を示した 59

60.

問題意識先行研究から浮上する疑問ギャップの原因は様々に議論されているが、、 • モダリティギャップがパフォーマンスに与える影響は、今のところ不明なまま • ギャップをその場限りで解消することと、それがパフォーマンスに与える影響との相互作用も、依然として解明されていない独自の探求視点 • すべての次元が等しく貢献しているのか？ • 整列関係が似ているという意味で、各モダリティは似た構造になっているのか？ • 両モダリティの表現は同じような意味を持っているのか？ • モダリティ・ギャップはバグなのか特徴なのか？ 60

61.

オブジェクトバイアス最近の研究では、「Contrastive VLMはオブジェクト・タスクに比べ、属性タスクのパフォーマンスが著しく悪く、オブジェクトに偏っている」とされているが、この偏りを評価する直接的な指標がないため導入する →MOAD : Matching Object Attribute Distance MOADによる評価で以下の疑問に答える。オブジェクトバイアスは、 • 非オブジェクト（属性）タスクの性能にも影響するのか？ • オブジェクト以外の（属性の）タスクの性能にも影響するのか？ 61

62.

発見：何がギャップとバイアスを引き起こすのか？情報の不均衡がこれらを引き起こす情報の不均衡=あるモダリティが、他モダリティよりも多く情報を利用できること画像とキャプションの場合 • キャプション：しばしば疎であり、最も顕著な対象物に焦点を当てる • 画像：キャプションでは捉えられない情報をはるかに多く持っている →画像エンコーダにできる最善=画像の顕著な部分(キャプションに存在する部分) への注目 ⇒画像エンコーダは顕著な部分(=多くの場合オブジェクト名)にバイアス付加。加えてモダリティギャップは、情報の不均衡下での対照学習の副産物として表面化 62

63.

情報の不均衡 captioned by human a photo of a red cat oracle image encoder oracle text encoder a photo of a red cat sitting on a tree with yellow leaves perfect alignment impossible a photo of a red cat Figure 1: Illustration of information imbalance between images (top left) and captions (bottom left). This imbalance makes it even for an oracle image encoder virtually impossible to predict the content of a caption, leading to undesirable ef- fects in contrastive training, such as the modality gap and object bias (see Section 6). 63

64.

理想化された実験設定で、情報の均衡・不均衡を比較共通設定=ユニモーダル・初期化時コーン効果解消・不一致ペア無し(☑は追加) - 単一モダリティでの実験 - CLIPのテキストエンコーダを画像エンコーダの別のコピーに変更 - 2つのエンコーダは、ランダムな初期化が異なる同一の画像エンコーダに - 初期化時の各エンコーダの埋め込みを、同じコーン内に納める - エンコーダ2の埋め込みがエンコーダ1と重なるように行列計算で変換 - これにより初期化時のモダリティギャップはなくなる - ☑これではL2の観点でギャップを縮めるが、RMGの点では不十分なため、同じ重みにより初期化 - RMG(Relative Modality Gap):平均距離ではなく、マッチする画像-テキストペア間の距離 - コーンの大きさや回転まで含めた距離を評価可能 - 設定1(均衡) : 不一致なペアが存在しないデータセットを構築して利用 - ☑設定2(不均衡) : 同上。ただし2つ目の画像の半分をランダムにリサイズやトリミング。残りの半分はそのまにした。 64

65.

情報の均衡・不均衡の実験設定の比較結果ギャップへの影響は、情報の不均衡>コントラスティブ損失均衡した設定 • 学習後にはわずかなギャップが存在 → コントラスティブ損失の影響？不均衡な設定 • RMGで測定されたモダリティギャップを大幅に大きくする • L2M(原論文のギャップ指標)でも同様の結果 →情報の不均衡がモダリティ・ギャップの主な原動力であることを示唆 Table 8: Effect of information imbalance in the “idealized” experimental setting of Fahim et al. (2024). It is apparent that information imbalance has a large impact on the modality gap. information imbalance training time L2M RMG I2I after initialization 0.0 0.007 1.0 ✗ after 1200 epochs 0.058 0.006 1.0 ✓ 0.265 (+0.207) 0.149 (+0.143) 1.0 (±0.0) 65

66.

コントラスティブ損失はギャップを縮めることが可能単純な設定下では、コントラスティブ損失はギャップを縮める単純化された設定 • エンコーダネットワークをすべて除去 • L2正規化された画像埋め込みと、マッチするテキスト埋め込みを8次元でランダムに1000個用意。 • CLIP損失を用いて埋め込みを直接最適化 →コントラスティブ損失はギャップを縮めることが可能 Table 9: The contrastive loss almost closes the gap. We directly optimize the embeddings. Step Loss RMG 0 7.3789 0.4987 1000 0.0060 0.0061 2000 0.0014 0.0060 66

67.

今回紹介できなかったものを含む多くの発見 • 多くのContrastiveVLMでは、ギャップが大きいほど、一般的な交絡因子の影響により性能向上。しかし交絡因子を制御すると、ギャップが小さいほど性能向上 • モダリティギャップを引き起こす埋め込み次元はわずかである • 画像埋め込みとテキスト埋め込みは、近傍順序が異なるなど、異なる特徴を持つ • オブジェクトバイアスは、オブジェクトタスクの性能と負の相関はなく、バイアスが小さいVLMが必ずしも属性タスクで良い結果を出すとも限らない • モダリティ間の情報の不均衡が、モダリティギャップとオブジェクトバイアスの両方を引き起こす • モダリティギャップは、情報の不均衡によって生じる不確実性（エントロピー）に対処しようとするモデルの努力の副産物である=モダリティギャップはバグではなく特徴である • オブジェクトバイアスは、サンプルごとのキャプションの存在バイアスが高くなることによって生じるが、これも情報の不均衡の結果である。 • ギャップの要因をコントラスティブ損失とする主張を部分的に支持しつつも、情報の不均衡の方が大きく影響することを示し、コントラスティブ損失がギャップを縮めるケースを示した。 67

68.

おわりに 68

69.

モダリティギャップ研究の流れ 1 ① Mind the Gap: Understanding the Modality Gap in Multi-modal Contrastive Representation Learning (NeurIPS 2022) • ギャップの原因: 「ランダム初期化によるコーン効果」と「データセット中の不一致のペア」、「対照学習によるギャップの維持」 • 幾何学的現象としてのギャップのモデル化: 初期化時の「コーン効果」という構造的バイアスを初めて数学的にモデル化 • 温度パラメータの動的影響: 「温度が最適化過程でギャップの幅を決定する」というメカニズムを解明 • 公平性への応用: ギャップの調整がモデルのバイアス低減に寄与することを実証 ② UNDERSTANDING THE MODALITY GAP IN CLIP (ICLR 2023 workshop) • ギャップの原因: ギャップはCLIPのコントラスティブ損失の最適化過程で発生する局所最適解に起因すると指摘。画像とテキストの埋め込みが互いに引き離される方向で損失関数が収束しやすく、この分離がモダリティギャップとして定着すると説明 • 主張: 局所最適解の回避が実践的に困難であると示し、ギャップが単なる初期化の問題ではなく、学習に深く関連すると結論 ③ It's Not a Modality Gap: Characterizing and Addressing the Contrastive Gap (2024/06) • 主張・発見: ①におけるギャップの原因を除外しても、高次元CLIPではギャップが残ることを示した。低次元、すなわち3次元CLIPでは、ギャップは解消された。 • ギャップの原因: モダリティギャップはコントラスティブ損失自体が生成する「コントラスティブギャップ」であり、高次元のCLIP空間の副産物であると指摘 • 解決策: 均一性 (uniformity) とアラインメントを追加した損失関数を提案し、ギャップ削減と下流タスク性能向上を実現 ④ Mitigate the Gap: Investigating Approaches for Improving Cross-Modal Alignment in CLIP (2024/06) • アプローチ: 画像エンコーダとテキストエンコーダのパラメータ共有と、モダリティ分離 (Intra-Modality Separation) を導入し、 CLIPのモダリティギャップの軽減に成功 (手法名はAlignCLIP) • ①が初期化と損失関数に焦点を当てたのに対し、モデルアーキテクチャの変更で問題に直接介入 69

70.

モダリティギャップ研究の流れ 2 ⑤ Two Effects, One Trigger: On the Modality Gap, Object Bias, and Information Imbalance in Contrastive Vision-Language Models (2024/10) • ①と異なり、モダリティギャップに加えて、オブジェクトバイアスも研究対象としている • ギャップの原因: モダリティギャップとロジットエントロピーとの関連性を分析し、モダリティ別の情報の不均衡がギャップの主要因であり、オブジェクトバイアスの原因でもあることを発見。コーン効果は主要因ではないと主張。ギャップの要因をコントラスティブ損失とする主張を部分的に支持しつつも、情報の不均衡の方が大きく影響することを示したさらに、単純化された設定では、コントラスティブ損失がギャップを縮めることを示した。また埋め込み空間の分析より、少数の次元がギャップの要因であると示した • ギャップと下流タスク性能間に複雑な関係があり、関連因子を制御すると、ギャップが小さいほど性能が向上する傾向を示した ⑥ Explaining and Mitigating the Modality Gap in Contrastive Multimodal Learning (2024/12) • モダリティギャップの発生メカニズムを、特にgradient flowの観点から理論的に分析ギャップ軽減のための温度パラメータスケジューリングやモダリティスワッピングを提案し、有効性を検証 • ギャップの原因: ギャップは主にデータペアの不一致や学習可能な温度パラメータによって引き起こされると説明 ⑦ Cross the Gap: Exposing the Intra-modal Misalignment in CLIP via Modality Inversion (ICLR2025 2025/02) • 発見: CLIPのモダリティギャップがモダリティ内タスク (例: 画像検索) の性能低下を招くことを実証ギャップ縮小により、モダリティ内の整合性が向上 • 手法: 画像埋め込みをテキスト空間に逆転 (Modality Inversion) させることで、クロスモーダル検索やゼロショット分類などのタスクで性能を向上させることを示した 70

71.

END ご清聴ありがとうございました 71

【人工知能・深層学習】レビュー：モダリティギャップの研究紹介

Taki lab.

関連スライド

【人工知能・深層学習】論文紹介：Vision-Language Models Create Cross-Modal Task Representations

【人工知能・深層学習】論文紹介：Nested Learning: The Illusion of Deep Learning Architectures

【人工知能・深層学習】論文紹介：DecomCAM: Advancing Beyond Saliency Maps through Decomposition and Integration

【人工知能・深層学習】論文紹介：Towards Modular LLMs by Building and Reusing a Library of LoRAs

【人工知能・深層学習】論文紹介：You Only Need Less Attention at Each Stage in Vision Transformers

【人工知能・深層学習】論文紹介：カーネルサイズ100を超えるCNN - PeLK

各ページのテキスト