---
title: 【人工知能・深層学習】論文紹介：VISUAL SYMBOLIC MECHANISMS: EMERGENT SYMBOL PROCESSING IN VISION LANGUAGE MODELS
tags:  #deeplearning #論文紹介 #深層学習 #人工知能 #vision transformer #vlm #vision language models #binding  
author: [Taki lab.](https://docswell.com/user/8328889256)
site: [Docswell](https://www.docswell.com/)
thumbnail: https://bcdn.docswell.com/page/LJ3WVVWZJ5.jpg?width=480
description: M2の吉成さんが、論文「VISUAL SYMBOLIC MECHANISMS: EMERGENT SYMBOL PROCESSING IN VISION LANGUAGE MODELS」の紹介を担当しました。本論文は、Vision Language Models（VLM）において視覚的バインディング（要素の結びつけ）を支える創発的なシンボリックメカニズムを解明した研究です。近年、LLMにおいてBindingをサポートするメカニズムが明らかになる一方、VLMにおいてBindingをサポートするメカニズムは未解明でした。本研究は、表現分析（PCA、RSA）や因果媒介分析を用い、モデルが空間的な「Position IDs」をポインタとして活用する『3段階のメカニズム（位置の検索→ターゲットの選択→特徴の抽出）』を特定しました。これにより、この一連のプロセスがVLMのbindingを支えていることを実証しています。
published: May 30, 26
canonical: https://docswell.com/s/8328889256/KPRWQE-2026-05-30-190226
---
# Page. 1

![Page Image](https://bcdn.docswell.com/page/LJ3WVVWZJ5.jpg)

VISUAL SYMBOLIC MECHANISMS: EMERGENT SYMBOL
PROCESSING IN VISION LANGUAGE MODELS


# Page. 2

![Page Image](https://bcdn.docswell.com/page/8JDK88K4EG.jpg)

研究概要
題名
• VISUAL SYMBOLIC MECHANISMS: EMERGENT SYMBOL PROCESSING IN VISION
LANGUAGE MODELS（ICLR2026）
著者
• Rim Assouel, Declan Campbell, Yoshua Bengio, Taylor Webb
概要
• VLMにおいてbindingをサポートする、一連の創発的なsymbolic mechanismsの証拠を提示する
1


# Page. 3

![Page Image](https://bcdn.docswell.com/page/VEPK88KV78.jpg)

人間は物体をどのように捉えているのか
• 様々な要素を組み合わせることによって
効率的に物体を表現している
例
• 「赤い」＋「三角」＝「赤い三角」
• 「青い」＋「丸」 ＝「青い丸」
LLMやVLMを含むニューラルネットワークでも
上記のような構造的表現を学習し、この表現方法
を活用することで、新たな表現を行っている。
but
ニューラルネットワークでは構造的表現を行うために、
どのように特徴同士を結び付けているのかという課題がある ・・binding problem
2


# Page. 4

![Page Image](https://bcdn.docswell.com/page/27VVNNVR7Q.jpg)

Bindingはなぜ必要なのか
画像1
画像2
• 画像1と画像2は「赤色」「青色」「丸」「三角」という共通の要素を含んでいる
• もしオブジェクトと特徴が結び付いていないと、2つの画像を判別することが難しい
3


# Page. 5

![Page Image](https://bcdn.docswell.com/page/5JGLKKL67L.jpg)

LLMにおいてbindingをサポートするメカニズム
Binding IDs
1.
内容非依存のインデックスを表すベクトル
2.
LLMがコンテキスト内で、どの特徴がどの対象に属してい
るかを追跡するために使用
3.
Binding IDsはその引数に対応するトークンのベクトル
に加算的に組み込まれている
LLMではposition IDsを用いることで
Binding Problemを解決している
(例): 「赤いリンゴ」という文章を処理する時
• 「リンゴ」のベクトル＋ binding Id(A)
• 「赤い」のベクトル ＋ binding Id(A)
emergent symbolic mechanisms
1. 入力トークンを抽象的な記号(変数)に変換
2. 関連付けられているトークンとは独立して処理
3. 最終的な推論時に、抽象的な記号から元の意味に戻される
言葉を「記号」に置き換えて論理的に処理する力
を自発的に獲得している
LLMではシンボリックで内容非依存のインデックスを用いてbinding problemを解決していることが発見されている
4


# Page. 6

![Page Image](https://bcdn.docswell.com/page/47QYNNY2EP.jpg)

本研究の主題
本研究では、VLMにおいてbindingをサポートする、一連の創発
的なsymbolic mechanismsの証拠を提示する
Mechanisms
bindingを行うindices
Stage 1 : Position ID Retrieval
•
•
「プロンプト内の物体や特徴」を「画像内の空間的な位置」と結び付ける
対応する画像トークンからそのオブジェクトのPosition IDを取得
Binding ID(LLM)
Stage 2 : Position ID Selection
•
•
ターゲットオブジェクトの「position ID」を選択するステージ
Stage1で既に取得された「Position ID」に基づいて、ターゲットオブジェクトの
「Position ID」を選択する
Stage 3 : Feature Retrieval
•
Stage2で得た「Position ID」を用いて、ターゲットオブジェクトの特徴を引っ張り
出すステージ
Position ID(VLM)
視覚的空間（空間座標）を内容に
依存しない足場として活用するこ
とでbindingを行っている
5


# Page. 7

![Page Image](https://bcdn.docswell.com/page/KE4WGGWPJ1.jpg)

SYMBOLIC MECHANISMSの可視化
mechanisms
1. オブジェクトの特徴に基づいて、プロンプトで記述されたオブジェクトと画
像の空間的な位置の対応付けを行う
• プロンプト内のオブジェクトの特徴(Query)と関係性の高い
視覚特徴を持つ画像パッチ(Key)に強いAttentionが向けられる
• 色や形といった意味的な特徴ではなく、「空間的な位置情報（Position ID）」
を出力する
Position ID
・・抽象的な変数のようなもの
• 視覚的空間(空間座標)を足場（LLMにおけるbinding IDs）として利用
• Binding IDは物体や特徴にインデックスをタグ付けすることでbindingをして
いたが、Position IDは、Position IDという部屋に特徴や形状を格納することで、
bindingをしているイメージ
2. 「プロンプト内で言及されたPosition ID」から、「まだ言及されていない、
次に答えるべきターゲットオブジェクトのPosition ID」を選択する
3. Stage1で獲得したposition IDを基に、オブジェクトの特徴を取り出す
• ターゲットオブジェクトのPosition ID(Query)と画像パッチが持つPosition
ID(Key)が一致すると高いAttentionが向けられる
• そして、その画像パッチが持っている具体的な特徴（紫,三角）がValueとして
抽出され、最後のトークンの情報として統合される
6


# Page. 8

![Page Image](https://bcdn.docswell.com/page/L71YDDYXJG.jpg)

実験の流れ
1. 表現分析（3つの段階が実際に行われているかを確認）
→PCA（主成分分析）、RSA（Representational similarity analysis）
2. 因果媒介分析（3つの段階を実行する特定のAttention headを特定する）
3. VLMが示す持続的な結びつけの失敗において、これらのメカニズムが果たす役割を分
析
7


# Page. 9

![Page Image](https://bcdn.docswell.com/page/G7WGYYGKE2.jpg)

実験の共通タスク
実験
VLMにおける視覚的統合のメカニズムを特定するために、 multi-object visual scene におい
て特徴をオブジェクトに結合させるモデルの能力をテストするシーン記述タスクを行う
Input image
prompt
“This image contains a red square, a blue circle and a”
このタスクがモデルに要求すること
①画像を解析
②プロンプトで述べられているオブジェクトと画像内の
オブジェクトを一致させる
③欠けているオブジェクトを特定
④そのオブジェクトの特徴を取得
8


# Page. 10

![Page Image](https://bcdn.docswell.com/page/4JZLXXLNE3.jpg)

主成分分析 (PCA)
手法
1. 以下の画像を使用して、シーン記述タスクを行う
（計7200回）
2. そして、シーケンスのlast tokenにおける隠れ状態
の活性をPCA(上位2つの主成分)を用いて分析する
オブジェクトの位置
オブジェクトの特徴
19層：モデルはモデルはターゲットが「どこにあるか(Position ID)」は完全に特定できているが、それが「何色で何の形か」はまだ分かっていない
27層：Position IDをKeyにして画像パッチから情報を引っ張り出した結果、モデルの関心が「ターゲットの位置」から「ターゲットの色
や形（特徴）」へとシフトしたことを示しています 。
9


# Page. 11

![Page Image](https://bcdn.docswell.com/page/YE6W44W9EV.jpg)

Representational Similarity Analysis (RSA)
RSA
•
異なるシステムにおける情報の表現形式を比較するための手法
•
RSM（表象類似度行列：Representational Similarity Matrix）を
表現の特徴として活用する
•
2つのRSMを比較することで類似性を測ることができ、似ている
と同じような表現を行っていると推測できる
RSM
• 特定の表現空間において、各入力インスタンスが他のすべてのインス
タンスとどのような関係（類似度や距離）にあるかを記述した行列
→その層が、複数のインスタンスをどのようにグループ分けしているの
かを行列で表している
表現類似性
•
•
•
ニューラルネットワークの類似性を測る際、「表現類似性」は、
モデルの中間層の活性化（表現）がどのように異なるかを評価する
アプローチ
モデルのアーキテクチャや単純な重みの比較ではなく、特定の入力
データ群に対して中間層がどのように情報を処理しているかに焦点
を当てる
共通の入力に対する中間層の活性化を表現行列として定義し、比較する
10


# Page. 12

![Page Image](https://bcdn.docswell.com/page/GE5MQQMDE4.jpg)

RSM（表象類似度行列）のつくり方
RSM
ターゲットRSM
１: ベクトルの抽出
1. Position-based RSM
• とある画像Aを入力したときの、とある層の特定のトークン
のベクトルを抽出（𝑣1)
• とある画像B入力したときの、とある層の特定のトークン
のベクトルを抽出（𝑣2)
2：類似度の計算
• v1とv2のコサイン類似度を計算する
画像t1にあるオブジェクトiと画像t2にあるオブジェクトiの
距離（ユーグリッド距離）を0~1の数値で表す
2. Feature-based RSM
3：行列の構築
• この計算を用意した全ての入力画像の組み合わせ（総当たり）
で行い、N × N （Nは画像数）の行列を作成する
【データセット】
or
• 画像t1にあるオブジェクトiと画像t2にあるオブジェクトの色が同じで
あれば「1」、異なれば「0」
• 画像t1にあるオブジェクトiと画像t2にあるオブジェクトの形が同じで
あれば「1」、異なれば「0」
• この２つの結果を合計し２で割る
11


# Page. 13

![Page Image](https://bcdn.docswell.com/page/9729PPRMJR.jpg)

表現類似度解析 (RSA)
手法
1. 各層で隠れ状態のベクトルの類似度を総当たりで計算する
→表現類似度行列（①）を獲得
2. オブジェクトの位置だけを表現した理想的な空間ベクトルと
オブジェクトの特徴だけを表現する理想の空間ベクトルを
つくり、同様の方法で表現類似性行列を獲得（②、③）
3. ①と②、①と③を比較
4. 二つの相関を層ごとトークンごとに調べ、
スコアの推移をグラフ化する
相関が高ければ、その層のアクティベーション空間は、
ターゲットとした概念（位置や特徴）を強く表現していると解釈できる
•
•
•
14~17層：オブジェクトを記述するプロンプトトークン
（オブジェクトの位置）
18~21層：last token ターゲットオブヘクトの位置
23~26層：last token ターゲットオブジェクトの特徴
3段階のメカニズムが実際に行われていることが判明
12


# Page. 14

![Page Image](https://bcdn.docswell.com/page/DJY455DP7M.jpg)

RSA results across a range of different VLMs
13


# Page. 15

![Page Image](https://bcdn.docswell.com/page/V7NYNN6ME8.jpg)

causal mediation analysis (CMA)
目的
VLMがbindingを行う際の3つのプロセスを、モデル内のどのAttention Headが担っている
かを特定する
CMAの仕組み
•
CMAでは、2つの異なる状況（文脈・画像）を用意、
モデルの内部状態を部分的に「パッチ」することで、
特定のHeadの因果的な影響力を測定する
手法
1.
2.
3.
4.
通常の画像(c1)とオブジェクトの位置のみを入れ替えた画像(c2)を用意
プロンプトは共通のものを使う
c2をモデルに入力し、position ID(IDを含んでいるであろうベクトル）
を取得する
c1の推論時、モデルの内部状態を部分的に「パッチ」することで、
出力が本研究の予測通りに変化するかをみる
CMAスコアは、各条件につき50サンプルで平均化する。
この式は、どのくらい操作が上手くいったかを表している
具体的には、数値(s)が大きければ操作が上手くいっており、
小さければ上手くいっていない
•
•
•
•
•
c1 : ベースとなる入力データ（画像.テキスト）
a1 : c1を入力した際にモデルが出力すべき正しい答え（ロジット）
c1∗ : c1を入力とした処理の１部をc2の要素でパッチしたもの
a1∗ : c1∗ から得られる答え（ロジット）
𝑐2 : c1の一部を意図的に買えた入力データ
14


# Page. 16

![Page Image](https://bcdn.docswell.com/page/YJ9PRRLW73.jpg)

CMA for ID Retrieval Heads
ID Retrieval Heads(stage 1)
手法
1. 2つのオブジェクトが移っている画像とそのうち1つのオブ
ジェクトに言及するプロンプトを用意(c1)また、言及されて
いないオブジェクトの色を答え(a1)として用意
2. プロンプトは同じだが、2つのオブジェクトの位置を入れ替
えた画像を用意(c2)
3. プロンプトで説明されているオブジェクトのトークンで
Attention headの出力をパッチすることで、因果的媒介を実行
期待
c2
c1
Attention headがプロンプト内で記述されているオブジェクトの
「position ID」の取得に因果的に関与している場合、モデルは
誤ったposition IDを取得するはず。その結果、 ID Selection
Headsは、プロンプト内で既に説明されているオブジェクトの
position IDを誤って選択し、最終的にFeature Retrieval Headsは
、プロンプトで既に説明されているオブジェクトの特徴を
取得するはず。
15


# Page. 17

![Page Image](https://bcdn.docswell.com/page/GJ8DWWXRJD.jpg)

CMA for ID Selection Heads(stage 2)
ID Selection Heads(stage 2)
手法
1. ID Retrieval Heads(stage 1)の実験と全く同じセットアッ
プ（画像・プロンプト）を用意
2. the last token positionでアテンションヘッド
の出力をパッチすることで、因果的媒介を実行
期待
Attention headがターゲットオブジェクトの「position ID」
の取得に因果的に関与している場合、モデルは誤ったターゲ
ットの「position ID」を取得するはず。これにより、ID
Selection headは、プロンプトで既に説明されているオブジェ
クトのposition IDを誤って選択し、最終的にFeature
Retrieval Headsは、プロンプトで既に説明されているオブ
ジェクトの特徴を取得するはず。
c2
c1
16


# Page. 18

![Page Image](https://bcdn.docswell.com/page/LJLMNN82ER.jpg)

CMA for Feature Retrieval Heads(stage 3)
Feature Retrieval Heads(stage 3)
手法
1. 2つのオブジェクトが移っている画像と
そのうち1つのオブジェクトに言及する
プロンプトを用意(c1)また、言及されて
いないオブジェクトの色を答え(a1)として用意
2. プロンプトは同じだが、ターゲットオブジ
ェクトの特徴のみが異なる画像を用意(c2)
3. the last token positionでアテンションヘッド
の出力をパッチすることで、因果的媒介を実行
期待
Attention headがオブジェクトの特徴の取得に因果的に
関与している場合、異なるターゲットオブジェクトから
特徴を取得すると、モデルは誤った特徴を取得するはず。
c2
c1
17


# Page. 19

![Page Image](https://bcdn.docswell.com/page/47MYXX697W.jpg)

CMA RESULTs
• ID Retrieval head（青色）：主にに12～16層
• ID Selection head（赤色）：主に18～19層
• Feature Retrieval head（緑色）：主に20～27層
に局在していた。
また、これらの層は、表現分析でこれらの段階に対応
する層と密接に一致していた。
これらの結果は、VLMにおけるbindingをサ
ポートする3段階のメカニズムが実際に行わ
れていることを裏付けた
18


# Page. 20

![Page Image](https://bcdn.docswell.com/page/P7R9NNP9E9.jpg)

CMA RESULTs
19


# Page. 21

![Page Image](https://bcdn.docswell.com/page/PJXQNN337X.jpg)

whether position IDs employ a relative or absolute
実験の目的
•
Position IDsが複数のオブジェクトの中での「相対的な位置関係」に
基づいているのか、画像全体の「絶対的な座標」に基づいているのか
を探る
実験方法
•
3×3のグリッドを用いた実験を設計
その中に、2×2のオブジェクト群(4つの図形)を配置
•
「左上・左下・右上・右下」と3×3グリッドの異なる象限にそれぞれ
配置した4パターンの画像を作成
※どのパターンの画像でも必ず1つの図形がグリッドの真ん中にくるように配置する
•
以前に使用したシーン記述タスクを実行させる
（プロンプトに一つのオブジェクトが欠けた状態で、ターゲットのオ
ブヘクトを予測させる）
•
Last tokenの表現を分析（RSA)
•
•
画像のど真ん中にあるオブジェクト同士は「位置が同じ」として
類似度を高く判定するな理想的な行列
2×2の群の中での位置（例：「群の右上」同士）が同じであれば
類似度が高くなるような理想的な行列
Position IDsは相対的な座標に基づいている
20


# Page. 22

![Page Image](https://bcdn.docswell.com/page/3JK9NNYNJD.jpg)

POSITION IDS GENERALIZE TO VISUALLY COMPLEX SETTINGS
目的
•
the symbolic mechanisms はより複雑で自然な画像の処理においても用
いられるのかを調査したい
手法
•
現実世界の画像の重要な特性を捉えた画像を生成(using the
Photorealistic Unreal Graphics) 。各画像は、それぞれ異なる色をした
2匹の3D動物がリアルな背景に配置されている。
※また、動物が明確に右、左と分かるように配置
•
介入実験（以下ロジック）
1.
Position IDsの埋め込みベクトルを推定
(by averaging over several instances of these IDs)
2.
Position IDsの編集
(モデルによって計算されたIDを減算し、もう一方のIDを加算)
※介入は特定した3つのheadに適応
21


# Page. 23

![Page Image](https://bcdn.docswell.com/page/LE3WVV9ZE5.jpg)

POSITION IDS ARE LOCALIZED WITHIN VISUAL OBJECT PATCHES
実験目的
•
Position IDsが画像内パッチの残差ストリームに存在しているか
検証したい（モデル内の物理的にどこに保存されているのか）
手法
•
モデルに指定されたオブジェクトの色を特定するタスクを用いる。
以下のプロンプトを使用
“In this image what is the color of the {SHAPE}. Answer with
the correct color only.”
•
画像パッチの「keyベクトル」に介入することで、モデルが任意
に指定されたオブジェクトの色を検索するように操作
•
RoPEの前の残差ストリームに介入するのがみそ
•
この実験では、α を 2 に固定し、CMA スコアに基づいて上位
20 位のFeature Retrieval Headsを含む層に介入を適用
O
K l 0 : レイヤーlにおけるオブジェクト0の画像バッチ本来のkeyベクトル
O
K l 1 : レイヤーlにおけるオブジェクト1の画像バッチ本来のkeyベクトル
Position IDsが画像パッチのkeyに局所的に保存されている
22


# Page. 24

![Page Image](https://bcdn.docswell.com/page/8EDK88G47G.jpg)

Position IDsは汎用性があるのか
実験目的
•
Position IDsはより複雑なタスクにおいても使用されるのか
手法
•
visual reasoning task involving spatial relations
•
このタスクは 「“In this image, what is the color of the object that is directly {RELATION} of {REF}. Answer
with the relevant color only.”」というテンプレートの質問で構成されている
•
RELATION は{above, below, left, right} のいずれかであり、 REF は画像内のオブジェクトの1つ
•
前の単純なシーン記述タスクに基づいて推定されたposition IDを利用、これらのIDを別の視覚推論タスクへの介
入に適用することで、position IDがタスクを超えて再利用されているかを評価する
•
介入は上位 100 個の ID 選択ヘッド (CMA スコアに基づく) に適用され、α は 2 に設定
23


# Page. 25

![Page Image](https://bcdn.docswell.com/page/V7PK883VJ8.jpg)

Position IDsは汎用性があるのか
•
•
別タスクからのPosition IDの移植を行うことで、より難しい空間推論タスクのパフォーマンスが大幅に向上
VLMがタスクの種類（単なる欠損予測か空間的な推論か）に関わらず、「視覚的な空間を整理するための共
通の記号」として同じ「Position ID」を使い回しているという強力な証拠
24


# Page. 26

![Page Image](https://bcdn.docswell.com/page/2JVVNN4RJQ.jpg)

BINDING ERROR ANALYSIS
目的
•
モデルがオブジェクトや場所と特徴を結び付ける力に対
してPosition IDsがどのように影響を及ぼすのか知りた
い
手法
•
特徴エントロピーを変化させたシーン記述タスクを行う
•
RSAを用いて分析
特徴エントロピー：
画像内にあるオブジェクトの特徴の
ばらけ具合
Binding errorとメカニズムのエラーには
因果がある
25


# Page. 27

![Page Image](https://bcdn.docswell.com/page/5EGLKK16JL.jpg)

結論
• 本研究では、VLMにおけるbindingを支える創発的でシンボリックなメカニズムを特定
し、その特徴を明らかにした。
• このアーキテクチャは複数のモデルやスケールにわたって驚くほど一貫しており、現在
のVLMにおけるbindingの根本的な解決策であることを示唆した。
• VLMに見られる持続的なbinding failuresは、これらのsymbolic mechanismsの不具合
に直接起因することを実証した。
26


# Page. 28

![Page Image](https://bcdn.docswell.com/page/4JQYNND27P.jpg)