---
title: 【深層学習による画像認識の基礎】4.5~4.8
tags: 
author: [京都大学人工知能研究会KaiRA](https://docswell.com/user/kyoto-kaira)
site: [Docswell](https://www.docswell.com/)
thumbnail: https://bcdn.docswell.com/page/VJNYN9Q878.jpg?width=480
description: 【深層学習による画像認識の基礎】4.5~4.8 by 京都大学人工知能研究会KaiRA
published: June 04, 26
canonical: https://docswell.com/s/kyoto-kaira/5DM2PV-2026-06-04-202102
---
# Page. 1

![Page Image](https://bcdn.docswell.com/page/VJNYN9Q878.jpg)

京都大学人工知能研究会
KaiRA
Kyoto univ. AI Research Association
2026前期輪読会 #7 2026/06/04
深層学習による画像認識の基礎
4.5-4.8 位置の表現/ViTの解析/MetaFormer
京都大学工学部理工学科 B3
岡本 和優
1

# Page. 2

![Page Image](https://bcdn.docswell.com/page/YE9PR2DXJ3.jpg)

■ アジェンダ
京都大学人工知能研究会
KaiRA
Kyoto univ. AI Research Association
■ 4.5 位置情報の表現方法
■ 4.6 ViTの解析
■ 4.7 ViTのメタアーキテクチャ
■ 4.8 本章のまとめ
2

# Page. 3

![Page Image](https://bcdn.docswell.com/page/GE8DW539ED.jpg)

一 4.5 位置情報の表現方法
京都大学人工知能研究会
KaiRA
Kyoto univ. AI Research Association
背景: 自己注意機構は入力系列の要素の順番に不変な演算であるため, 各ベクトルに位置
情報を付加する必要がある
主な位置情報の表現方法
• 4.5.1 絶対位置符号 (absolute position encoding) : sin/cos 関数ベースの固定ベクト
ル
• 4.5.2 2次元絶対位置符号 : 垂直・水平方向を個別に符号化して結合
• 4.5.3 相対位置埋込み (relative positional embedding) : ベクトル間の相対距離を利
用
• 4.5.4 条件位置埋込み (conditional positional embedding) : 畳み込みで動的に生成
3

# Page. 4

![Page Image](https://bcdn.docswell.com/page/LELMNYVM7R.jpg)

一 4.5.1 絶対位置符号
京都大学人工知能研究会
KaiRA
Kyoto univ. AI Research Association
位置 t の位置ベクトル wt = (wt,1, ..., wt,d)⊤ ∈ Rd を正弦・余弦関数で構築
wt,k =
{
sin
(
(
t
Tk/d
)
,
(
t
T(k-1)/d
)
,
cos
k が奇数の場合
k が偶数の場合
(T = 10000)
• 各位置 (行) で異なるベクトル表現が得られる
• 前半次元 : 位置変化に応じて値が大きく変動
• 後半次元 : 0と1を交互に示す (k の増加 → 波長が長くなる)
4

# Page. 5

![Page Image](https://bcdn.docswell.com/page/4JMYXNG6JW.jpg)

一 4.5.2 2次元絶対位置符号
京都大学人工知能研究会
KaiRA
Kyoto univ. AI Research Association
問題: 1次元の絶対位置符号は画像を左上→右下に走査する1次元系列として扱うため, 垂
直方向のパッチ間の位置情報を適切に符号化できない
1次元に平坦化してから, 絶対位置符号 (それぞれ d/2 次元で符号化)
↓ 次元方向で結合して, d 次元とする
垂直方向の
位置情報
入力系列内での位置
水平方向の
位置情報
図4.17 2次元絶対位置符号の例. 入力画像を7×7のグリッドに分割し
た場合 (N = 49) を示しています.
図4.17 入力画像を7×7グリッドに分割した
場合 (N=49)
解決策: 垂直・水平方向それぞれの絶対位置
符号を用意して結合
• 垂直方向 : d/2 次元で1次元符号化
• 水平方向 : d/2 次元で1次元符号化
• 次元方向に結合 → d 次元の2次元位置符
号
2次元空間を考慮した位置表現が可能
5

# Page. 6

![Page Image](https://bcdn.docswell.com/page/PJR9NDZN79.jpg)

一 4.5.3 相対位置埋込み
京都大学人工知能研究会
KaiRA
Kyoto univ. AI Research Association
問題: 絶対位置符号は並進移動に対して同変性を満たさない
相対位置埋込み: キー・バリューに相対距離に対応する埋込みベクトルを加算する
N
qi = Σ (W
Vh
j + p
V
clip(i-j,r))
exp(Aij)
Σ
k=1
exp(Aik)
N
Aij =
(W
Kh
j + p
K
clip(i-j,r))
⊤ (W
Qh
i)
√d
• PK, PV ∈ Rd×(2r+1) : 相対位置に対応する学習可能な埋込み
• clip(x, r) = max(-r, min(r, x)) : 距離 r 以上の埋込みはすべて同じ
6

# Page. 7

![Page Image](https://bcdn.docswell.com/page/PEXQN198JX.jpg)

一 4.5.4 条件位置埋込み
京都大学人工知能研究会
KaiRA
Kyoto univ. AI Research Association
問題: 並進移動に対する同変性の欠如・学習時と異なる系列長への対応が困難
patch
embed
Trans.
encoder
position encoding
generator
Trans.
encoder
× (L-1)
手順
1. ベクトル系列を画像テンソル表現に成
形 (Reshape)
2. k × k 畳み込み層 (position encoding
generator) を適用
3. 出力テンソルを再びベクトル系列に成
形し, 元の系列に加算
入力系列
Reshape
H
W
Conv
Reshape
位置埋込み系列
図4.18 条件位置埋込み.
図4.18 条件位置埋込みの概要
利点
• 畳み込み処理により並進同変性を満たす
• 局所的な受容野 (k × k) のみ参照 → 長
い系列長にも一般化可能
7

# Page. 8

![Page Image](https://bcdn.docswell.com/page/3EK9N2PLED.jpg)

一 4.5.5 位置表現方法の比較
京都大学人工知能研究会
KaiRA
Kyoto univ. AI Research Association
有効性はViTモデルの種類・タスク・学習方法によって変わる
主な報告
• 画像分類 : 相対位置埋込みの優位性
は報告によって異なる
• 物体検出 : 絶対位置符号が相対位置
埋込みより優れた性能
• 自己教師あり学習 : 絶対位置符号の
方が高精度
各手法の特徴まとめ
手法
並進同変性 可変系列長
絶対位置符号
X
X
2次元絶対位置符号
X
X
相対位置埋込み
○
△
条件位置埋込み
○
○
8

# Page. 9

![Page Image](https://bcdn.docswell.com/page/L73WV4X675.jpg)

一 4.6 ViTの解析 - 4.6.1 マルチヘッド注意機構は目的関
数を滑らかにする
京都大学人工知能研究会
KaiRA
Kyoto univ. AI Research Association
動機: なぜ ViT が優れているのか, 直感的理解が難しい → 目的関数の形状 (loss
landscape) を実験的に調査
ヘッセ行列 H(θ) = ∂²
∂θ²
L(x, y; θ) の固有値分布から分析
• 値が大きい固有値が多い → シャープな目的関数
• 負の固有値が多い → 鞍点を多く含む (非凸)
ViT vs ResNet の比較
• 学習初期: ViT は ResNet より負の固有値を多く含む → 最適化が難しい
• 訓練データ増加: 負の固有値が大幅に減少 → 大規模データセットの必要性
• ViT の固有値は ResNet より大幅に小さい → 目的関数がより平坦
要因: マルチヘッド注意機構の空間平滑化が目的関数の形状をフラットにする
9

# Page. 10

![Page Image](https://bcdn.docswell.com/page/87DK8Q2MJG.jpg)

一 4.6.1 固有値分布と目的関数の形状
京都大学人工知能研究会
KaiRA
Kyoto univ. AI Research Association
- ViT ---- ViT(6%) - ResNet
頻度
-100
0 0
最大固有値
500
(a) 固有値分布
ViT
ResNet
(b) 目的関数の形状
図4.19 (a)ViT と ResNet のヘッセ行列の固有値分布. (b)ViT と
ResNet の目的関数の形状. (a) は文献 [156] から引用していま
す. (b) の可視化には, 文献 [157] の方法を用いています.
図4.19 ViTとResNetのヘッセ行列の固有
値分布(a)と目的関数の形状(b)
(a) 固有値分布
• ViT (全データ) は固有値が小さい → 目
的関数が平坦
• ViT (少量データ) では負の固有値がさら
に増加
• 全データ使用で負の固有値が大幅に減少
(b) 目的関数の形状
• ViT の方が明らかに平坦な形状
• ResNet はよりシャープな目的関数
解釈: マルチヘッド注意機構 = 空間平滑化
の一種であり, 特徴マップへの平滑化処理
が目的関数をフラットにする
10

# Page. 11

![Page Image](https://bcdn.docswell.com/page/VJPK8L1QE8.jpg)

一 4.6.2 ViTはローパスフィルタ, CNNはハイパスフィル
タ
京都大学人工知能研究会
KaiRA
Kyoto univ. AI Research Association
マルチヘッド注意は空間平滑化 = 高周波成分を減衰させる (ローパスフィルタ)
特徴マップの周波数解析
• ViT のマルチヘッド注意部分 : 高周波成
分を減衰
• ViT の FFN 部分 : 高周波成分を増幅
• 例外: 入力層に近い注意機構は高周波成
分を増幅
畳み込み (CNN) = ハイパスフィルタ
→ 注意機構と畳み込み処理は互いに補完関
係
実用的含意
• ViT 序盤に畳み込み層を配置するハイブ
リッド構造が有効な理由を説明
注意点
• ViT は低周波ノイズに対して CNN より性
能劣化しやすい
• CNN は高周波ノイズに対して ViT より性
能劣化しやすい
11

# Page. 12

![Page Image](https://bcdn.docswell.com/page/2EVVNQYPEQ.jpg)

一 4.7 ViTのメタアーキテクチャ - MetaFormer
京都大学人工知能研究会
KaiRA
Kyoto univ. AI Research Association
Input
C x H x W
Stage 1
H W
C x - x -
4 4
Stage 2
H W
2C x - x -
8 8
Stage 3
H W
4C x - x -
16 16
Stage 4
H W
8C x - x -
32 32
Patch
embed
Transformer
Block
× L1
DS
Transformer
Block
× L2
DS
Transformer
Block
× L3
DS
Transformer
Block
× L4
Norm
Token
Mixer
Norm
Channel
FFN
図4.20 ViT のメタアーキテクチャ. モデル全体は Transformer ブロッ
クとダウンサンプリング (DS) を積み重ねた構造をしていま
す. Transformer ブロックは, 層正規化 (Norm), トークン混
合 (Token mixer), チャネル FFN で構成されます. 「×Li」 (i =
1, 2, 3, 4) は各ブロックの層数を示します.
図4.20 ViTのメタアーキテクチャ
(MetaFormer)
多くの ViT モデルの共通構造
• Transformer Block + ダウンサンプリ
ング (DS) を積み重ねた構造
• Block = Norm + Token Mixer + Norm
+ Channel FFN + スキップ接続
重要な仮説
• Token Mixer をランダム注意や平均プー
リングに置き換えても ImageNet-1K で
80% 以上
• 恒等写像でも 約 80% を達成
→ ViT の成功要因はモデル構造自体
(MetaFormer) にある
12

# Page. 13

![Page Image](https://bcdn.docswell.com/page/57GLKW9QEL.jpg)

一 4.7.2 MLPFormer / 4.7.3 PoolFormer
京都大学人工知能研究会
KaiRA
Kyoto univ. AI Research Association
MLPFormer (MLP-mixer)
PoolFormer
LN
patches
MLP
patches
channels
LN
MLP
空間方向 (パッチ間) での特徴集約
チャネル間での特徴集約
図4.21 MLP-mixerの基本となる演算ブロック.
図4.21 MLP-mixerの演算ブロック
• Token Mixer に MLP を採用
• 入力を転置 → 全結合層でパッチ間特徴集
約
• ViT と同等以上の精度
Norm
Average
pooling
Norm
Channel
FFN
Norm
Identity
Norm
Channel
FFN
(a) PoolFormer
(b) IdentityFormer
図4.22 (a)PoolFormer. (b)IdentityFormer.
図4.22 PoolFormer (a) と
IdentityFormer (b)
• Token Mixer に 3×3 平均プーリングを
採用
• 自己注意 ≈ 空間平滑化 → 平均プーリン
グと同等
• 画像分類・物体検出・領域分割でも標準
的な CNN・ViT と遜色ない性能
13

# Page. 14

![Page Image](https://bcdn.docswell.com/page/4EQYN3WWJP.jpg)

一 4.7.4 IdentityFormer / RIFormer
京都大学人工知能研究会
KaiRA
Kyoto univ. AI Research Association
Teacher
Norm
Token
mixer
Norm
Channe
FFN
Student
(学習時)
Norm
Affine
Norm
Channe
FFN
μ, σ, γ, β
s, t
再パラメータ化
Student
(推論時)
μ, σ, γ&#039;, β&#039;
Norm
Identity
Norm
Channe
FFN
図 4.23 RIFormer [105] は, 学習時はトークン混合にアフィン変換を採
用し, 学習済みの教師モデルの中間出力との誤差を最小化する
ように最適化します. 推論時は再パラメータ化によって, 層正
規化とアフィン変換を1つの層正規化に統合します. L のとこ
ろで知識蒸留のための損失計算を行います.
図4.23 RIFormerの学習・推論の仕組み
(知識蒸留と再パラメータ化)
IdentityFormer
• Token Mixer に恒等写像を採用
• 標準的な ViT (DeiT) と同程度の精度を
達成
RIFormer (RepIdentityFormer)
• 学習時: Token Mixer にアフィン変換を
採用し, 教師モデルとの知識蒸留で最適
化
• 推論時: 再パラメータ化でアフィン変換
と層正規化を1つの層正規化に統合
γ&#039;i = γi(si - 1), β&#039;i = βi(si - 1) + ti
14

# Page. 15

![Page Image](https://bcdn.docswell.com/page/KJ4WG1K171.jpg)

一 4.7.5 メタアーキテクチャ比較 &amp; まとめ
京都大学人工知能研究会
KaiRA
Kyoto univ. AI Research Association
表 4.3 メタアーキテクチャの比較結果例 [163]. ImageNet-1K での
Top-1 分類精度, モデルパラメータ数 (Params), 積和演算数
(MACs) を示しています.
Model
Params (M) MACs (G) Top-1 (%)
DeiT-B [96]
86
17.5
81.8
Swin-B [79]
88
15.4
83.5
MLP-mixer-B/16 [164]
59
12.7
76.4
gMLP-B [165]
73
15.8
81.6
IdentityFormer-M48 [163]
73
11.5
80.4
RIFormer-M48 [105]
73
11.6
82.8
RandFormer-M48 [163]
73
11.9
81.4
PoolFormerV2-M48 [163]
73
11.5
82.6
ConvFormer-M36 [163]
57
12.8
84.5
CAFormer-M36 [163]
56
13.2
85.2
表4.3 ImageNet-1K Top-1 分類精度比較
前半 CNN + 後半 ViT のハイブリッドモデル
(CAFormer) が 85.2% で最高精度
まとめ
• 位置情報の表現 : 絶対位置符号・2次元・
相対・条件の各手法。有効性はタスク・
モデル依存
• ViTの解析 : マルチヘッド注意が目的関数
を平坦化, ローパスフィルタとして機能
• MetaFormer : 成功要因はモデル構造自
体。Token Mixer の違いが性能を左右
15