【人工知能・深層学習】論文紹介:

>100 Views

May 23, 26

スライド概要

M2の景山さんが、論文「Occlusion-Aware SORT: Observing Occlusion for Robust Multi-Object Tracking」の紹介を担当しました。 本論文では、Occlusion-Aware SORT(OA-SORT) という新しいフレームワークを提案しています。これは、Occlusion-Aware Module(OAM)、Occlusion-Aware Offset(OAO)、および Bias-Aware Momentum(BAM) で構成される、プラグアンドプレイかつ追加学習不要(training-free)なフレームワークです。OAMで遮蔽状態を分析し、OAOとBAMに活用することで、コストの混同を緩和し、推定の不安定性を抑制しています。結果、DanceTrackのテストセットにおいて、OA-SORTはHOTA 63.1%、IDF1 64.2%という精度を達成しました。さらに、この遮蔽認識フレームワークを他の4つのトラッカーに統合したところ、HOTAが平均2.08%、IDF1が平均3.05%向上し、遮蔽認識における本手法の高い再利用性(汎用性)が実証されました。

profile-image

立教大学大学院人工知能科学研究科における瀧雅人准教授が主催する研究室で2020年度からスタートしているまだ若い組織です。 最先端の深層学習について、高度化・説明性向上などをテーマに深く幅広く研究しています。 また医療や神経科学・物理学におけるデータ分析や、産業への社会実装にも携わっています。 研究室内のPaper Reading活動の記録として、研究室学生の発表資料を公開しています。 ご興味をお持ちの方は、HPをご確認ください。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

論文紹介 Occlusion-Aware SORT: Observing Occlusion for Robust Multi-Object Tracking 2026/05/16 景山 敬太

2.

論文概要 タイトル:Occlusion-Aware SORT: Observing Occlusion for Robust Multi-Object Tracking (CVPR 2026) 著者:Chunjiang Li, Jianbo Ma, Li Shen, Yanru Chen, Liangyin Chen 概要: 本論文では、Occlusion-Aware SORT(OA-SORT) という新しいフレームワークを提案する。これは、OcclusionAware Module(OAM)、Occlusion-Aware Offset(OAO)、および Bias-Aware Momentum(BAM) で構成さ れる、プラグアンドプレイかつ追加学習不要(training-free)なフレームワークである。 OAMで遮蔽状態を分析し、OAOとBAMに活用することで、コストの混同を緩和し、推定の不安定性を抑制する。 結果、DanceTrackのテストセットにおいて、OA-SORTはHOTA 63.1%、IDF1 64.2%という精度を達成した。さら に、この遮蔽認識フレームワークを他の4つのトラッカーに統合したところ、HOTAが平均2.08%、IDF1が平均 3.05%向上し、遮蔽認識における本手法の高い再利用性(汎用性)が実証された。 貢献: 1. 2. 3. 遮蔽(オクルージョン)を正確に数値化する手法(OAM/GM)の確立:元の座標から奥行きを推定し、ガウス・マップを用 いて背景ノイズを排除することで、物体の「隠され具合(遮蔽度)」を正確に評価するモジュールを開発した。 遮蔽による人違いと追跡のガタつきを解消する新技術(OAO/BAM)の導入:隠れている人のマッチングスコアを調整して 誤認を防ぐ技術(OAO)と、隠れている間の不正確な検出を無視して動きを安定させる技術(BAM)により、追跡の堅牢性 を大幅に高めた。 既存手法へ容易に後付け可能な「プラグアンドプレイ」性能の実証:追加学習なしで、ByteTrackやOC-SORTといった既存 のあらゆるトラッカーに組み込むことができ、それら全ての性能を一貫して向上させる高い汎用性を証明しました。 2

3.

目次 1. Multi-Object Tracking (MOT) とは? 2. 既存手法の課題:オクルージョン(隠蔽)問題 3. 提案手法:OA-SORTの全体像 4. 提案モジュールの詳細 5. 実験結果と評価 6. 限界点とまとめ 3

4.

目次 1. Multi-Object Tracking (MOT) とは? 2. 既存手法の課題:オクルージョン(隠蔽)問題 3. 提案手法:OA-SORTの全体像 4. 提案モジュールの詳細 5. 実験結果と評価 6. 限界点とまとめ 4

5.

Multi-Object Tracking(MOT)とは • 動画内の複数の物体を同時に追跡する技術。各物体に固有のIDを割り当て、フレームを跨いで一貫した軌跡 (Trajectory)を抽出することが目的。 【MOT用語】 • バウンディングボックス (BB / Bounding Box / 検出ボックス) 画像認識AIが物体を検出した際に、その物体 を囲む四角い枠のこと • IoU(Intersection over Union) 2つのバウンディングボックスが「どれくらい 重なっているか」を0から1の間で表す指標 Area of Overlap IoU = Area of Union • データ関連付け (Data Association) 「前のフレームのオブジェクト(軌跡)」と 「現在のフレームの検出結果」を誰と誰にする か、最適にペアリングするプロセスのこと Fig1 : https://github.com/mikel-brostrom/yolov8_tracking 5

6.

MOTの応用例 • 現実世界における複雑な動的シーンの理解と予測を支えるコア技術であり、自動運転からスポーツ解析まで幅 広く活用されている。 自動運転・モビリティ 映像監視・スマートシティ 歩行者、自転車、他車両の軌跡予測と衝突回避 スポーツ・パフォーマンス解析 人流の分析、特定人物の追跡、正確な群衆カウント 選手のフォーメーション分析、非線形な姿勢変化の追跡 【共通の敵】 オクルージョン 6

7.

目次 1. Multi-Object Tracking (MOT) とは? 2. 既存手法の課題:オクルージョン(隠蔽)問題 3. 提案手法:OA-SORTの全体像 4. 提案モジュールの詳細 5. 実験結果と評価 6. 限界点とまとめ 7

8.

最大の課題「オクルージョン(遮蔽)」 • 物体同士が重なり合うことで、IDの消失や入れ替わりが発生する 【人間の目】 【AIの目】 前後がわからない オクルージョンにより、生じる問題 ① 検出精度の低下 ② 予測モデルの破綻 ③ コストの混乱やIDスイッチ 対処法 本手法の提案 見た目の特徴(Re-ID)、移動方向、検出の 信頼度スコアなどを追加のヒントとして用 いる 「オクルージョンそのものを観察・数値化する」 重なっている時は見た目の特徴自体が 背後の人と混ざってしまい、信頼性が低下する 8

9.

目次 1. Multi-Object Tracking (MOT) とは? 2. 既存手法の課題:オクルージョン(隠蔽)問題 3. 提案手法:OA-SORTの全体像 4. 提案モジュールの詳細 5. 実験結果と評価 6. 限界点とまとめ 9

10.

OA-SORTの全体パイプライン • OA-SORTは、従来の追跡プロセスに遮蔽認識モジュール(OAM)を統合したトレーニングフリーなフレーム ワーク。関連付け前のスコア補正(OAO)と更新時の運動最適化(BAM)の二段構えにより、遮蔽下でのアイ デンティティ維持と位置推定の安定化を同時に実現する。 Step1 Step2 Step3 Step4 Step6 Step5 10

11.

目次 1. Multi-Object Tracking (MOT) とは? 2. 既存手法の課題:オクルージョン(隠蔽)問題 3. 提案手法:OA-SORTの全体像 4. 提案モジュールの詳細 5. 実験結果と評価 6. 限界点とまとめ 11

12.

OAM:Depth Ordering(深度順序付け) • ピクセルを座標空間ととらえ、オブジェクトの前後関係を捉える Baselineとの距離が短い物体を前、 Baselineとの距離が長い物体を後ろ として前後関係を捉える 12

13.

遮蔽係数(Occlusion Coefficient) • オブジェクトのバウンディングボックスがどの程度、遮蔽されているのかを数値化する 𝑫𝒊 ① 𝑖 の𝑗 による遮蔽係数(遮蔽割合) 𝑫j 𝑫𝒊 𝑫h ② 𝑖 の全オブジェクトによる遮蔽係数(遮蔽割合) 𝑫j 13

14.

OAM:Gaussian Mapによる精緻化 • GM(Gaussian Map)を用いて、人間の体がどの程度遮蔽されているかを算出する 遮蔽領域内の平均重要度 遮蔽係数 14

15.

OAO:位置アソシエーションの補正 • 遮蔽係数とIoUを用いて、確信度に差を付けながら、関連付けを行う。 ෡ X𝑐 を算出。 本研究では、KF(カルマンフィルタ)の推定値 X に対してOAMを適応し、遮蔽係数 O ෡ X𝑐 を組み合わせることで、最終的な関連付けスコア S は以下のように定義される。 𝐶𝐼𝑜𝑈 とO ハイパラ (今回:0.1~0.2) 露出割合 実測BBと予測BBが重なる割合 ⇒ 従来の位置(IoU)に露出割合を加えることで、位置(IoU)だけでは区別できないほど近づいている2つの物体 のIDスイッチを抑制することができる 15

16.

BAM:予測の不安定さへの対処 • BAMは遮蔽状況に応じて実測値の重みを動的に調整し、カルマンフィルタの推定不安定性を抑制する手法 実際に検出したBBの尤もらしさを計算する 【従来】 実測BB 露出率 予測BBと実測BBが重なる割合 BAMを基に、実測BBを最適化する 予測BB 遮蔽BB ⇒ 誤った情報が伝播する 事後状態推定値 𝑋𝑡|𝑡 が定まる 16

17.

関連付けアプローチ OA-SORTはHybrid-SORTをベースラインとして採用しており、データ関連付けは3つの段階で構成される。 (1) 第1段階の関連付け:高スコア(0.6以上)の検出結果を軌跡にリンク (2) 第2段階:低スコアの検出結果を処理 (3) 第3段階:最新の観測値を使用して、消失した軌跡を再接続 OAM、OAO、およびBAMの統合は、主に以下の4つのステップに従う 1. 軌跡に対するKFの推定後、OAMがその推定値を利用して遮蔽係数を計算 2. 関連付けのプロセス中に、OAOが計算された遮蔽係数を空間的一貫性指標に統合 3. 低スコア検出にて関連付けられた軌跡に対し、BAMが軌跡の最新の観測値の遮蔽係数を使用してKFの運動 パラメータを最適化 4. 現在のフレームが終了する前に、OAMが軌跡の最新の観測値を利用して、後続のBAMのための遮蔽係数を 計算 17

18.

目次 1. Multi-Object Tracking (MOT) とは? 2. 既存手法の課題:オクルージョン(隠蔽)問題 3. 提案手法:OA-SORTの全体像 4. 提案モジュールの詳細 5. 実験結果と評価 6. 限界点とまとめ 18

19.

主要評価指標 • 本研究では主に、「MOTA」「IDF1」 「HOTA」 「AssA」を評価する。 ① MOTA:古くから使われる標準的な総合評価指標 FN:検出漏れ (False Negative) FP:誤検出 (False Positive) IDs:IDスイッチ (ID Switch) GT:正解の物体数 (Ground Truth) ② IDF1:軌跡全体で「どれだけ一貫して同じIDを維 持できたか」を測る指標 ③ HOTA:現在の事実上の最高・標準指標。 ④ AssA :関連付けの正確さを測る指標 引用:https://qiita.com/miiuchu/items/a08f04531774bce11553 19

20.

評価データセット:DanceTrack • 複雑な非線形運動と頻繁な遮蔽を伴うDanceTrackにおいて、OA-SORTはベースラインを上回るHOTA 63.1%を達 成し、関連付け精度(AssA)の大幅な向上により、遮蔽下でのコスト混同を効果的に解消できることを実証。 DanceTrackの特徴: 1. 2. 3. 激しいオクルージョン(遮蔽):ダンサー同士が頻繁に、かつ複雑に交差する 非線形な動き:急な停止、回転、跳躍など、カルマンフィルタのような標準的な線形予測が 通用しにくい「複雑な動き」が含まれる 。 均一な外観:全員が同じようなユニフォームを着ているため、見た目の特徴量だけに頼ると 容易にIDスイッチが発生する 。 性能向上 : Hybrid-SORT比で HOTA +0.9%、AssA +1.1%、IDF1 +1.2% 汎用性の証明 : 他のトラッカー(ByteTrack, OC-SORT, SparseTrack, PD-SORT) への統合により、平均で HOTA +2.08%、IDF1 +3.05% の改善 https://dancetrack.github.io/ 20

21.

評価データセット:SportsMOT • 可変速運動と激しいカメラワークが特徴のSportsMOTにおいて、OA-SORTはベースラインを上回るHOTA 73.4%を 達成。複雑なスポーツシーンにおいても、オブジェクト間の相対的な前後関係を正確に捉えることで、追跡の堅牢性 を大幅に向上させた。 SportsMOTの特徴: 1. 2. 可変速な動き(Variable-speed motion): 選手が急加速・急停止を繰り返す 。 カメラ視点の変化(Dynamic camera movement): ズームやパンが頻繁に発 生し、画面内の物体の相対位置が激しく変わる 。 性能向上: Hybrid-SORT比で HOTA +0.4%、AssA +0.7%、IDF1 +0.8% 高精度検出器使用時: HOTA 75.2%、AssA 63.8%、IDF1 75.8% を達成 特記事項: カメラ運動補正(CMC)なしで高い堅牢性を維持 https://github.com/MCG-NJU/SportsMOT 21

22.

評価データセット:MOT17 • 一般的かつ典型的な線形運動シーンであるMOT17においても、OA-SORTはベースラインを上回るHOTA 64.2%を記録。 歩行者の街路シーン特有の頻繁な遮蔽に対しても、遮蔽認識フレームワークが極めて高い汎用性と有効性を持つことを実証 MOT17の特徴: 1. 2. 線形に近い動き: DanceTrackとは異なり、歩行者は比較的予測しやすい直線 的な動きをする 。 頻繁かつ長時間の遮蔽: 街路樹、看板、あるいは他の歩行者によって、対象 が長時間隠れるシーンが多い 。 性能向上:Hybrid-SORT比で HOTA +0.6%、IDF1 +0.7% ReID手法超え:Hybrid-SORT-REIDに対して AssA +0.5%、IDF1 +0.3% の優位 汎用性の証明:BOT-SORT (w/o ReID) への統合により HOTA +0.5% の改善 https://hyper.ai/ja/datasets/15733 22

23.

Ablation Study • リアルタイム性能を維持しつつ、既存の多様な追跡アルゴリズムに対して一貫した改善をもたらす、高い汎用 性と実用性が確認された 構成要素のアブレーション OAO、BAM、およびGMの結果を右 図に示す。これらの結果は、遮蔽認識を導入することで、追跡 の関連付けと精度が大幅に向上することを示している。 OAOの統合:トラッカーの関連付けが強化され、HOTA が +0.5 向上した。 BAMによるKF推定の最適化 HOTAは +1.1 と大幅に改 善された。 推論速度への影響もわずか(平均+3.81ms)。 GMの統合:HOTAが +2.1 向上した。GMによって1フ レームあたりの平均追跡時間は24.56msに増加するが、 システムは依然としてリアルタイム追跡の要件を満たし ている。 23

24.

Ablation Study • リアルタイム性能を維持しつつ、既存の多様な追跡アルゴリズムに対して一貫した改善をもたらす、高い汎用 性と実用性が確認された GM と 𝝉 式(8)で定義される 𝜏を大きくすると、遮蔽による不正確な検出に 起因する位置コストの混同は緩和されるが、空間的一貫性の表現 を損なう可能性もある。 全体として、DanceTrackにおいてOAO、BAM、およびGMを備 えたトラッカーを使用する場合、𝜏 = 0.1 から値を大きくするこ とで恩恵が得られる。しかし、ある値を超えて 𝜏 を大きくすると、 空間的一貫性が損なわれるため性能が低下する。また、GMは 𝜏 の値に関わらず、OAOとBAMの両方の性能を効果的に向上させる。 𝜏∈[0.1, 0.5] の影響を分析した結果 24

25.

目次 1. Multi-Object Tracking (MOT) とは? 2. 既存手法の課題:オクルージョン(隠蔽)問題 3. 提案手法:OA-SORTの全体像 4. 提案モジュールの詳細 5. 実験結果と評価 6. 限界点とまとめ 25

26.

本手法の限界 1. オブジェクトの下部が遮られている場合や、オブジェクトが空中にいる場合(例:ジャンプ中) は、ベースラインと比較して関連付け性能が低下 図1に示すように、シーケンス #0026 がその代表的な例。 このケースでは、バウンディングボックスの下端に基づく 手法が奥行き関係を正確に捉えるのに苦戦し、その結果、 閉塞認識フレームワークの性能に影響を及ぼしている。 2. 長期的な遮蔽に対して不安定さが残る 異なる遮蔽度(occlusion severity)におけるDanceTrack検証セットでの、ベースラ イン(Hybrid-SORT)に対するOA-SORTの性能向上。横軸はビデオシーケンス番号を 示す。 26

27.

結論とまとめ 1. MOTの最大の壁への挑戦 • オクルージョンが引き起こす「コストの混乱」と「IDスイッチ」という根本課題に正面から取 り組んだ。 2. 提案手法のコアアイデア(OA-SORT) • これまで考慮されてこなかった「バウンディングボックスの遮蔽状態」を明示的にモデル化 (OAM) • 位置アソシエーション(OAO)とカルマンフィルタの更新(BAM)に統合し、軌跡を安定化。 3. 最大の実用性:Plug-and-Play & Training-free • 完全学習不要であり、既存の多様なトラッカーに組み込むだけで精度(HOTA/IDF1)を底上 げできる強力な汎用性を実証。 27