---
title: APOLLO_v8_Physical_AI_report_tech
tags: 
author: [Rihito Shibayama](https://docswell.com/user/shibayamalicht)
site: [Docswell](https://www.docswell.com/)
thumbnail: https://bcdn.docswell.com/page/L71YYZGKJG.jpg?width=480
description: APOLLO_v8のデモ（フィジカルAIの技術面を切り口としたレポート）です。
published: May 02, 26
canonical: https://docswell.com/s/shibayamalicht/Z7NEG6-2026-05-02-165600
---
# Page. 1

![Page Image](https://bcdn.docswell.com/page/L71YYZGKJG.jpg)

フィジカル AI 技術動向分析
11,763 件の特許母集団から読み解く技術スタックと注力領域 — 別冊
APOLLO
Advanced Patent &amp; Overall Landscape-analytics Logic Orbiter
2026 年 5 月


# Page. 2

![Page Image](https://bcdn.docswell.com/page/G7WGG9KPE2.jpg)

APOLLO
2
目次
本分析の前提 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ⁠3
別冊の位置づけ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ⁠3
エグゼクティブサマリー . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ⁠4
第 1 章 フィジカル AI 技術スタックの全景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ⁠5
1.1 5 層モデルでの技術スタック整理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ⁠5
第 2 章 急成長技術領域 — 何に着目しているのか . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ⁠6
2.1 Vision-Language-Action（VLA）モデル . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ⁠6
2.2 World Foundation Models（世界モデル） . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ⁠7
2.3 Diffusion Policy（拡散モデルベース行動方策） . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ⁠9
2.4 模倣学習・強化学習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ⁠10
2.5 マルチモーダル × 触覚 × VLA の融合（Tactile Foundation Models） . . . . . . . . . . . . . . . . . . . ⁠12
2.6 身体化 AI（Embodied AI） . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ⁠13
2.7 多指ハンド・器用な操作（Dexterous Manipulation） . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ⁠15
2.8 SLAM・自己位置推定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ⁠17
2.9 シミュレーション・Sim2Real . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ⁠18
2.10 エッジ AI / On-Device VLA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ⁠19
2.11 説明可能 AI（XAI） . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ⁠21
第 3 章 技術系譜と時系列分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ⁠23
3.1 5 世代モデルでの技術発展史 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ⁠23
3.2 各世代の中核問題と解法の進化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ⁠23
3.3 主要技術マイルストーン年表 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ⁠24
3.4 技術系譜マップ — 何が何から派生したか . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ⁠25
3.5 各技術領域の時系列ピーク予測 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ⁠26
3.6 学術-特許の時間ラグ分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ⁠27
3.7 技術系譜から導出される投資タイミング . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ⁠27
第 4 章 技術アプローチの企業横断比較 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ⁠29
4.1 主要企業の技術アプローチ・マトリクス . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ⁠29
4.2 戦略類型との対応 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ⁠29
第 5 章 技術的未解決問題と戦略提言 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ⁠30
5.1 5 つの未解決問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ⁠30
5.2 技術投資の戦略提言 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ⁠30
5.3 推奨アクション . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ⁠31
結論 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ⁠32


# Page. 3

![Page Image](https://bcdn.docswell.com/page/4JZLL9Z6E3.jpg)

APOLLO
3
本分析の前提
本分析の対象範囲: 本別冊は、本母集団（Patbase から抽出された 11,763 件のフィジカル AI 特許群、
2006-2026 年）に含まれる技術キーワード別の出願動向を分析するものである。技術スタック層別と急成長
技術領域別の二軸で構成し、
「何に着目して開発しているか」を具体的な特許タイトルレベルで読み解く。記載
される件数・シェアは本母集団内の観察値であり、業界全体の傾向を直接示すものではない。
別冊の位置づけ
本別冊は、本編「フィジカル AI 特許動向分析 2026」および別冊「主要企業開発動向分析」の補助資
料として、技術面に焦点を絞った再構成版である。本編がモジュール軸、企業別冊がプレイヤー軸なの
に対し、本別冊は技術軸で再編成し、各技術領域における具体的な特許の中身（どのような問題を解こ
うとし、どのような手法を使っているか）を提示する。


# Page. 4

![Page Image](https://bcdn.docswell.com/page/YE6WWKZLEV.jpg)

APOLLO
4
エグゼクティブサマリー
Executive Summary
本分析の視座（生成 AI ブーム以降のフィジカル AI の変容）を技術面で読み解くと、本母集団にお
ける技術発展は明確に 5 つの主要潮流に整理できる。
• Vision-Language-Action（VLA）モデルの急速な汎用化: 49 件の VLA 関連特許が出願
され、Single-Model 設計（RT-2、OpenVLA、π0）と Dual-System 設計（Helix、GR00T
N1）の 2 つのアーキテクチャ系統に分化1。
• World Foundation Models の登場: 世界モデル関連 18 件。NVIDIA Cosmos Reason
2 / Predict 2.5 / Transfer 2.5 が 2026 年初頭にリリースされ、合成データ生成と物理推論
を統合2。
• Diffusion Policy の進化: 拡散モデル関連 63 件。SeedPolicy が RoboTwin 2.0 ベンチ
マークで Diffusion Policy を 36-169% 上回る性能を達成3、長期動作タスクへの拡張が進む。
• マルチモーダル × 触覚 × VLA の融合: マルチモーダル融合 1,480 件と触覚センサ 96 件が
並走し、Visual-Tactile-Language-Action（VTLA）モデルが新たな潮流として登場。Carnegie
Mellon Sparsh は 460 以上のセンサデータで訓練4。
• 身体化（Embodied）AI の特許化過渡期: 身体化 AI 関連 10 件が 2025-2026 年に集中出
願。学術概念が特許に翻訳される過渡期にある。
本母集団における技術開発の中心問題は、(1) 動的環境への適応、(2) リアルタイム性とモデル精
度のトレードオフ、(3) Sim2Real ギャップの解消、(4) マルチモーダル統合、(5) 説明可能性と
安全性検証 の 5 課題に集約される。
1Wikipedia: Vision-language-action model (https://en.wikipedia.org/wiki/Vision-language-action_model),
取得日: 2026-05-02
2NVIDIA Cosmos: World Foundation Models Powering Physical AI (https://www.nvidia.com/en-us/ai/
cosmos/), 取得日: 2026-05-02
3SeedPolicy: Horizon Scaling via Self-Evolving Diffusion Policy (https://arxiv.org/abs/2603.05117), 取得
日: 2026-05-02
4Tactile Foundation Models: Giving Robots the Sense of Touch (https://robocloud-dashboard.vercel.app/
learn/blog/tactile-foundation-models), 取得日: 2026-05-02


# Page. 5

![Page Image](https://bcdn.docswell.com/page/GE5MMPWME4.jpg)

APOLLO
5
第 1 章 フィジカル AI 技術スタックの全景
1.1 5 層モデルでの技術スタック整理
本母集団のフィジカル AI 特許群を技術スタック視点で整理すると、以下 5 層に分類される。各層に対
応する出願規模と代表的な技術キーワードを示す。
層
機能
母集団内規模
代表的技術キーワード
L1: センシング層
視覚・力覚・音声・
触覚 96 件 /
LiDAR、カメラ、超音波、熱画像、触覚、力覚、
LiDAR 等の物理世界
SLAM
慣性センサ
の計測
件
センサデータから物
マルチモーダ
画像物体追跡、3D 再構成、SLAM、セマンティッ
体・空間・状況を理解
ル融合 1,480
ク理解、マルチモーダル融合
L2: 認識・知覚層
130
件
L3: 推論・計画層
認識から行動方針への
VLA 49 件 /
VLA、VLM、LLM、世界モデル、軌道予測、タ
変換
世界モデル
スクプランニング
18 件 / 基盤
モ デ ル 213
件
L4: 行動・制御層
モータ・アクチュエー
多指ハンド
多指ハンド、二足歩行、軌道制御、力制御、衝突
タの精密制御
58 件 / バイ
回避
オニック歩行
138 件
L5: 学習・適応層
データから方策を獲
強化学習 152
模倣学習、強化学習、Diffusion Policy、知識蒸
得・更新
件 / 模倣学習
留、Sim2Real
62 件 / 拡散
63 件
本層構造の特徴は、生成 AI ブーム（2022 年以降）を境に、L3 推論・計画層と L5 学習・適応層が爆
発的に拡大している点である。これは「LLM/VLM を物理空間の知能として再利用する」という設計思
想が産業全体に浸透した結果である。


# Page. 6

![Page Image](https://bcdn.docswell.com/page/972996QRJR.jpg)

APOLLO
6
第 2 章 急成長技術領域 — 何に着目しているのか
2.1 Vision-Language-Action（VLA）モデル
これは何か
Vision-Language-Action（VLA）モデルは、ロボットが「見る」
「言葉を理解する」
「行動する」の 3 つ
を 1 つのニューラルネットワークで一気通貫に処理する技術である。たとえば、人間が「赤いマグカッ
プを取って」と話しかけると、カメラ映像（Vision）と音声指示（Language）を同時に解釈し、マグ
カップへ手を伸ばすモータ指令（Action）を生成する。従来は「物体認識する AI」
「自然言語を理解す
る AI」
「動作を計画する AI」がそれぞれ別個に設計されていたが、VLA はこれらを 1 つの大規模モデ
ルに統合した点が革新的である。本母集団では VLA 関連特許は 49 件と件数こそ中規模だが、2024
年以降に集中して出願されており、最も急成長中の技術領域の一つ。
VLA が登場する以前のロボットは、技術者が事前にプログラミングした手順に厳密に従って動くため、
想定外の状況（マグカップが別の位置にある、カップが透明で見えにくい、人間の指示が曖昧）に対応
できなかった。VLA は ChatGPT のような大規模言語モデルがインターネットで蓄積した「世界の常
識」をロボット制御に転用することで、未経験のタスクでも文脈を推測して柔軟に対応できる可能性を
開いた。これは「プログラム駆動」から「常識駆動」への根本的な設計転換であり、生成 AI ブーム以
降のフィジカル AI が爆発的に拡大した最大の要因である。
どう機能するか
VLA モデルの基本構造は次の 3 段階で動作する。第一段階は 視覚エンコーダ で、カメラ画像を意味
のある特徴ベクトル（数値の配列）に変換する。第二段階は 言語モデル本体（VLM 部分） で、視覚特
徴と人間の言語指示を統合し、状況の理解と行動計画を行う。第三段階は アクションデコーダ で、計
画された行動を実際のモータ指令や軌道の数値列に変換する。これら 3 段階を 1 つの大規模ニューラ
ルネットワークで繋いだのが VLA である。
学術側では、この 3 段階の繋ぎ方で 2 つの主要なアーキテクチャ（設計流派）に分かれている。SingleModel 設計（RT-2、OpenVLA、π0 などが採用）は、視覚・言語・行動を 1 回のニューラルネッ
トワーク順伝播で統合し、設計がシンプルでレイテンシ（応答遅延）が小さい利点がある。一方 DualSystem 設計（NVIDIA Helix、GR00T N1 などが採用）は、人間の脳が「考える脳（システム 2）」と「反
射する脳（システム 1）」を持つように、認識・推論を低速で実行する大型モデルと、リアルタイム行動を
高速で実行する小型モデルに分離する5。後者の方が複雑だがリアルタイム性能が優れる。GR00T N1
は 2025 年 3 月に NVIDIA が公開した 2B（20 億）パラメータの基盤モデルで、NVIDIA Omniverse
と Cosmos の合成データに加えて、実機ロボットでの実測データで訓練されている。
5Vision Language Action Models (VLA) &amp; Policies for Robots (https://learnopencv.com/vision-languageaction-models-lerobot-policy/), 取得日: 2026-05-02


# Page. 7

![Page Image](https://bcdn.docswell.com/page/DJY449W57M.jpg)

APOLLO
7
何ができるか
VLA モデルが可能にする代表的なタスクは、(1) 自然言語で指示された未経験タスクの実行（
「冷蔵庫
からリンゴを取って洗ってから皿に載せて」のような複合指示）、(2) 未知環境への適応（訓練時に見た
ことのない部屋でも家具を理解して動く）、(3) マルチタスクの 1 モデルでの実行（家事・組立・搬送・
対話を 1 つのロボットがこなす）である。WholeBodyVLA（ICLR 2026 で発表された最新研究）は、
頭・腕・脚・指の全身連動制御を 1 つの VLA で扱う統合フレームワークで、AgiBot X2 ベンチマー
クで GR00T を 21.3% 上回る性能を示した。
本母集団における VLA 特許のミクロな着眼点:
▶ 代表特許
• CN202610121539「VLA ベースの組み込みロボット SLAM 方式」
（南京航空航天大学、2026
年）— VLA × SLAM の統合: 視覚言語モデルが地図を理解しながら自己位置推定する設計。
• CN202610114036「非同期協調アーキテクチャと目標制約意思決定に基づく無人航空機向け視
覚言語ナビゲーション」（南京航空航天大学、2026 年）— Dual-System 系の UAV 適用: 推論
と行動を非同期協調で動作させる。
• CN202610143385「マルチモーダル記憶地図に基づく屋外無人航空機向け視覚言語ナビゲー
ション」（中国石油大学、2026 年）— 記憶地図と VLN の融合: 大規模屋外環境への対応。
• CN202610062722「視覚言語モデルに基づくロボットアームの制御方法、装置、機器、および
媒体」（平安科技、2026 年）— VLM のロボットアーム適用: VLA の前段階として VLM を直接行
動制御に転用。
• CN202511044603「視覚言語大型モデルに基づく再構成可能なロボットの自律的接合方法」
（山
东大学、2025 年）— 再構成可能ロボットへの VLA 適用: 形態を変えるロボットへの言語指示。
技術的な着眼点: 本母集団では VLA は「地図理解 + 自己位置 + 行動指令の同時処理」
「マルチタスク・
マルチデバイス（UAV / アーム / 移動ロボット）への汎用適用」「再構成可能性・形態変化への対応」
が中核課題として設定されている。WholeBodyVLA（ICLR 2026）は GR00T を 21.3% 上回ると
の報告があり、全身動作制御への展開が次世代の主戦場となる。
2.2 World Foundation Models（世界モデル）
これは何か
世界モデル（World Models）は、ロボットや AI が頭の中に持つ「もし〜したらどうなるか」をシミュ
レーションする内部モデルである。人間が「目の前のコップを押したらどう倒れるか」を頭の中で想像
できるように、AI が物理世界の挙動を予測できる仕組み。本母集団では 18 件と件数こそ少ないが、
2025 年以降に急増しており、NVIDIA Cosmos の登場（2026 年初頭）を契機に産業全体が注目し
ている。
なぜ世界モデルが重要か。VLA モデル（前節参照）はロボットに「次に何をすべきか」を直接答えさせる
仕組みだが、ロボットが慎重に試行錯誤すべき状況（高価な部品を扱う、人間と接触する可能性がある、
危険な環境）では「行動する前に結果を予測したい」というニーズが生まれる。世界モデルはこの予測
を内部で行うことで、危険な行動を実行前に回避し、最適な行動を選択する基盤となる。さらに、現実
世界でロボットを動かして学習させる代わりに、世界モデル内のシミュレーションで大量に学習させる
ことで、訓練データ収集のコストを劇的に下げる効果も期待されている。


# Page. 8

![Page Image](https://bcdn.docswell.com/page/V7NYYL94E8.jpg)

APOLLO
8
どう機能するか
NVIDIA Cosmos World Foundation Models は、世界モデルを Predict / Transfer / Reason
の 3 つの機能群で構成している6。
Cosmos Predict（シナリオ予測）は、現在の状況から「次に何が起こるか」を映像レベルで予測す
る。たとえば「ロボットが歩道を歩いていて、子供が突然飛び出してきたら」のような未来シーンを動
画として生成する。これにより、自動運転車やヒューマノイドが事故を未然に避ける学習に活用できる。
Cosmos Transfer（合成データ生成）は、限られた実機データから多様なバリエーション（昼夜・
天候・服装・人物の違い）を持つ合成データを大量生成する。これは Sim2Real（シミュレーションか
ら実機への転移）の品質を劇的に高める。Cosmos Reason（物理推論）は、物理法則（重力・摩擦・
接触）を踏まえた論理的推論を行う Vision-Language Model で、ロボットが「なぜこの行動が成功
した／失敗したか」を解釈できる。
GR00T N2（2026 年末予定）は DreamZero 研究をベースとした「World Action Model」アーキ
テクチャを採用し、世界モデルと VLA を融合することで、未知環境での新タスク成功率を従来 VLA
モデルの 2 倍以上に引き上げた7。Agility Robotics、Figure AI、Foretellix、Skild AI、Uber など
のフィジカル AI 主要プレイヤーが初期採用パートナーとして名を連ねており、世界モデルが業界標準
基盤となる勢いを示している。
何ができるか
世界モデルが可能にする代表的なタスクは、(1) 未知環境での試行錯誤の内部化（実機を動かす前に頭
の中で何度もシミュレーションし、最適行動を選択）、(2) 合成データ大量生成（実機データ収集の数百
倍のスピードで訓練データを準備）、(3) 安全性検証（実環境で危険な状況を世界モデル内で再現し、ロ
ボットの判断を検証）である。
本母集団における世界モデル特許のミクロな着眼点:
▶ 代表特許
• IN202641005306「自律型 AI エージェントのための因果世界モデル検証を用いたテスト時計
算」（NEURALVECTORS、2026 年）— 因果性に基づく世界モデルの検証: ハルシネーション防
止と推論信頼性の確保。
• CN202610142267「耐ノイズ性と拡張性を備えた世界モデルに基づくロボットアームの推論お
よび把持方法」（华侨大学、2026 年）— ノイズ耐性とスケーラビリティ: 実機ノイズ下での頑健性。
• CN202511671373「世界モデルを用いたハイブリッドエキスパートポリシー融合に基づく自律
走行制御」（东南大学、2025 年）— 世界モデル × MoE（Mixture of Experts）: 状況に応じ
た専門ポリシーの選択的呼び出し。
• CN202511840927「世界モデルアーキテクチャを統合した AI 搭載ロボット制御システム」
（ZHILAI EMBODIED INTELLI、2025 年）— Embodied AI 専門スタートアップの世界モデル
統合。
6NVIDIA Newsroom: Cosmos World Foundation Model Platform (https://nvidianews.nvidia.com/news/
nvidia-launches-cosmos-world-foundation-model-platform-to-accelerate-physical-ai-development), 取得日:
2026-05-02
7NVIDIA Newsroom: NVIDIA Releases New Physical AI Models (https://nvidianews.nvidia.com/
news/nvidia-releases-new-physical-ai-models-as-global-partners-unveil-next-generation-robots), 取 得 日 :
2026-05-02


# Page. 9

![Page Image](https://bcdn.docswell.com/page/YJ9PP42473.jpg)

APOLLO
9
• CN202511678877「世界モデルとサンプリング評価決定に基づくエンドツーエンド自動運転シ
ステム」（同济大学、2025 年）— 世界モデル + サンプリング評価: 安全性検証を組み込んだ自動
運転。
技術的な着眼点: 本母集団の世界モデル特許は「ノイズ耐性」「因果検証」「Mixture of Experts との
融合」
「サンプリング評価による安全性検証」を中核課題として扱う。これは NVIDIA Cosmos が提示
する基盤の上に、各社が独自の検証層・制御層を被せる戦略の表れ。
2.3 Diffusion Policy（拡散モデルベース行動方策）
これは何か
Diffusion Policy（拡散ポリシー）は、画像生成 AI で有名な拡散モデル（Stable Diffusion、DALLE などの基盤技術）の発想をロボットの行動制御に応用した手法である。本母集団では 63 件と中規模
だが、ロボット制御の最高性能（SOTA = State of the Art）を更新する技術として注目されている。
拡散モデルは元々、ノイズだらけの画像から徐々にノイズを取り除いて綺麗な画像を作る AI 技術であ
る。Diffusion Policy はこれをロボットの動作生成に応用したもので、最初はランダムなモータ指令の
列（=ノイズ）から始め、現在のカメラ映像と目的を条件として徐々に「この状況で取るべき正しい動
作の列」へとノイズを除去していく仕組み。なぜこれが革命的かというと、従来手法では「次の 1 ス
テップでどう動くか」しか予測できなかったのに対し、Diffusion Policy は「次の数十ステップ全体を
一気に生成」できる。この長期的な動作計画の能力が、複雑な操作タスク（家具組立、料理、整理整頓）
の実用化を後押ししている。
どう機能するか
Diffusion Policy の動作原理を直感的に説明すると、AI が「何度も書き直しながら最終的な動作の流
れを描き出す画家」のような働きをする。最初の下書き（ノイズ）から、現在の状況（視覚情報）と目
的（言語指示や目標状態）を頼りに、何回も塗り直し（=ノイズ除去ステップ）を経て、最終的に「滑
らかで連続的な動作の流れ」が完成する。これは従来の「1 ステップずつ最適行動を選ぶ」古典的強化
学習よりも、人間らしい動作の連続性を学習しやすい。
学術側では 2026 年に SeedPolicy（Self-Evolving Diffusion Policy、自己進化型拡散ポリシー）が大
きな話題となった。RoboTwin 2.0 ベンチマーク（50 種類の操作タスク）で標準的な Diffusion Policy
を 36.8% 上回り、ランダム化された困難な設定下では 169% の相対改善を達成8。さらに RDT（1.2B
= 12 億パラメータの大規模 VLA モデル）と比較して、1-2 桁少ないパラメータ数（つまり数千万パ
ラメータ程度）で競争力のある性能を示し、長期動作タスクの新たな SOTA を確立した。これは「巨
大モデル一辺倒」の流れに対し、「小型でも巧妙な設計で勝てる」可能性を示した重要な成果。
別の方向性として、Force-conditioned Visuomotor Diffusion Policy は、視覚情報だけでなく力
覚センサのデータも条件として使い、組立や挿入のような繊細な接触タスクを人間のデモンスト
レーションから学習する応用例9。これは VLA モデルが視覚と言語に偏っているのに対し、Diffusion
Policy が触覚・力覚との親和性が高い点を活かしたアプローチである。
8SeedPolicy arXiv: https://arxiv.org/abs/2603.05117, 取得日: 2026-05-02
9Learning force-conditioned visuomotor diffusion policy (https://www.sciencedirect.com/science/
article/pii/S221384632500207X), 取得日: 2026-05-02


# Page. 10

![Page Image](https://bcdn.docswell.com/page/GJ8DDQ5VJD.jpg)

APOLLO
10
何ができるか
Diffusion Policy が可能にするタスクは、(1) 連続的で滑らかな長期動作の生成（数十秒の組立シー
ケンス全体を一気に計画）、(2) 少量のデモンストレーションからの学習（人間が数十回見せただけでロ
ボットが模倣）、(3) 細かい接触作業（部品挿入、布の折りたたみ、卵の取り扱いなどの繊細なタスク）、
(4) エッジ実装（小型モデルでも高性能なため、ロボット本体に AI を内蔵可能）である。
本母集団における Diffusion Policy 特許のミクロな着眼点:
▶ 代表特許
• NVIDIA US20240681686P「効率的な模倣学習のためのオブジェクト中心型拡散ポリシー」
（2024 年）— オブジェクト中心型 + 拡散ポリシー: 物体ごとに条件付けしたポリシーで効率化。
• Google US20220426004P「拡散モデルを用いた軌道予測」（2022 年）— 拡散モデルの自動
運転軌道予測適用: Google DeepMind が早期に押さえた特許。
• CN202510230704「軽量拡散モデルに基づくロボットのオフライン学習方法」
（南开大学、2025
年）— 軽量化拡散モデル: エッジ推論を可能にするモデル圧縮。
• CN202510427504「二重拡散モデルに基づくロボットの連続模倣学習方法」（华中科技大学、
2025 年）— 二重拡散構造: 短期と長期のポリシーを分離。
• Amazon US20220087609「拡散モデルで条件付けされた可変オートエンコーダーを使用した
シナリオの生成」（2022 年）— 自動運転シミュレーション向けデータ生成: テストシナリオの自動
生成。
• CN202610114132「信念更新モデルとドリフト拡散モデルを統合した車両自動運転制御」（西
北工业大学、2026 年）— ドリフト拡散モデル: 不確実性下の意思決定。
技術的な着眼点: 本母集団の Diffusion Policy 特許は「軽量化（エッジ実装）」
「オブジェクト中心条件
付け」
「シナリオ生成への活用」
「信念更新との融合」を中核課題として扱う。学術側のアルゴリズム革
新（SeedPolicy）と並走しつつ、産業実装に向けた軽量化と適用範囲拡大が進んでいる。
2.4 模倣学習・強化学習
これは何か
ロボットに動作を覚えさせる方法は、大きく分けて 模倣学習（Imitation Learning）と 強化学習
（Reinforcement Learning）の 2 つがある。本母集団では模倣学習 62 件、強化学習 152 件（本母
集団の最大学習手法）と、両者ともフィジカル AI の中核アルゴリズムとして広範に活用されている。
模倣学習は、人間がロボットを直接操作して「お手本」を見せ、ロボットがその動作を真似する仕組み。
人間が VR ゴーグルとコントローラでロボットを操って料理の手順を 50 回見せると、AI がその動作
パターンを学んで自律的に同じ料理を作れるようになる。子供が親の動作を見て真似ることで多くを
学ぶのと同じ原理。利点は「正解の動作」が手本として与えられるため学習が速いこと、欠点は手本に
ない状況に弱いこと。
強化学習は、ロボットが何度も試行錯誤し、成功した行動には「報酬」
（プラス点）を、失敗した行動
には「罰」
（マイナス点）を与えることで、報酬を最大化する行動を自律的に学ぶ仕組み。ペットの犬に
「お手」を覚えさせるとき、正しくできたらおやつを与えるのと同じ原理。利点は手本がなくても新し
い行動を発見できること、欠点は学習に膨大な試行回数（数百万回〜数千万回）が必要なこと。


# Page. 11

![Page Image](https://bcdn.docswell.com/page/LJLMMXYRER.jpg)

APOLLO
11
どう機能するか
最新の研究潮流では、模倣学習と強化学習を組み合わせる、あるいは両者と大規模言語モデル（LLM）
を融合する「ハイブリッド学習」が主流になっている。模倣学習で「だいたい正しい初期動作」を獲得
し、強化学習で「最適な動作」へと洗練する 2 段階アプローチが典型例。さらに 2026 年以降は、LLM
が「報酬の良し悪し」や「次の行動候補」を提案する役割を担う構造が増えている。これは LLM が持
つ「世界の常識」を学習プロセスに注入することで、純粋な試行錯誤よりも遥かに効率的に学習できる
ためである。
何ができるか
▶ 代表特許
• CN202610201869「大規模言語モデルからのフィードバックに基づくロボット生成敵対的自己
模倣学習手法」（中国海洋大学、2026 年）— LLM × GAN × 模倣学習: LLM が報酬信号を提供す
る敵対的模倣学習。GAN（敵対的生成ネットワーク）は AI 同士を競争させて性能を高める仕組み。
• トヨタ自動車 US20240671517P「ロボットにタスクを実行させるための階層的模倣学習を実行
する方法」（2024 年）— 階層的模倣学習: 「料理を作る」のような大きなタスクを「材料を切る」
「炒める」「盛り付ける」のような小タスクに分解し、各レベルで別々に模倣学習する。
• CN202610126360「模倣から最適化まで、多自由度ロボットアーム操作のための強化学習手法」
（华南理工大学、2026 年）— 模倣→強化学習の連続学習: 模倣で初期化、強化学習で最適化という
2 段階構造の典型例。
• CN202610225370「四足歩行ロボットの動作制御のための周波数ベースの深層強化学習」（中
国科学技术大学、2026 年）— 周波数領域での強化学習: 動物の歩行が周期的なリズムを持つことに
着想を得た独自アプローチ。
• 本田技研工業 US20240778970「多指ロボットハンドの指歩行スキル学習のためのシステム」
（2024 年）— 指歩行（finger walking）スキル学習: 多指ハンドが物体表面を「歩く」ように指
を動かして物体を認識・把持する細粒度模倣学習。
本母集団における代表特許のミクロな着眼点:
▶ 代表特許
• CN202610201869「大規模言語モデルからのフィードバックに基づくロボット生成敵対的自己
模倣学習手法」（中国海洋大学、2026 年）— LLM × GAN × 模倣学習: LLM が報酬信号を提供
する敵対的模倣学習。
• トヨタ自動車 US20240671517P「ロボットにタスクを実行させるための階層的模倣学習を実行
する方法」（2024 年）— 階層的模倣学習: 高レベルタスクと低レベル動作を階層化。
• CN202610126360「模倣から最適化まで、多自由度ロボットアーム操作のための強化学習手法」
（华南理工大学、2026 年）— 模倣→強化学習の連続学習: 模倣で初期化、強化学習で最適化。
• CN202610225370「四足歩行ロボットの動作制御のための周波数ベースの深層強化学習」（中
国科学技术大学、2026 年）— 周波数領域での強化学習: バイオニック歩行への独自アプローチ。
• 本田技研工業 US20240778970「多指ロボットハンドの指歩行スキル学習のためのシステム」
（2024 年）— 指歩行（finger walking）スキル学習: 多指ハンドへの細粒度模倣学習。
技術的な着眼点: 本母集団の模倣学習・強化学習特許は「LLM がフィードバックを提供する」
「模倣→
強化学習の段階的学習」
「階層的タスク分解」
「特殊な周波数・幾何構造の活用」が中核課題。生成 AI と
の融合が一般化し、純粋な強化学習だけの設計は減少傾向にある。


# Page. 12

![Page Image](https://bcdn.docswell.com/page/47MYYLNP7W.jpg)

APOLLO
12
2.5 マルチモーダル × 触覚 × VLA の融合（Tactile Foundation
Models）
これは何か
人間は物を扱うとき、視覚（見る）
・触覚（触る）
・聴覚（音）
・力覚（重さ・抵抗）など複数の感覚を同
時に使う。たとえばコーヒーカップを持ち上げる際、目で位置を確認し、指で触れて温度を感じ、持ち
上げる重さで中身の量を推測する。マルチモーダル融合とは、こうした複数種類のセンサ情報を 1 つ
の AI で統合的に扱う技術である。本母集団においてマルチモーダル融合は 1,480 件と圧倒的最多の
キーワードで、フィジカル AI の中核技術。
その中でも近年最も注目されているのが触覚センサ（96 件）との統合。VLA モデル（前述）は視覚と
言語の融合に成功したが、ロボットが料理・組立・介護のような繊細な作業をするには「触れた感触」
が決定的に重要。たとえば卵をつかむときに「割らない強さ」、布を織りたたむときの「シワを伸ばす
感覚」、人間を介護するときの「優しく触れる力加減」は、視覚情報だけでは決して得られない。これ
が触覚 × VLA の研究を加速させている。
どう機能するか
学術側では 2025-2026 年に Tactile Foundation Models（触覚基盤モデル）と呼ばれる新カテゴリ
が台頭した。これは ChatGPT が膨大なテキストで訓練されたように、膨大な触覚データで訓練された
汎用 AI モデルである。UC Berkeley の「Touch and Go」データセットは 300 万件の接触イベント
を含み、Carnegie Mellon の Sparsh モデルは 60 以上の研究室にまたがる 460+ センサデータで
訓練されている10。これら基盤モデルがあると、新しい触覚センサを使うロボットも「触覚の常識」を
共有できるため、毎回ゼロから訓練する必要がなくなる。
具体的なセンサ技術の最前線として、SuperTac（2026 年）はマルチスペクトル画像 + 摩擦電気信
号 + IMU（慣性計測装置）+ 照明モジュールを 1 つに統合し、力・テクスチャ（質感）
・変形・温度・
材料特性・接近・滑り・姿勢・振動・色を同時に検出できる11。これは人間の指先の感覚を遥かに超え
る「超人触覚」である。さらに GenForce（2026 年初頭）は、異なる種類の触覚センサ間で力セン
シングの能力を転移可能にする初のフレームワーク。あるセンサで訓練した AI を別のセンサに適用で
きるため、産業全体での開発効率が大幅に向上する。
何ができるか
これらの動向を受け、本母集団では VLA に触覚を加えた VTLA（Vision-Tactile-Language-Action）
という 4 モーダル基盤モデルが新カテゴリとして提案されている。Tesla Optimus、Amazon
Sparrow、外科手術ロボットがいずれも触覚センシングを次世代の差別化軸として位置付けている12
ことが、この潮流の重要性を裏付ける。
▶ 代表特許
10Tactile Foundation Models (https://robocloud-dashboard.vercel.app/learn/blog/tactile-foundationmodels), 取得日: 2026-05-02
11arxiv: Tactile Robotics: An Outlook (https://arxiv.org/html/2508.11261v1), 取得日: 2026-05-02
12Tactile Robotics: An Outlook (https://arxiv.org/html/2508.11261v1), 取得日: 2026-05-02


# Page. 13

![Page Image](https://bcdn.docswell.com/page/P7R99KDYE9.jpg)

APOLLO
13
• CN202610064082「大規模視覚・触覚・言語・運動モデル、大規模視覚・触覚・言語・運動モデ
ルおよびロボットのトレーニング方法」（ZHEJIANG SHIYUE TECHNOL、2026 年）— VTLA:
Vision-Tactile-Language-Action モデル: VLA に触覚を加えた 4 モーダル基盤モデルの提案。
本母集団における VTLA 命名特許の代表例。
• CN202511304929「触覚強化と強化学習を組み合わせた長時間作業ロボット操作学習方法」
（华
东师范大学、2025 年）— 触覚 × 強化学習: 長期タスク（家具組立など数分〜数時間かかる作業）
への触覚情報の組み込み。
• CN202511535320「基本モデルと力覚フィードバックに基づく汎用的な器用な把持システム」
（中山大学、2025 年）— 基盤モデル × 力覚フィードバック: あらゆる物体を把持できる汎用化を目
指す設計。
• 本母集団のクラスタ 47（光・触覚センサー）には Ford などの伝統的素材技術と、上記の AI 統合
アプローチが共存している。
本母集団における VTLA / 触覚 + AI 特許のミクロな着眼点:
▶ 代表特許
• CN202610064082「大規模視覚・触覚・言語・運動モデル、大規模視覚・触覚・言語・運動モデ
ルおよびロボットのトレーニング方法」（ZHEJIANG SHIYUE TECHNOL、2026 年）— VTLA:
Vision-Tactile-Language-Action モデル: VLA に触覚を加えた 4 モーダル基盤モデルの提案。
• CN202511304929「触覚強化と強化学習を組み合わせた長時間作業ロボット操作学習方法」
（华
东师范大学、2025 年）— 触覚 × 強化学習: 長期タスクへの触覚情報の組み込み。
• CN202511535320「基本モデルと力覚フィードバックに基づく汎用的な器用な把持システム」
（中山大学、2025 年）— 基盤モデル × 力覚フィードバック: 把持の汎用化。
• 本母集団のクラスタ 47（光・触覚センサー） には Ford などの伝統的素材技術と、上記の AI 統合
アプローチが共存している。
技術的な着眼点: 本母集団のマルチモーダル × 触覚特許は「VTLA という新カテゴリの形成」「触覚
データへの基盤モデル適用」
「異種センサ間の転移学習」を中核課題とする。Tesla Optimus、Amazon
Sparrow、外科手術ロボットがいずれも触覚センシングを次世代の差別化軸として位置付けている13。
2.6 身体化 AI（Embodied AI）
これは何か
身体化 AI（Embodied AI、エンボディド AI）は、文字通り「身体を持った AI」のこと。ChatGPT の
ような AI はテキストの世界（情報空間）でのみ動作するが、身体化 AI は物理空間で実体を持って動
き、見て、触れて、行動する AI を指す。学術界では 2014 年以降に確立された概念だが、本母集団に
おける特許化は 10 件と新しく、2025-2026 年に集中して出願されている。これは「学術概念が特許
に翻訳される過渡期」を端的に示す。
身体化 AI が重要視される理由は、AI の「真の知能」を実現するには、物理世界との相互作用が不可欠
だという考え方にある。人間の知能は、生まれてから歩いたり物を掴んだり転んだりという身体経験を
通じて発達した。同様に、AI も物理世界で実際に行動し、その結果から学ぶことで、より深い理解が得
13Tactile Robotics: An Outlook (https://arxiv.org/html/2508.11261v1), 取得日: 2026-05-02


# Page. 14

![Page Image](https://bcdn.docswell.com/page/PJXQQL147X.jpg)

APOLLO
14
られる。テキスト学習だけの AI が「リンゴ」という言葉を知っていても、リンゴを実際に持ったとき
の重さ、噛んだときの食感、落としたときの転がり方を経験的に理解しているのは身体化 AI である。
どう機能するか
身体化 AI の基本構造は、(1) センシング（多様なセンサで環境を知覚）、(2) 内部表現の構築（世界モデ
ル + 自己モデル）、(3) 推論・計画（VLA + LLM ベース）
、(4) 行動の実行（多自由度のモータ制御）、(5)
結果からの学習（経験のフィードバック）という 5 段階のループで動作する。これまで紹介した VLA・
世界モデル・Diffusion Policy・触覚センサ・模倣学習などのすべての技術が、身体化 AI を実現する
ための要素技術として位置付けられる。
つまり身体化 AI は、これまでのフィジカル AI 技術群の統合的な概念枠組みであり、特定の技術とい
うよりも「AI が身体を持って世界と関わる」という設計思想を指す。本母集団での特許化が急増してい
るのは、この概念に基づく具体的な実装手法（マルチモーダル知覚 + LLM 推論 + 物理空間での意思
決定）が出願可能なレベルに成熟したためである。
何ができるか
▶ 代表特許
• CN202610170575「マルチモーダル知覚に基づく身体化ロボットのタスク処理方法およびロ
ボットシステム」（WOAN TECHNOLOGY SHENZHEN、2026 年）— 身体化 + マルチモーダル
知覚 + LLM 推論: 学術概念の特許化の先駆例。タイトルに「身体化（embodied）」を明示する数少
ない特許。
• CN202610117891「身体化されたインテリジェントエージェントの制御方法、モデル学習方法、
デバイスおよび記憶媒体」（ALIPAY HANGZHOU、2026 年）— Alipay（中国の決済企業）の身体
化 AI 参入: 異業種からの参入を示唆。決済企業がフィジカル AI に進出する背景には、店舗無人化・
配送ロボット・対話型サービスロボットへの戦略展開がある。
• CN202610041678「身体を持つ知能ロボットのタスクプランニング」
（山东师范大学、2026 年）
— 中国大学発の身体化研究。教育機関での研究成果。
• CN202512039186「身体化された知能ロボットにおけるマルチモーダル知覚および意思決定」
（CHINA SCIENCE AND TECHN、2025 年）— 中科院系の研究。
• CN202511692486「デジタルツインと身体化された知能を組み合わせたシミュレーションおよ
び意思決定システム」（北京航空航天大学、2025 年）— デジタルツイン × Embodied AI: 物理
空間と仮想空間（デジタルツイン）を行き来して学習する設計。これは世界モデルと身体化 AI の融
合の象徴的な特許である。
技術的な着眼点
本母集団の身体化 AI 特許は「マルチモーダル知覚 + 大規模モデル + 物理空間での意思決定」を統合
的に扱い、デジタルツインや異業種（決済・教育・製造）との融合が観察される。今後 2-3 年でこの
領域が独立クラスタとして拡大する蓋然性が高く、フィジカル AI 全体を統合する概念枠組みとして産
業全体に浸透する見込み。
本母集団における身体化 AI 特許のミクロな着眼点:
▶ 代表特許


# Page. 15

![Page Image](https://bcdn.docswell.com/page/3JK99L2PJD.jpg)

APOLLO
15
• CN202610170575「マルチモーダル知覚に基づく身体化ロボットのタスク処理方法およびロ
ボットシステム」（WOAN TECHNOLOGY SHENZHEN、2026 年）— 身体化 + マルチモーダル
知覚 + LLM 推論: 学術概念の特許化の先駆例。
• CN202610117891「身体化されたインテリジェントエージェントの制御方法、モデル学習方法」
（ALIPAY HANGZHOU、2026 年）— Alipay（決済企業）の身体化 AI 参入: 異業種からの参入を
示唆。
• CN202610041678「身体を持つ知能ロボットのタスクプランニング」
（山东师范大学、2026 年）
— 中国大学発の身体化研究。
• CN202512039186「身体化された知能ロボットにおけるマルチモーダル知覚および意思決定」
（CHINA SCIENCE AND TECHN、2025 年）— 中科院系の研究。
• CN202511692486「デジタルツインと身体化された知能を組み合わせたシミュレーションおよ
び意思決定システム」（北京航空航天大学、2025 年）— デジタルツイン × Embodied AI: シミュ
レーションとの融合。
技術的な着眼点: 本母集団の身体化 AI 特許は「マルチモーダル知覚 + 大規模モデル + 物理空間での意
思決定」を統合的に扱い、デジタルツインや異業種（決済・教育・製造）との融合が観察される。今後
2-3 年でこの領域が独立クラスタとして拡大する蓋然性が高い。
2.7 多指ハンド・器用な操作（Dexterous Manipulation）
これは何か
多指ハンド（Dexterous Hand、デクスタラスハンド）は、人間の手のように複数の指を独立に動かし
て物を操る機械の手のこと。本母集団では 58 件と中規模だが、ヒューマノイドの実用化に向けた
重要な技術領域。Dexterous は「器用な」という意味で、単純な「掴む・離す」のグリッパーとは異
なり、人間が箸を使ったり、ボタンを留めたり、楽器を演奏したりするような繊細な操作（dexterous
manipulation）を機械に行わせる技術全般を指す。
なぜ多指ハンドが重要か。ヒューマノイドロボットが家事・介護・組立・調理などの実用タスクをこな
すには、人間と同じように器用な手の動きが必要不可欠。たとえば洗濯物を畳む、靴ひもを結ぶ、コッ
プから液体を注ぐといったタスクは、シンプルなグリッパーでは絶対にできない。人間の手は約 27 個
の自由度（独立に動かせる関節の数）を持つが、現在のロボットハンドは 5〜20 程度。多自由度の制
御の難しさと、各指先の触覚センサの統合が中核課題である。
どう機能するか
多指ハンドの制御は、視覚（カメラで物体の形状・位置を把握）、触覚（指先のセンサで接触の強さ・滑
りを検出）、力覚（モータの抵抗から物体の重さ・硬さを推定）の 3 種類の情報を統合し、各指のモー
タへの指令を毎秒数百回〜数千回更新する精密制御を必要とする。従来は人間が手作業で「このタイプ
の物体にはこの掴み方」とプログラミングしていたが、近年は VLA や Diffusion Policy を使って、ロ
ボットが自律的に最適な掴み方を学習する方向へと進化している。
特に注目すべきは知識蒸留（Knowledge Distillation）の活用。これは「大きくて高性能だが遅い AI
モデル」の知能を「小さくて高速な AI モデル」に圧縮転送する技術で、多指ハンドのリアルタイム制


# Page. 16

![Page Image](https://bcdn.docswell.com/page/LE3WW344E5.jpg)

APOLLO
16
御に必須。本母集団でも浙江大学が「適応型双方向蒸留に基づく多機能器用ハンド操作方法」を出願し
ており、この方向性が技術潮流の一つとなっている。
本母集団における代表特許のミクロな着眼点
▶ 代表特許
• CN202610033714「視覚認識技術を用いたヒューマノイドロボットの器用な手の精密制御」
（FAREK SUZHOU、2026 年）— 視覚 × 多指ハンド: コンピュータビジョンによる精密把持。物
体の形状・位置・姿勢をカメラで捉え、それに応じた最適な指の配置を決定する。
• CN202610076660「器用な手のマルチモーダルセンシングおよび制御」（北京理工大学、2026
年）— マルチモーダル × 多指ハンド: 視覚 + 触覚 + 力覚の統合制御。これは前節で説明した VTLA
の多指ハンドへの応用である。
• CN202610110205「適応型双方向蒸留に基づく多機能器用ハンド操作方法」（浙江大学、2026
年）— 知識蒸留 × 多指ハンド: 大型 VLA から軽量モデルへの知識転送によるリアルタイム制御。
• CN202511624163「マルチモーダルパルスニューラルネットワークモデル構築方法および宇宙
マニピュレータ制御システム」（哈尔滨工业大学、2025 年）— Spiking NN（スパイキングニュー
ラルネット）× 宇宙マニピュレータ: 脳の神経細胞を模倣した低消費電力 NN の応用。宇宙ステー
ション等の電力制約下で重要。
技術的な着眼点
多指ハンドの中核課題は「視覚-触覚-力覚の統合」
「軽量モデルへの知識蒸留」
「Spiking NN 等の効率的
アーキテクチャ」
「宇宙・原子力等の極限環境への展開」。中国大学（北京理工・浙江・哈尔滨工业）が技術
を主導する典型的領域で、米国勢の参入が相対的に薄い。これはヒューマノイド販売で中国 Unitree・
Agibot が世界トップを占める構造と整合する。
本母集団における代表特許のミクロな着眼点:
▶ 代表特許
• CN202610033714「視覚認識技術を用いたヒューマノイドロボットの器用な手の精密制御」
（FAREK SUZHOU、2026 年）— 視覚 × 多指ハンド: コンピュータビジョンによる精密把持。
• CN202610076660「器用な手のマルチモーダルセンシングおよび制御」（北京理工大学、2026
年）— マルチモーダル × 多指ハンド: 視覚 + 触覚 + 力覚の統合制御。
• CN202610110205「適応型双方向蒸留に基づく多機能器用ハンド操作方法」（浙江大学、2026
年）— 知識蒸留 × 多指ハンド: 教師モデルから軽量モデルへの知識転送。
• CN202511624163「マルチモーダルパルスニューラルネットワークモデル構築方法および宇宙
マニピュレータ制御システム」（哈尔滨工业大学、2025 年）— Spiking NN × 宇宙マニピュレー
タ: 低消費電力 NN の応用。
技術的な着眼点: 多指ハンドの中核課題は「視覚-触覚-力覚の統合」「軽量モデルへの知識蒸留」
「Spiking NN 等の効率的アーキテクチャ」
「宇宙・原子力等の極限環境への展開」。中国大学が技術を
主導する典型的領域。


# Page. 17

![Page Image](https://bcdn.docswell.com/page/8EDKK4Q57G.jpg)

APOLLO
17
2.8 SLAM・自己位置推定
これは何か
SLAM（Simultaneous Localization and Mapping、スラム）は、ロボットが「自分はどこにいるか」
と「周囲はどうなっているか」を同時に把握する技術。直訳すると「同時位置特定と地図作成」で、2
つの問題を同時に解く点が肝要である。本母集団では 130 件と SLAM 関連の主要技術。
なぜ「同時に」解く必要があるかというと、ロボットが未知の場所を移動するとき、地図がなければ自分
の位置を正確に特定できず、自分の位置がわからなければ正確な地図を作れない、というニワトリと卵
の問題が発生するから。SLAM はこの 2 つを並行して推定し、ロボットが移動しながら地図を更新し、
地図を使って自己位置を補正するループを回すことで、未知環境でも自律的に動けるようにする。掃除
ロボット、自動運転車、配送ドローン、災害救助ロボットなど、屋内外で動く全てのロボットにとって
SLAM は不可欠な基礎技術である。
どう機能するか
伝統的な SLAM は、LiDAR（レーザー距離センサ）やステレオカメラで周囲の点群（3 次元座標の集
合）を取得し、確率論的フィルタ（カルマンフィルタやパーティクルフィルタ）で位置と地図を推定して
いた。しかし近年、SLAM に深層学習や VLA モデルを組み合わせるセマンティック SLAM や VLASLAM が新潮流として浮上している。
セマンティック SLAM は、地図に「ここはドア」
「ここは机」
「ここは人間」のような意味情報を付与
する技術。これにより、ロボットは「机の近くを通る時は気をつける」
「人間が近くにいる時は速度を
落とす」といった文脈に応じた行動が可能になる。VLA-SLAM はさらに進み、VLA モデルが地図全
体を「言語的に理解」し、
「玄関から 2 つ目の部屋にあるソファ」のような自然言語による位置指定に
対応する。
本母集団における代表特許のミクロな着眼点
▶ 代表特許
• CN202610121539「VLA ベースの組み込みロボット SLAM 方式」
（南京航空航天大学、2026
年）— VLA × SLAM: 言語理解と地図構築の融合。エッジ実装可能な軽量化も含む。
• CN202611370738「動的セマンティック SLAM 駆動型ロボットの全ライフサイクルナビゲー
ション」（SHANGHAI TONGJI、2025 年）— 動的セマンティック + 全ライフサイクル: 動く物体
（人・車・他のロボット）を含む地図の継続更新。
「全ライフサイクル」とはロボット導入から廃棄ま
で継続して地図を進化させる長期運用の設計思想。
• Aurora Innovation US20200107806P「非同期マルチビューカメラを用いた同時位置特定お
よびマッピング」（2020 年）— 自動運転トラック向け SLAM: 大型車両の死角をカバーするマル
チカメラ統合。
• CN202610012632「グラフニューラルネットワークを用いたマルチソース融合に基づく農薬散
布ロボットの位置特定」（烟台大学、2026 年）— GNN ベース SLAM: グラフニューラルネット
（点と辺で構造を表現する AI）を使った農業ロボット応用。
技術的な着眼点


# Page. 18

![Page Image](https://bcdn.docswell.com/page/V7PKKMLDJ8.jpg)

APOLLO
18
SLAM の中核課題は「セマンティック SLAM（意味付きの地図）」
「動的環境への対応」
「マルチセンサ
融合」
「特定応用への最適化（自動運転・農業・宇宙）」。VLA との統合は「LLM が地図を読み解く」新
パラダイムの起点であり、今後 2-3 年で SLAM の主流が VLA-SLAM へと置き換わる蓋然性が高い。
本母集団における代表特許のミクロな着眼点:
▶ 代表特許
• CN202610121539「VLA ベースの組み込みロボット SLAM 方式」
（南京航空航天大学、2026
年）— VLA × SLAM: 言語理解と地図構築の融合。
• CN202611370738「動的セマンティック SLAM 駆動型ロボットの全ライフサイクルナビゲー
ション」（SHANGHAI TONGJI、2025 年）— 動的セマンティック + 全ライフサイクル: 動く物体
を含む地図の継続更新。
• Aurora Innovation US20200107806P「非同期マルチビューカメラを用いた同時位置特定お
よびマッピング」（2020 年）— 自動運転トラック向け SLAM: 大型車両のマルチカメラ統合。
• CN202610012632「グラフニューラルネットワークを用いたマルチソース融合に基づく農薬散
布ロボットの位置特定」（烟台大学、2026 年）— GNN ベース SLAM: 農業ロボットへの応用。
技術的な着眼点: SLAM の中核課題は「セマンティック SLAM（意味付きの地図）」「動的環境への対
応」
「マルチセンサ融合」
「特定応用への最適化（自動運転・農業・宇宙）」。VLA との統合は「LLM が
地図を読み解く」新パラダイムの起点。
2.9 シミュレーション・Sim2Real
これは何か
Sim2Real（Simulation to Real、シム・トゥー・リアル）は、コンピュータ上のシミュレーション環
境で訓練した AI を、実際のロボット（実機）で動かせるようにする技術。本母集団では 155 件と多
く、フィジカル AI 開発のボトルネック解消に直結する重要領域。
なぜ Sim2Real が重要か。AI（特に強化学習や Diffusion Policy）の訓練には、ロボットが何百万回〜
何千万回も行動を試行する必要があるが、実機でこれを行うと、(1) 時間がかかりすぎる（1 試行に数
十秒、合計で数年単位）、(2) ロボットが摩耗・故障する、(3) 危険な行動を試させられない、というコ
ストが発生する。これに対し、コンピュータ上のシミュレーションなら 1 秒間に数万回の試行が可能
で、しかも危険な行動も自由に試せる。問題は、シミュレーションで完璧に動く AI を実機に移したと
きに動かなくなること（これを Reality Gap、現実の壁と呼ぶ）。Sim2Real はこの壁を越える技術全
般を指す。
どう機能するか
Reality Gap が発生する原因は、シミュレーションが現実世界の物理を完璧には再現できないこと（摩
擦・空気抵抗・センサノイズ・素材の柔らかさなど）。これを克服する代表的アプローチは、(1) Domain
Randomization（シミュレーション内で物理パラメータをランダム化し、AI を「あらゆる物理条件
で動ける」ように頑健化する）、(2) Domain Adaptation（シミュレーションと実機の差分を学習で
補正する）、(3) 合成データの高度化（実機データに近いシミュレーションデータを大量生成）、の 3 つ
である。


# Page. 19

![Page Image](https://bcdn.docswell.com/page/2JVVV9QGJQ.jpg)

APOLLO
19
産業側の最前線として、NVIDIA Isaac Sim と Isaac Lab がシミュレーション環境のデファクト標準
として広く採用されており、NVIDIA Cosmos Transfer 2.5 が合成データ生成を、Cosmos Predict
2.5 がシナリオ予測を担う形でフィジカル AI 開発エコシステムを形成している14。これにより、研究者
は数千万円のロボット実機を持たずとも、クラウド上で大規模な訓練を行えるようになりつつある。
本母集団における代表特許のミクロな着眼点
▶ 代表特許
• Amazon US20220710639「自動運転シミュレーションのための物体レーダーデータと背景
レーダーデータの統合」（2022 年）— レーダーデータ統合 + シミュレーション: 雨・霧・夜間な
ど視覚センサが弱い条件での自動運転検証に有効。
• CN202511772761「模倣学習と三次元シミュレーション教育システムに向けた、漸進的な関節
空間マスタースレーブマッピング」
（浙江工业大学、2025 年）— 模倣学習 × 教育用シミュレーショ
ン: 教師ロボットの動作を生徒ロボットに段階的にマッピングする。
• CN202610021362「マルチモーダルニューラルネットワークに基づく UAV シミュレーション
適応管理システム」（厦门海洋职业技术学院、2026 年）— UAV 向け Sim2Real: ドローン特有の
風の影響などを補正。
技術的な着眼点
Sim2Real の中核課題は「リアルなシミュレーション環境の構築」「シミュレーションデータと実機
データのドメイン適応」
「マルチモーダル統合シミュレーション」。NVIDIA Cosmos と Omniverse が
デファクトスタンダードを目指す中、各社は独自の補完技術（特定ドメイン向け物理モデル、独自合成
データ拡張）で差別化を図っている。
本母集団における代表特許のミクロな着眼点:
▶ 代表特許
• Amazon US20220710639「自動運転シミュレーションのための物体レーダーデータと背景
レーダーデータの統合」（2022 年）— レーダーデータ統合 + シミュレーション。
• CN202511772761「模倣学習と三次元シミュレーション教育システムに向けた、漸進的な関節
空間マスタースレーブマッピング」（浙江工业大学、2025 年）— 模倣学習 × 教育用シミュレー
ション。
• CN202610021362「マルチモーダルニューラルネットワークに基づく UAV シミュレーション
適応管理システム」（厦门海洋职业技术学院、2026 年）— UAV 向け Sim2Real。
技術的な着眼点: Sim2Real の中核課題は「リアルなシミュレーション環境の構築」
「シミュレーション
データと実機データのドメイン適応」「マルチモーダル統合シミュレーション」。NVIDIA Cosmos と
Omniverse がデファクトスタンダードを目指す中、各社は独自の補完技術で差別化を図っている。
2.10 エッジ AI / On-Device VLA
これは何か
14NVIDIA Cosmos World Foundation Models (https://developer.nvidia.com/blog/scale-synthetic-dataand-physical-ai-reasoning-with-nvidia-cosmos-world-foundation-models/), 取得日: 2026-05-02


# Page. 20

![Page Image](https://bcdn.docswell.com/page/5EGLLZNDJL.jpg)

APOLLO
20
エッジ AI（Edge AI）または On-Device AI は、AI の推論をクラウドサーバではなくロボット本体や
端末側（エッジ）で実行する技術。本母集団では 103 件で、フィジカル AI の実用化に向けた新フロ
ンティア。
なぜ AI を端末側で実行する必要があるか。クラウド側で AI を動かすと、(1) 通信遅延が発生する（ロ
ボットが「目の前の人を避けて」と判断するのに 0.5 秒かかると衝突する）、(2) 通信が途絶した時に
動かなくなる（地下・山中・災害現場・宇宙）、(3) プライバシーリスクがある（家庭内のカメラ映像を
全てクラウドに送るのは抵抗がある）、(4) 通信コスト・電力が膨大になる、という 4 つの問題が発生
する。これに対し、端末側で AI を実行すれば、ミリ秒単位の応答、通信途絶下でも動作、プライバシー
保護、低コストの全てが達成できる。
問題は、ChatGPT のような大規模 LLM や VLA モデルが数 GB〜数百 GB のメモリを必要とし、ロ
ボット本体に搭載できる小型 GPU では動かない点。これを克服するのがエッジ AI の中核技術であり、
(1) モデル量子化（数値の精度を下げて軽量化）、(2) 知識蒸留（大型モデルから小型モデルへ知識転送）、
(3) 軽量アーキテクチャ（軽量 Transformer や軽量 Diffusion Model の設計）、(4) 階層協調（クラ
ウドとエッジで役割分担）といった手法を組み合わせる。
どう機能するか
2025 年 6 月に Google が公開した Gemini Robotics On-Device は、On-Device VLA の代表的
な事例15。これは Gemini Robotics の軽量版で、ロボット本体で低レイテンシ・高信頼性で動作しな
がら、器用さも維持する設計。各社がこれに触発され、独自の On-Device VLA 競争を加速している。
技術的なポイントは、大型モデルとの「同等性能」をどう維持するかにある。SeedPolicy（前述）が
RDT（1.2B パラメータ）の 1-2 桁少ないパラメータで競争力を示したのも、エッジ実装可能性への重
要な示唆である。
本母集団における代表特許のミクロな着眼点
▶ 代表特許
• CN202610181399「航空機と地上機器の連携によるクラウド・エッジ・デバイスモデル推論のた
めの共同最適化手法」（東北大学、2026 年）— クラウド・エッジ・デバイス三層協調: 重い処理は
クラウド、応答性が必要な処理はエッジ、瞬時の判断はデバイス、と階層分担する設計。
• IN202641013542「残留注意機能を備えた軽量ビジョントランスフォーマーを用いた水中画像
強調」（MALLA REDDY ENGINEERING、2026 年）— 軽量 ViT: Vision Transformer をエッ
ジ実装可能なサイズに圧縮した設計。
• CN202510230704「軽量拡散モデルに基づくロボットのオフライン学習方法」
（南开大学、2025
年）— 軽量 Diffusion Policy: 拡散モデルをエッジで動かせるサイズに最適化。
• DE202620100850U「エッジ人工知能を用いた行動上の不満の定量的検出と感謝の適応的強化
のための AI ベースロボットデバイス」（CHAUDHARI、2026 年）— エッジ AI 感情ロボット: ク
ラウド非依存の対話ロボット。
技術的な着眼点
15Vision-language-action
model), 取得日: 2026-05-02
model:
Wikipedia
(https://en.wikipedia.org/wiki/Vision-language-action_


# Page. 21

![Page Image](https://bcdn.docswell.com/page/4JQYYLQX7P.jpg)

APOLLO
21
エッジ AI の中核課題は「クラウド・エッジ・端末の階層協調」
「Transformer・Diffusion Model の
軽量化」
「特定応用への最適化（水中・衛星・モバイル）」。Gemini Robotics On-Device の登場を契
機に、各社が独自のエッジ実装競争を加速しており、今後 2-3 年で「クラウド前提」から「エッジ優
先」への設計思想転換が進む見込み。
本母集団における代表特許のミクロな着眼点:
▶ 代表特許
• CN202610181399「航空機と地上機器の連携によるクラウド・エッジ・デバイスモデル推論のた
めの共同最適化手法」（東北大学、2026 年）— クラウド・エッジ・デバイス三層協調。
• IN202641013542「残留注意機能を備えた軽量ビジョントランスフォーマーを用いた水中画像
強調」
（MALLA REDDY ENGINEERING、2026 年）— 軽量 ViT: エッジ実装可能な Transformer。
• CN202510230704「軽量拡散モデルに基づくロボットのオフライン学習方法」
（南开大学、2025
年）— 軽量 Diffusion Policy。
• DE202620100850U「エッジ人工知能を用いた行動上の不満の定量的検出と感謝の適応的強化
のための AI ベースロボットデバイス」（CHAUDHARI、2026 年）— エッジ AI 感情ロボット。
技術的な着眼点: エッジ AI の中核課題は「クラウド・エッジ・端末の階層協調」「Transformer・
Diffusion Model の軽量化」
「特定応用への最適化（水中・衛星・モバイル）」。Gemini Robotics OnDevice（2025 年 6 月）の登場16を契機に、各社が独自のエッジ実装競争を加速。
2.11 説明可能 AI（XAI）
これは何か
説明可能 AI（Explainable AI、XAI）は、AI が出した判断や予測について「なぜそう判断したのか」を
人間が理解できる形で説明できる仕組み。本母集団では 15 件と少なく、本母集団における未開拓フロ
ンティアの一つだが、EU AI 法（2026 年 8 月施行）の高リスク AI 要件への対応として今後拡大が見
込まれる。
なぜ XAI が重要か。深層学習や VLA モデルは「ブラックボックス」と呼ばれ、内部で何が起きている
かが不透明である。たとえば自動運転車が「ここで急ブレーキをかけた」とき、なぜそう判断したかが
説明できないと、(1) 事故が起きたときの責任所在が不明、(2) AI のバグを修正するのが極めて困難、
(3) 人間が AI を信頼して任せられない、という 3 つの深刻な問題が発生する。医療診断、金融判断、
法的決定、自動運転、ヒューマノイドの安全性などで、XAI は社会実装の必須条件になりつつある。
どう機能するか
XAI のアプローチは大きく 2 系統。第一は Post-hoc 説明（事後説明）で、AI が判断を出した後で
「この判断には画像のここの部分が大きく寄与した」
「過去の類似パターンと比較するとこう違う」のよ
うな説明を生成する手法（例: Grad-CAM、SHAP、LIME）。第二は Interpretable Model（解釈
可能モデル）で、最初から内部構造が人間に理解しやすいモデル（決定木、線形モデル、注意機構の可
視化）を設計する手法。
16Vision-language-action
model), 取得日: 2026-05-02
model:
Wikipedia
(https://en.wikipedia.org/wiki/Vision-language-action_


# Page. 22

![Page Image](https://bcdn.docswell.com/page/K74WWDN2E1.jpg)

APOLLO
22
最新潮流では、LLM を使って AI の判断を自然言語で説明する「LLM ベースの XAI」が台頭している。
VLA モデルが「赤いマグカップを取る」判断をした際に、別の LLM が「マグカップは右側のテーブル
にあり、最も近い経路は…」のように自然言語で説明する設計である。EU AI 法は高リスク AI システ
ム（自動運転、医療、雇用判断など）に対し、こうした説明能力を法的要件として課している。
本母集団における代表特許のミクロな着眼点
▶ 代表特許
• CN202511210997「大規模言語モデルの強化に基づく、説明可能な強化学習意思決定システム」
（中国人民解放军、2025 年）— LLM × 説明可能強化学習: 軍事用途での透明性重視。軍事応用は
誤判断が致命的なため、AI 判断の説明責任が特に重視される。
• CN202511211925「解釈可能なマルチモーダルオペレータネットワークに基づくロボット故障
診断方法」（苏州大学、2025 年）— 解釈可能なロボット故障診断: ロボットが故障した時に「どの
センサ・どの動作が異常を示したか」を人間が理解できる形で出力。
• IN202641012835「人間中心で説明可能なアルゴリズムフレームワークによる、人間と自律走行
車間の協働強化」（KONERU LAKSHMAIAH EDUCA、2026 年）— 自動運転の HMI 透明性: 自
動運転車が判断した内容を運転者に分かりやすく伝える HMI（Human-Machine Interface）設計。
技術的な着眼点
説明可能 AI の中核課題は「LLM ベースの推論透明性」
「故障診断の解釈可能化」
「人間-機械協調での意
思決定共有」。本母集団における出願件数は今後 EU AI 法対応で急増する見込み。特に注目すべきは、
説明能力を後付けで実装するのが極めて困難なため、フィジカル AI システムの設計初期から XAI を組
み込む「Explainable by Design」の発想が必要となること。
本母集団における代表特許のミクロな着眼点:
▶ 代表特許
• CN202511210997「大規模言語モデルの強化に基づく、説明可能な強化学習意思決定システム」
（中国人民解放军、2025 年）— LLM × 説明可能強化学習: 軍事用途での透明性重視。
• CN202511211925「解釈可能なマルチモーダルオペレータネットワークに基づくロボット故障
診断方法」（苏州大学、2025 年）— 解釈可能なロボット故障診断。
• IN202641012835「人間中心で説明可能なアルゴリズムフレームワークによる、人間と自律走行
車間の協働強化」（KONERU LAKSHMAIAH EDUCA、2026 年）— 自動運転の HMI 透明性。
技術的な着眼点: 説明可能 AI の中核課題は「LLM ベースの推論透明性」
「故障診断の解釈可能化」
「人
間-機械協調での意思決定共有」。本母集団における出願件数は今後 EU AI 法対応で急増する見込み。


# Page. 23

![Page Image](https://bcdn.docswell.com/page/LJ1YYZ5KEG.jpg)

APOLLO
23
第 3 章 技術系譜と時系列分析
3.1 5 世代モデルでの技術発展史
本母集団の技術発展を時系列で整理すると、以下 5 世代に区分できる。各世代は明確なマイルストー
ン（特定の論文・モデル・製品の登場）を境界として区切られる。
世代
期間
中核要素技術
代表的アプローチ
第 1 世代
2010-2014
認知 AI（CNN）
画像認識ベースの自動運転、初期センシング
統合
第 2 世代
2015-2019
深層学習 + 古典制御
画像認識 + 軌道計画、産業ロボット制御の
AI 化
第 3 世代
2020-2022
Transformer + LLM
GPT-3 ベース対話、Vision Transformer の
実用化
第 4 世代
第 5 世代（予
2023-2025
2026-2030
測）
基盤モデル + マルチモーダ
VLA、World Models、Diffusion Policy、
ル
Embodied AI
VLA + 世界モデル + エッジ
On-Device VLA、規制対応設計、エージェン
実装
ト型 AI
各世代の境界は明確な技術的・社会的変曲点と対応している。第 1→2 世代の境界は ImageNet 大規模
化と CNN ベースの画像認識ブレイクスルー（2014-2015 年の AlexNet 後継モデル群）、第 2→3 世
代の境界は Transformer 論文「Attention is All You Need」
（2017 年）と BERT/GPT 系モデル登場
（2018-2019 年）、第 3→4 世代の境界は ChatGPT 公開（2022 年 11 月）と Vision Transformer
の標準化、第 4→5 世代の境界は NVIDIA Cosmos Reason 2 / Isaac GR00T N1.6 量産展開（2026
年 3 月）と EU AI 法施行（2026 年 8 月）となる見込み。
3.2 各世代の中核問題と解法の進化
各世代で中核となった問題と、その解法を整理すると、フィジカル AI における技術的な発展ベクトル
が明確化する。世代を追うごとに「認識（What）」
「意味（Why）」
「行動（How）」
「統合（Whole-body）」
へと問題の重心が移動している。
世代
中核問題
代表的解法
第 1-2 世代
認識（What）: 物体・空間の同定
CNN、画像認識、初期 SLAM
第 3 世代
意味（Why）: 自然言語との対応
Transformer、Vision Transformer
第 4 世代
行動（How）: 認識から行動への翻訳
VLA、Diffusion Policy、世界モデル
第 5 世代
統合（Whole-body）: 多モーダル + リア
VTLA、On-Device VLA、説明可能 AI
ルタイム + 説明性


# Page. 24

![Page Image](https://bcdn.docswell.com/page/GJWGG95P72.jpg)

APOLLO
24
この発展ベクトルは「単独で何かを見分ける AI」から「世界と相互作用する身体化 AI」への移行と整
合している。各世代の問題は次世代でも解決され続ける（CNN が消えるわけではない）が、技術競争
の主戦場は次々と上位レイヤへと移っていく。
3.3 主要技術マイルストーン年表
本母集団の技術発展に直接的な影響を与えた学術論文・モデル・製品の主要マイルストーンを年表とし
て整理する。学術側（基礎研究）と産業側（特許化・量産化）の関係性が時系列で読み取れる。
年
出来事
技術的意義
ドメイン
2012
AlexNet（ImageNet
深層学習の画像認識への決定的勝利。フィジカ
学術
優勝）
ル AI 第 1 世代の起点
GAN（ Goodfellow
生成モデルの登場。後の拡散モデルの先駆
学術
深層化の限界突破。100 層超のネットワーク実
学術
2014
ら）
2015
ResNet
用化
2016
AlphaGo
強化学習の脚光。「人間を超える AI」の象徴
学術
2017
Transformer 論文
NLP の革命。後の LLM・VLA の基礎
学術
2018-2019
BERT、GPT-1/2
事前学習言語モデルの確立
学術
2020
GPT-3
大規模言語モデルの実用性証明
学術
2020
Vision Transformer
画像認識への Transformer 適用
学術
生成 AI の画像領域での飛躍
学術
(ViT)
2021
拡 散 モ デ ル の 爆
発（DALL-E、Stable
Diffusion 前夜）
2022 年 6 月
PaLM-E（Google）
大規模 embodied 言語モデルの先駆
学術
2022 年 11 月
ChatGPT 公開
生成 AI ブームの引き金。第 3→4 世代の境界
製品
2023 年 3 月
Diffusion Policy 論文
拡散モデルのロボット制御適用
学術
2023 年 7 月
RT-2（
VLA パラダイムの確立
学術
Google
DeepMind）
2024 年 6 月
OpenVLA
VLA のオープンソース化（7B パラメータ）
学術
2025 年 3 月
NVIDIA GR00T N1
ヒューマノイド向け VLA の量産展開
製品
2025 年 6 月
Gemini
On-Device VLA の実用化
製品
Robotics
On-Device
2025 年
SeedPolicy
Diffusion Policy の Horizon Scaling 突破
学術
2026 年 1 月
米国 BIS の AI チップ
地政学的な技術競争の本格化
規制
世界モデル + VLA の量産展開。第 4→5 世代
製品
輸出規制改訂
2026 年 3 月
NVIDIA
Cosmos
Reason 2 / Isaac
の境界
GR00T N1.6
2026 年 8 月
EU AI 法施行
高リスク AI の説明可能性が法的要件化
規制


# Page. 25

![Page Image](https://bcdn.docswell.com/page/4EZLL9N673.jpg)

APOLLO
年
25
出来事
2026 年末（予定） NVIDIA GR00T N2
技術的意義
ドメイン
世界モデル統合 VLA の本格商用化
製品
(DreamZero ベース)
この年表が示す重要な構造は、(1) 学術側の基礎研究が 1-3 年先行し、特許化と製品化が後追いするパ
ターン、(2) 2022 年の ChatGPT が決定的な転換点となり、それまで分散していた研究が「生成 AI×
フィジカル」へと収束した点、(3) 2026 年は NVIDIA Cosmos / GR00T 量産展開と EU AI 法施行
が同時に進行する「規制と量産化が並走する年」である点、の 3 点である。
3.4 技術系譜マップ — 何が何から派生したか
本母集団における主要技術は独立して存在するのではなく、明確な系譜（ある技術から別の技術が派生
する関係）を形成している。以下に主要 5 系統の系譜を整理する。
認識系の系譜: CNN → ViT → VLM → VLA
画像認識の系譜は最も歴史が古く、複数のブレイクスルーを経て現在の VLA に至る。CNN（2012 年
AlexNet）が画像認識の主流となり、ResNet（2015 年）で深層化の限界を突破、Transformer（2017
年）の発展形として Vision Transformer（2020 年）が画像認識に Transformer を持ち込んだ。VLM
（Vision-Language Model）は ViT と LLM の融合として 2021-2022 年に登場し、PaLM-E（2022
年）と RT-2（2023 年）で行動制御へと拡張され、現在の VLA パラダイムが確立した。本母集団の
VLA 関連 49 件は、この系譜の最先端に位置する出願群である。
生成系の系譜: GAN → 拡散モデル → Diffusion Policy → SeedPolicy
生成モデルの系譜は 2014 年の GAN（敵対的生成ネットワーク）から始まる。GAN は AI 同士を競
争させて性能を高める仕組みで、画像生成に革命を起こした。2020-2021 年に拡散モデルが登場し、
安定性と多様性で GAN を凌駕。2022 年の Stable Diffusion が画像生成 AI の代表となった。2023
年に Diffusion Policy 論文（Columbia 大学）が拡散モデルをロボット行動方策に適用する道を開き、
2025 年の SeedPolicy が長期動作タスクの SOTA を確立した。本母集団の Diffusion Policy 関連
63 件は、この系譜の応用層に位置する。
学習系の系譜: 強化学習 → 模倣学習 → ハイブリッド学習 → LLM Reward
学習アルゴリズムの系譜は古典的な強化学習（1980 年代から研究、AlphaGo で 2016 年に脚光）に
始まり、人間のデモンストレーションから学ぶ模倣学習（2010 年代後半に普及）へ。2020 年代に入っ
て両者を組み合わせるハイブリッド学習（模倣で初期化、強化学習で最適化）が標準化。2024-2026
年は「LLM が報酬を提供する」LLM Reward の研究が急増している。本母集団の強化学習 152 件と
模倣学習 62 件は、この系譜の現在を構成する。
センシング系の系譜: 単一センサ → マルチモーダル → VLA → VTLA
センシングの系譜は単一センサ（カメラのみ、LiDAR のみ）から始まり、複数センサを統合するセンサ
融合へ進化。2020 年代に入ってマルチモーダル AI（視覚 + 言語 + 音声）が主流化し、VLA で視覚 + 言


# Page. 26

![Page Image](https://bcdn.docswell.com/page/Y76WWK8L7V.jpg)

APOLLO
26
語 + 行動が統合された。2025-2026 年は VLA に触覚を加えた VTLA（Vision-Tactile-LanguageAction）が新フロンティアとして登場。本母集団のマルチモーダル融合 1,480 件と触覚 96 件は、こ
の系譜の最新層を形成する。
空間理解系の系譜: 古典 SLAM → セマンティック SLAM → VLA-SLAM
自己位置推定の系譜は 1980-2000 年代の古典 SLAM（カルマンフィルタ・パーティクルフィルタ）か
ら始まり、深層学習の導入でセマンティック SLAM（地図に意味付与）へ進化。2025-2026 年に VLA
との統合で VLA-SLAM（言語で地図を理解する）が登場。本母集団の SLAM 関連 130 件はこの系
譜の現在を反映する。
統合系譜: 世界モデルが全系譜を吸収
最も注目すべきは、これら 5 系譜が世界モデル（World Foundation Models）に収斂しつつある
ことである。NVIDIA Cosmos の登場（2026 年）は、認識系（VLA）
・生成系（Diffusion）
・学習系
（強化学習 + 模倣 + LLM Reward）
・センシング系（マルチモーダル）
・空間理解系（SLAM）の全て
を 1 つの基盤上に統合する戦略である。GR00T N2（DreamZero ベースの World Action Model）
はこの統合の象徴であり、第 5 世代の中核技術として 2026-2030 年を主導する見込み。
3.5 各技術領域の時系列ピーク予測
本母集団における主要技術領域の登場・成長・成熟期を時系列で整理すると、各領域がライフサイクル
上のどの位置にあるかが読み取れる。
技術領域
登場期
成長期
予想ピーク
現状の位置
VLA
2023
2024-2026
2027-2028
成長加速期
World Models
2024
2025-2027
2028-2029
成長初期
Diffusion Policy
2023
2024-2026
2027
成長加速期
VTLA / 触覚基盤
2025
2026-2028
2029-2030
黎明期-成長初期
Embodied AI
2014（学術） / 2025（特許） 2026-2028
2029-2030
特許化過渡期
模倣 + 強化学習
2018
2020-2024
2025-2026
成熟期入り
2018
2020-2025
2026
成熟期前夜
多指ハンド
2010 年代
2024-2027
2028
成長加速期
SLAM
1990 年代
2020-2024
2025-2026
VLA-SLAM への移行期
Sim2Real
2017
2023-2026
2027
標準化進行中
On-Device VLA
2025
2026-2028
2029
黎明期
説明可能 AI
2017
2026-2029
2030
規制駆動の急成長前夜
モデル
ハイブリッド
マルチモーダル融
合
この表が示す重要な構造は、(1) 古い技術（SLAM、強化学習、マルチモーダル）が成熟期に入りつつ
ある一方、新興技術（VTLA、On-Device VLA、World Models）が次々と登場している入れ替わり
の活発さ、(2) 説明可能 AI が規制駆動で 2026-2030 年に急成長する見込みである点、(3) ピーク予


# Page. 27

![Page Image](https://bcdn.docswell.com/page/G75MMP9M74.jpg)

APOLLO
27
測が 2027-2030 年に集中しており、本母集団は今後 4-5 年の急成長期を控えている点、の 3 点で
ある。
3.6 学術-特許の時間ラグ分析
本母集団における各技術領域について、学術論文での初出から特許出願ピークまでの時間ラグを分析す
ると、概ね 2-4 年のラグが観察される。
技術領域
学術初出
特 許 出 願 ピー ク
ラグ
示唆
（予想）
Transformer
2017
2020-2022
3-5 年
基礎研究→実装の典型ラグ
Diffusion モデル
2020-2021
2024-2026
3-5 年
画像生成→ロボット制御転用
に時間
PaLM-E / VLA
2022-2023
2025-2027
2-4 年
第 4 世代技術の特許化進行中
Embodied AI（概念） 2014
2026-2028
12-14 年
長期にわたる概念熟成期
拡散ポリシー
2023
2025-2027
2-4 年
短いラグで急速に特許化
VTLA / 触覚基盤
2025
2027-2029
2-4 年
現在進行中の特許化波
On-Device VLA
2025
2026-2028
1-3 年
特に短いラグ
説明可能 AI
2017
2026-2030
9-13 年
規制駆動で急加速
この表が示す重要な構造は、(1) Transformer・Diffusion のような基礎技術は 3-5 年のラグ、(2)
Embodied AI・説明可能 AI のような概念的技術は 9-14 年と長いラグ（規制や社会的受容が必要な
ため）、(3) 拡散ポリシー・On-Device VLA のような応用技術は 1-3 年と急速に特許化される、とい
うパターンである。
本分析の視座（生成 AI ブーム以降のフィジカル AI の変容）に照らすと、現在の本母集団は「2022-2025
年の学術ブレイクスルーが特許化される最盛期」であり、2027-2028 年には「2025-2026 年の
VTLA / Embodied AI / On-Device VLA 系の特許化波」が到来する見込み。これは本母集団の出願
件数が 2025 年 3,728 件から今後さらに加速することを示唆している。
3.7 技術系譜から導出される投資タイミング
技術系譜と時系列分析を踏まえると、戦略的な投資タイミングは以下のように整理できる。
第一に、VLA・Diffusion Policy は 2024-2026 年の成長加速期にあり、出願量の急増局面。先願
主義での出願戦略は今が最後の機会。
第二に、World Models・VTLA は 2025-2027 年の成長初期にあり、まだクラスタ未形成の領域
が多い。先行投資で独立クラスタの形成を狙う戦略が有効。
第三に、On-Device VLA・説明可能 AI は 2026-2028 年の急成長前夜にあり、規制駆動と技術駆
動の両方で需要が爆発する見込み。中期的な投資で確実なリターン。
第四に、Embodied AI は概念熟成期から特許化過渡期へ移行中。長期視野での基礎研究投資が、
2027-2028 年の独立クラスタ形成時に大きなリターンをもたらす可能性。


# Page. 28

![Page Image](https://bcdn.docswell.com/page/9J29962RER.jpg)

APOLLO
28
これらの投資タイミングを整理すると、本母集団における技術投資の最適化は「短期: VLA / Diffusion
Policy への集中」「中期: World Models / VTLA / On-Device VLA への分散」「長期: Embodied
AI / 説明可能 AI への基礎投資」の 3 層構造で組み立てるべきと結論付けられる。


# Page. 29

![Page Image](https://bcdn.docswell.com/page/DEY449Y5JM.jpg)

APOLLO
29
第 4 章 技術アプローチの企業横断比較
4.1 主要企業の技術アプローチ・マトリクス
本母集団の主要 5 企業について、各技術領域への注力度をマトリクス化する。
企業
VLA
世界モデル
Diffusion Policy
触覚 / VTLA
Embodied AI
エッジ AI
NVIDIA
◎
◎
◎
○
○
○
GM
△
△
△
△
×
△
ROBERT
○
○
△
○
△
△
中国大学群
◎
◎
◎
○
◎
○
国家电网
○
△
△
△
△
○
本田技研工業
△
△
△
△
△
△
SAMSUNG
○
△
△
△
△
△
INTUITIVE
△
△
△
○
△
△
BOSCH
SURGICAL
凡例: ◎ 主力領域 / ○ 注力領域 / △ 部分参入 / × 不在
4.2 戦略類型との対応
本母集団の技術アプローチを戦略類型と組み合わせると、以下の構造が浮かぶ。
• NVIDIA 型（プラットフォーム単点突破）: 全技術領域の汎用基盤を提供（Cosmos / Isaac /
GR00T）。下流の各社が NVIDIA 基盤を取り入れる構造。
• 中国大学群型（学術-商用連結）: 全技術領域で先進的研究を主導。Unitree・Agibot 等への技術移
転で商用展開と連結。
• BOSCH / SIEMENS 型（産業 AI 集中）: 限定された技術領域（VLA × 産業ロボット、世界モデ
ル × 製造プロセス）に特化。
• 日本勢型（分散参入）: 全技術領域への試行的参入だが特定領域での優位を欠く。
• 専業ニッチ型（INTUITIVE SURGICAL / DEERE）: 特定応用領域（医療、農業）で技術の幅を
抑え深掘り。


# Page. 30

![Page Image](https://bcdn.docswell.com/page/VJNYYLP478.jpg)

APOLLO
30
第 5 章 技術的未解決問題と戦略提言
5.1 5 つの未解決問題
本母集団の技術潮流を踏まえると、フィジカル AI 領域の中心的な未解決問題は以下 5 点に集約さ
れる。
第一に、動的環境への適応性。本母集団の急上昇キーワードで「動的」
（成長率 16.06）が首位に来るこ
とは、動的環境対応がいまだ未解決であることの証左。世界モデル + Diffusion Policy + マルチモー
ダル統合が処方箋として登場しつつある。
第二に、リアルタイム性とモデル精度のトレードオフ。VLA モデルの推論レイテンシ問題は、OnDevice VLA・知識蒸留・軽量化などの技術で対応中。ただし、リアルタイム要件が厳しい自動運転・
手術ロボット・ヒューマノイドではいまだ妥協点を探っている段階。
第三に、Sim2Real ギャップ。NVIDIA Cosmos Transfer 2.5 等の合成データ生成基盤が登場し
たが、シミュレーションと実機の物理特性の差は依然として大きい。Tactile Foundation Models や
VTLA はその差を埋める方向性。
第四に、説明可能性と安全性検証。本母集団における説明可能 AI 特許は 15 件と限定的。EU AI 法施
行（2026 年 8 月）以降、急増が見込まれる領域。
第五に、マルチモーダル統合の標準化. VTLA（Vision-Tactile-Language-Action）は新フロンティア
だが、各モーダルの統合方法・データセット形式・評価指標が未確立。Carnegie Mellon Sparsh や
UC Berkeley Touch and Go 等のデータセットが事実上の標準を目指している。
5.2 技術投資の戦略提言
技術動向から導出される戦略提言
本別冊の分析から、以下 5 つの技術投資の戦略提言が導出される。
1. VLA モデルへの先行投資: 本母集団の VLA 関連特許（49 件）は急増中。Single-Model 設
計（OpenVLA 派）と Dual-System 設計（GR00T 派）の選択を 2026-2027 年中に意思
決定し、互換性のあるアーキテクチャで先願主義を発動。
2. 世界モデル × 安全性検証への投資: NVIDIA Cosmos が基盤を提供する中、各社の差別化は
世界モデル上での安全性検証層・MoE 統合層・因果検証層に移る。本母集団の世界モデル特
許 18 件のうち、5 件以上が安全性・検証関連であり、この領域への参入余地は大きい。
3. VTLA / 触覚基盤モデルへの参入: Tactile Foundation Models は 2025-2026 年の最前線
フロンティア。本母集団の触覚センサ特許（96 件）と VLA 特許（49 件）が交差する領域は
今後 2-3 年で爆発的に拡大する見込み。


# Page. 31

![Page Image](https://bcdn.docswell.com/page/YE9PP434J3.jpg)

APOLLO
31
4. エッジ実装への集中投資: On-Device VLA の競争は Gemini Robotics On-Device 以降本
格化。本母集団のエッジ AI 特許（103 件）には軽量 Transformer・軽量 Diffusion Model・
三層協調最適化の特許が含まれ、参入機会は依然として豊富。
5. 説明可能 AI への先行投資: EU AI 法施行で需要が急増する領域だが、本母集団の特許は 15
件と限定的。LLM ベースの推論透明性・故障診断の解釈可能化・人間-機械協調の意思決定共
有 の 3 サブ領域がいずれも開拓余地を残す。
5.3 推奨アクション
優先度: 高
VLA アーキテクチャの選定
Single-Model 設計（OpenVLA 派）か Dual-System 設計（GR00T 派）かを 2026 年内に意思決定。NVIDIA
Cosmos / Isaac エコシステムへの適合を考慮
推奨実施時期: 短期（6-12 ヶ月）
優先度: 高
VTLA（触覚 + VLA）への先行投資
Tactile Foundation Models と VLA の統合領域に R&amp;D 投資を集中。Carnegie Mellon Sparsh、UC
Berkeley Touch and Go 等の公開データセットを活用
推奨実施時期: 短期-中期（12-24 ヶ月）
優先度: 高
On-Device VLA / エッジ実装
軽量 Transformer + 軽量 Diffusion Policy のエッジ実装で先行優位確立。Gemini Robotics On-Device
に互換しつつ独自軽量化
推奨実施時期: 短期-中期（12-24 ヶ月）
優先度: 中
世界モデル × 安全性検証層
NVIDIA Cosmos の上に被せる差別化レイヤー（MoE 統合、因果検証、サンプリング評価）への投資
推奨実施時期: 中期（12-18 ヶ月）
優先度: 中
説明可能 AI への参入
EU AI 法対応として、LLM ベースの推論透明性・故障診断の解釈可能化への投資
推奨実施時期: 中期（12-24 ヶ月）


# Page. 32

![Page Image](https://bcdn.docswell.com/page/GE8DDQMVED.jpg)

APOLLO
32
結論
本別冊は、本母集団 11,763 件のフィジカル AI 特許群を技術軸で再編成し、何に着目して開発が進ん
でいるかを具体的な特許タイトルレベルで読み解いた。
技術スタックの 5 層モデル（センシング・認識・推論・制御・学習）と、急成長 11 領域（VLA、世界
モデル、Diffusion Policy、模倣学習、マルチモーダル、触覚、Embodied AI、多指ハンド、SLAM、
Sim2Real、エッジ AI、説明可能 AI）の二軸で整理することで、本母集団における技術発展の全景が
明確化された。
本分析の視座（生成 AI ブーム以降のフィジカル AI の変容）に即して結論すると、技術的な中心は明確
に VLA + 世界モデル + マルチモーダル（特に触覚）+ エッジ実装の 4 軸の融合に向かっている。第
4 世代（2023-2025）の基盤モデル + マルチモーダル時代から、第 5 世代（2026-2030）の VLA
+ 世界モデル + エッジ実装時代への移行が進行中であり、各社の戦略選択は 2026-2027 年が分水嶺
となる。
技術的な未解決問題は (1) 動的環境への適応、(2) リアルタイム性と精度のトレードオフ、(3)
Sim2Real ギャップ、(4) 説明可能性と安全性検証、(5) マルチモーダル統合の標準化 の 5 点に集約さ
れ、これらが次世代プラットフォーム戦争の主戦場となる。
本別冊の技術的洞察を踏まえ、各社は VLA アーキテクチャの選定、VTLA への先行投資、On-Device
VLA 実装、世界モデル上の差別化レイヤー、説明可能 AI への参入 という 5 つの推奨アクションを
2026-2027 年中に意思決定すべきである。