30.3K Views
July 18, 24
スライド概要
ロボット工学セミナー 第154回 「数理に基づく学習とその応用」で発表した際のスライドです。
https://www.rsj.or.jp/event/seminar/news/2024/s154.html
シニアエンジニア@パナソニックホールディングス(株)
拡散モデルのロボティクス応用 2024/7/17 テクノロジー本部 デジタル・AI技術センター 岡田 雅司 Technology Division
自己紹介 1 /92 • 岡田 雅司、博士(情報科学) • パナソニックホールディングス株式会社 テクノロジー本部 デジタル・AI技術センター • 略歴 年度 2013 大阪大学 情報科学研究科 博士課程後期課程修了 2013~2021 パナソニック(株) 入社 2021~ 奈良先端科学技術大学院大学 客員准教授 (2024/4 より客員教授) 2022~ パナソニックホールディングス(株) シニアエンジニア • 担当業務 • 全社 よろず AI 相談窓口担当(コンサルや委託研究の実施) • 機械学習技術の基礎研究 • 確率ロボティクス分野における先行研究
拡散モデルとは?~その動作と解釈~ 拡散モデルの数理 拡散モデルの実装 拡散モデルのロボティクス応用 まとめ
拡散モデルとは?~その動作と解釈~
拡散モデルとは? 4 /92 • 近年の生成AIの礎となる技術の一つ • ニューラルネットワークから自然な静止画、動画を生成可能 Midjourney [Midjourney Showcase] Stable Diffusion Sora [Stability AI Japan] [OpenAI]
拡散モデルのロボティクス応用 拡散モデルはロボットの動作生成などにも応用されている (本日のトピック) https://diffusion-policy.cs.columbia.edu/ より引用 5 /92
拡散モデルの推論時の動作 ニューラルネットワークを介して画像中のノイズを除去していく An In-Depth Guide to Denoising Diffusion Probabilistic Models (learnopencv.com) 𝑇回 How does Stable Diffusion work? (stable-diffusion-art.com) 最初は完全な ガウスノイズ ノイズを予測 して除去 6 /92
拡散モデルの解釈(1/5) 7 /92 解釈①:拡散モデルは変分オートエンコーダの特殊ケースである 通常のオートエンコーダ ✓ エンコーダ・デコーダを両方同時に学習 デコーダ エンコーダ 潜在変数 ✓ 入力よりも低次元
拡散モデルの解釈(2/5) 8 /92 解釈①:拡散モデルは変分オートエンコーダの特殊ケースである 拡散モデル ✓ デコーダのみを学習 デコーダ エンコーダ ✓ エンコーダは固定 (入力に徐々にノイズを加えていく過程) 潜在変数 ✓ 潜在変数は入力と同一次元 (完全なガウスノイズ)
拡散モデルの解釈(3/5) 9 /92 解釈②:拡散モデルは(とても)深いニューラルネットワークである ⇒ ✓ 非線形性の強い(表現力の高い)モデル 展開すると Diffusion Model ✓ T 個のネットワークを連結したモデル Diffusion Model Diffusion Model Diffusion Model
拡散モデルの解釈(4/5) 10 /92 解釈③:拡散モデルは最適化問題のソルバーである 元画像 画像に付与されたノイズを予測 ノイズ 予測ノイズ 𝜖(𝒙) 𝒙 Diffusion Model ✓ 𝜖 𝑥 ≈ −∇𝑥 log 𝑝 (𝑥); 𝜖 𝑥 は log 𝑝 (𝑥) の勾配 − log 𝑝 (𝑥) • 生成過程は log 𝑝 (𝑥) の最適化と解釈可能 • log 𝑝 (𝑥) は学習で自律的に獲得 𝒙
拡散モデルの解釈(5/5) 11 /92 解釈③’:拡散モデルは微分方程式のソルバーである • log 𝑝 (𝒙)を最適化する過程は下記の微分方程式で記述できる(詳細は割愛) d𝒙 ✓ = 𝑓 𝒙, 𝑡 d𝑡 1 2 + 𝑔 𝑡 2 ∇𝑥 − log 𝑝(𝑥) • 生成は上記の微分方程式を積分する過程と解釈できる − log 𝑝(𝑥) 𝒙
拡散モデルのメリット (一部、個人的な期待を含みます) • 拡散モデルは省パラメタで高い表現力(解釈②:拡散モデル=深いネットワーク) • • 高次元の生成にスケール 過学習抑制も期待? − log 𝑝 (𝒙) • 12 /92 不確実性を柔軟に表現可能 • 右図+次のスライド 不確実性②:多峰性 不確実性①: 偏差 𝒙 • 繰り返し処理の模倣が期待(解釈③:拡散モデル=最適化ソルバー) • • 本来の予測が繰り返し処理(例:凸最適化)である場合、 類似の処理を獲得してくれるかも? 物理シミュレーションの模倣が期待(解釈③’:拡散モデル=微分方程式ソルバー) • 目的変数が物理量である場合、物理方程式(微分方程式)と類似する処理を獲得してくれるかも? • 例)ニュートン方程式、ナビエストークス方程式
拡散モデルによる不確実性の表現 偏差、多峰性がある関数 y = f(x) の近似が可能 CARD: Classification and Regression Diffusion Models (neurips.cc) 13 /92
拡散モデルのデメリット • 予測時の計算量が増える • How does Stable Diffusion work? (stable-diffusion-art.com) 𝑇 回の繰り返し処理に由来 • • 14 /92 目的変数の次元数が数個であれば、 𝑇 は数回~数十回 低消費電力やリアルタイム性が求められる 応用では厳しいかも • 学習時間が増える • モデルが解くべきタスクが難しくなっているため、 学習時間が長くなる傾向 • モデルの設計項目が増える • 繰り返し回数 𝑇、ノイズスケジュール、etc …
拡散モデルの数理
Variational Auto Encoder の定式化 16 /92 データ 𝒙 の真の分布 𝒑(𝒙) を近似する分布 𝒑𝜽 (𝒙) を求める ⇒ 𝒑𝜽 (𝒙) の対数尤度最大化 • log 𝑝𝜃 𝑥 = log 𝑧𝑑 𝑧 𝑝 𝑧 𝑥 𝜃𝑝 • = log 𝑧 𝑝 𝑧 𝑥 𝜃𝑝 • ≥ 𝑥 𝑧 𝜙𝑞 𝑞𝜙 (𝑧|𝑥) 𝑞𝜙 (𝑧|𝑥) 𝑑𝑧 𝑝𝜃 𝑥|𝑧 𝑝(𝑧) log 𝑑𝑧 𝑞𝜙 (𝑧|𝑥) • ≔ 𝐽ELBO (ELBO: 変分下限) 生成過程に潜在変数 𝑧 の存在を仮定 𝑝 𝑧 : 事前分布 𝑞𝜙 (𝑧|𝑥): エンコーダ(変分分布) Jensen の不等式 log 𝔼 𝑥 ≥ 𝔼[log 𝑥] 𝑧 𝑥 𝑝𝜃 (𝑧|𝑥)
Variational Auto Encoder の定式化 17 /92 𝒑𝜽 (𝒙) の対数尤度最大化 = ELBO 最大化 𝑝𝜃 𝑥 𝑧 𝑝 𝑧 𝐽ELBO ≔ න 𝑞𝜙 𝑧 𝑥 log 𝑑𝑧 𝑞𝜙 𝑧 𝑥 𝑞𝜙 𝑧 𝑥 = න𝑞𝜙 𝑧 𝑥 log 𝑝𝜃 𝑥 𝑧 𝑑𝑧 − න 𝑞𝜙 𝑧 𝑥 log 𝑑𝑧 𝑝 𝑧 = 𝔼𝑧∼𝑞𝜙 (𝑧|𝑥) log 𝑝𝜃 (𝑥|𝑧) − 𝐷𝐾𝐿 𝑞𝜙 (𝑧|𝑥)||𝑝(𝑧) 再構成誤差 潜在変数の分布を事前分布に 近づける正則化項
VAE から拡散モデルへ 18 /92 エンコーダ・デコーダをノイズを徐々に付与・除去する過程に置換 ⇒ ELBO は付与されたノイズの予測誤差の最小化に帰着 𝑥 にノイズを付与(𝛼𝑡 はノイズの強度) 𝑇 𝐽ELBO ≃ − 𝑤𝑡 ⋅ 𝔼𝑥,𝜖∼𝒩(𝟎,𝐼) 𝜖 − 𝜖𝜃 𝛼ത𝑡 𝑥 + 1 − 𝛼ത𝑡 𝜖, 𝑡 2 𝑡=1 正規乱数生成 𝜖𝜃 (⋅) で付与されたノイズを予測し誤差を計算 𝜖𝜃 (⋅): スコア関数(ニューラルネットで表現)
スコア関数の解釈 19 /92 スコア関数 𝝐𝜽 𝒙 は −𝛁𝒙 𝐥𝐨𝐠 𝒑𝜽 𝒙 (スコア)と一致 • 導出:𝝐𝜽 𝒙 の学習則と Score Matching [Song+,NeurIPS2019] と 呼ばれる −∇𝑥 log 𝑝𝜃 𝑥 の学習則が一致(詳細は割愛) • 後述する先行研究の一部はこの性質を活用 − log 𝑝 (𝑥) 𝒙
拡散モデルの実装
拡散モデルの実装 試してみたいけど、論文には 数式がいっぱいで難しそう • 簡単にコーディングできるライブラリ (diffusers) が公開されています • PyTorch の経験がある方なら気軽に試せます • 以降、最小限の snippet をご紹介します • まず試してみたい方は公式チュートリアルがお勧めです • diffusers_training_example.ipynb 21 /92
Diffusers による予測モデルの学習 22 /92 𝑇 for batch in train_loader: # Sample a random timestep for each image bs = batch.shape[0] timesteps = torch.randint( 0, noise_scheduler.config.num_train_timesteps, (bs,), device=x.device, dtype=torch.int64 ) 学習時は t を ランダムに決定 𝑡=1 Diffusers の機能 𝝐 𝒙 # Add noise to the clean samples noise = torch.randn(batch.shape, device=batch.device) noisy_x = scheduler.add_noise(batch, noise, timesteps) with accelerator.accumulate(model): noise_pred = model(noisy_x, timesteps) loss = F.mse_loss(noise_pred, noise) accelerator.backward(loss) 𝒥ELBO = − 𝔼 ⋅ ノイズ 𝒙 𝝐 𝛼ത𝑡 𝑥 + 1 − 𝛼ത𝑡 𝜖 𝜖𝜃 ⋅ Diffusion Model ℒ 予測ノイズ 𝝐′
Diffusers を用いた学習済みモデルによる予測 for batch in dataloader: x_t = torch.randn(batch.shape, device=x.device) with torch.no_grad(): ガウスノイズから開始 for t in scheduler.timesteps: b = x_t.shape[0] t_repeat = repeat(t[None], '1 -> b', b=b).to(x.device) noise_pred = model(xt, t_repeat) x_t = scheduler.step(noise_pred, t, x_t).prev_sample 予測ノイズ 目的変数 𝒙𝒕 ノイズ除去 (Diffusers の機能) Diffusion Model 𝝐𝒕 23 /92
Classifier-free Guidance と Classifier Guidance 24 /92 説明変数 𝒄 で条件付けられた生成モデル 𝒑(𝒙|𝒄) をどう表現するか? • Classifier-free Guidance • 変数 𝑐 を入力として持つスコア関数 𝜖𝜃 (𝑥|𝑐) で 𝑝𝜃 (𝑥|𝑐) を直接表現 • 𝑐 に null-vector の入力を想定する場合もある 説明変数 𝒄 𝒙𝒕 • null-vector: 無条件であることを指定するパラメータ (値は学習で決定) • Classifier Guidance Diffusion Model • ベイズの定理より ∇ log 𝑝 𝑥 𝑐 = ∇ log 𝑝 𝑥 + ∇ log 𝑝(𝑐|𝑥) • 右辺第一項をスコア関数 𝜖𝜃 (𝑥)、 第二項を別途学習した log 𝑝𝜙 (𝑐|𝑥) の 自動微分で計算 • 𝑐 がクラスラベルであれば log 𝑝𝜙 (𝑐|𝑥) は分類器(classifier) • log 𝑝𝜙 (𝑐|𝑥) は回帰モデル(regressor)でも可 • 𝑐 は連続変数(報酬など) 𝝐𝒕
スコア関数の設計 25 /92 目的変数 𝒙、説明変数 𝒄、ステップ 𝒕 を入力とするニューラルネットが必要 𝑡=0 𝑡=1 𝑡=2 • ステップ 𝑡 • 𝑡 によってノイズの強さ(分散)が変化するため、 モデルに現在のステップ数を教える必要がある • 𝑡 は1次元で 𝒙, 𝒄 に埋もれやすいので、 多次元の乱数を掛け算し次元を拡張するのが一般的 Diffusers の機能 class GaussianFourierProjection(nn.Module): def __init__(self, embedding_size): super().__init__() self.weight = nn.Parameter(torch.randn(embedding_size, requires_grad=False) def forward(self, t): t_proj = t[:, None] * self.weight[None, :] * 2 * np.pi out = torch.cat([torch.sin(x_proj), torch.cos(x_proj)], dim=-1) return out
スコア関数の設計 26 /92 目的変数 𝒙、説明変数 𝒄、ステップ 𝒕 を入力とするニューラルネットが必要 Transformer(時系列&画像データ) MLP(テーブルデータ) 𝒙 𝒄 v 𝑡 Conv1D(時系列データ) 𝝐 Transformer Diffusers に実装あり (i.e., UNet1D, UNet2D) Conv2D(画像データ)
拡散モデルのロボティクス応用
拡散モデルのロボティクス応用 28 /92 拡散モデル 𝒑(𝒙|𝒄) で何を生成するか 研究領域 目的変数 𝒙 説明変数 𝒄 モデル化したい分布 モデルベース強化学習※ 状態・行動の軌道 現在の状態 𝑝(𝑠2:𝐻 , 𝑎1:𝐻 |𝑠1 ) 次の行動 現在の状態 𝜋(𝑎|𝑠) 行動の軌道 現在+過去の状態 言語指示など e.g.,[Janner+,ICML2022] モデルフリー強化学習※ e.g., [Wang+, ICLR2023] 模倣学習 e.g., [Chi+, RSS2023] その他 𝜋(𝑎1:𝐻 |𝑠1 ) タスクの最終状態 把持位置 報酬 学習データ(データ拡張) シミュレーションの代替 制約式の目的関数 etc… ※ 拡散モデルの研究では強化学習はオフライン強化学習(replay buffer は所与・固定)を想定することが多い
拡散モデル×ロボティクス 関連研究マップ Diffuser [Janner+, ICML2022] ChainedDiffuser [Xian+, CoRL2023] Diffusion Policy [Chi+, RSS2023] Generative Skill Chaining [Mishra+, CoRL2023] Decision Diffuser [Ajay+, ICLR2023] Scaling Up & Distilling Down [Ha+, CoRL2023] Motion Diffuser [Jiang+, CVPR2023] PlayFusion [Chen+, CoRL2023] Language Control Diffusion [Zhang+, ICLR2023] BESO [Reuss+, RSS2023] MTDiff [He+, NeurIPS2023] Diffusion Co-Policy [Ng+, RAL2023] Meta Diffuser [Ni+, ICML2023] Cold Diffusion on Replay Buffer [Wang+, CoRL2023] Motion Planning Diffusion [Carvalho+,IROS2023] Noise & Back [Yoneda+, RSS2023] Diffusion QL [Wang+, ICLR2023] 29 /92 Hierarchical Diffuser [Chen+, ICML2024] Hierarchical Diffusion Policy [Ma+, CVPR2024] 凡例 モデルベース 強化学習 Flow to Better [Zhang+, ICLR2024] Consistency Policy [Parasad+, RSS2024] 模倣学習 3D Diffusion Policy [Ze+, RSS2024] Motion Primitive Diffusion [Scheikl+, RAL2024] モデルフリー 強化学習 Render & Diffusion [Vosylius+, RSS2024] その他 Oct [Ghosh+, RSS2024] BRIDGER [Chen+, RSS2024] Efficient Diffusion Policy [Kang+, NeurIPS2023] IDQL [Estruch+, arXiv2023] Multimodal Diffusion Transformer [Reuss+, RSS2024] Crossway Diffusion [Li+, ICRA2024] EDGI [Brehmer+, NeurIPS2023] NoMaD [Sridhar+, ICRA2024] HDMI [Li+, ICML2023] Consistency Policy RL [Ding+, ICLR2024] Diffusion BC [Pearce+, ICLR2023] Synthetic Experience Replay [Lu+,NeurIPS2023] GNFactor [Ze+, CoRL2023] CTG [Zhong+,ICRA2023] Extracting Reward [Nuti+, NeurIPS2023] DALL-E-Bot [Kapelyukh+, IROS2023] StructDiffusion [Liu+, RSS2023] ROSIE [Yu+, RSS2023] Score Guided Planning [Suh+, CoRL2023] SE3-DiffusionField [Urain+, ICRA2023] Diffusion-EDFs [Ryu+, CVPR2024] GenAug [Chen+,RSS2023] Diffusion CCSP [Yang+,CoRL2023] DiffuseBot [Wang+,NeurIPS2023] SuSIE [Black+, ICLR2024] Score Regularized Policy Optimization [Chen+, ICLR2024] CTG++ [Yang+,CoRL2023] Latent Diffusion Constrained Q-Learning [Venkatraman+, ICLR2024] Q-score Matching TODO [Psenka+, ICML2024] Diffusion Contact Model [Okada+, IROS2024] Track2Act [Bharadhwaj+, ECCV2024] UniSim [Yang+, ICLR2024] DiffAIL [Wang+, AAAI2024] Reasoning with Latent Diffusion [Yang+, ICLR2024] Copilot4D [Zhang+, ICLR2024] ReorientDiff [Mishra+, ICRA2024]
以降のスライド 30 /92 マップ中の論文について抜粋しながら紹介します • 末尾のフォーマットに従って紹介します • マップ中の論文は資料中で概ね網羅していますが掲載できていないものもあります • 質より量重視 • 多くの論文についてはフォーマットを埋める程度の斜め読みです • 誤りもあるかと思います、ご了承ください 提案手法の コンセプト図 代表的な実験 結果例
後の研究に影響を与えた論文 31 /92 Diffuser [Janner+, ICML2022] ChainedDiffuser [Xian+, CoRL2023] Diffusion Policy [Chi+, RSS2023] Generative Skill Chaining [Mishra+, CoRL2023] Decision Diffuser [Ajay+, ICLR2023] Scaling Up & Distilling Down [Ha+, CoRL2023] Motion Diffuser [Jiang+, CVPR2023] PlayFusion [Chen+, CoRL2023] Language Control Diffusion [Zhang+, ICLR2023] BESO [Reuss+, RSS2023] MTDiff [He+, NeurIPS2023] Diffusion Co-Policy [Ng+, RAL2023] Meta Diffuser [Ni+, ICML2023] Cold Diffusion on Replay Buffer [Wang+, CoRL2023] Motion Planning Diffusion [Carvalho+,IROS2023] Noise & Back [Yoneda+, RSS2023] Diffusion QL [Wang+, ICLR2023] Hierarchical Diffuser [Chen+, ICML2024] Hierarchical Diffusion Policy [Ma+, CVPR2024] 凡例 モデルベース 強化学習 Flow to Better [Zhang+, ICLR2024] Consistency Policy [Parasad+, RSS2024] 模倣学習 3D Diffusion Policy [Ze+, RSS2024] Motion Primitive Diffusion [Scheikl+, RAL2024] モデルフリー 強化学習 Render & Diffusion [Vosylius+, RSS2024] その他 Oct [Ghosh+, RSS2024] BRIDGER [Chen+, RSS2024] Efficient Diffusion Policy [Kang+, NeurIPS2023] IDQL [Estruch+, arXiv2023] Multimodal Diffusion Transformer [Reuss+, RSS2024] Crossway Diffusion [Li+, ICRA2024] EDGI [Brehmer+, NeurIPS2023] NoMaD [Sridhar+, ICRA2024] HDMI [Li+, ICML2023] Consistency Policy RL [Ding+, ICLR2024] Diffusion BC [Pearce+, ICLR2023] Synthetic Experience Replay [Lu+,NeurIPS2023] GNFactor [Ze+, CoRL2023] CTG [Zhong+,ICRA2023] Extracting Reward [Nuti+, NeurIPS2023] DALL-E-Bot [Kapelyukh+, IROS2023] StructDiffusion [Liu+, RSS2023] ROSIE [Yu+, RSS2023] Score Guided Planning [Suh+, CoRL2023] SE3-DiffusionField [Urain+, ICRA2023] Diffusion-EDFs [Ryu+, CVPR2024] GenAug [Chen+,RSS2023] Diffusion CCSP [Yang+,CoRL2023] DiffuseBot [Wang+,NeurIPS2023] SuSIE [Black+, ICLR2024] Score Regularized Policy Optimization [Chen+, ICLR2024] CTG++ [Yang+,CoRL2023] Latent Diffusion Constrained Q-Learning [Venkatraman+, ICLR2024] Q-score Matching TODO [Psenka+, ICML2024] Diffusion Contact Model [Okada+, IROS2024] Track2Act [Bharadhwaj+, ECCV2024] UniSim [Yang+, ICLR2024] DiffAIL [Wang+, AAAI2024] Reasoning with Latent Diffusion [Yang+, ICLR2024] Copilot4D [Zhang+, ICLR2024] ReorientDiff [Mishra+, ICRA2024]
Planning with Diffusion for Flexible Behavior Synthesis [Janner+, ICML2022] • 【概要】 Diffuser: 拡散モデルを応用したモデルベース強化学習 • 【問題設定】 一般的なモデルベースの軌道最適化では DNN が自己回帰的に予測を行うため 誤差が蓄積、方策のパフォーマンスも低下 • 【提案】 拡散モデルで状態・行動の軌道を同時に予測、軌道報酬の勾配をもとに classifier-guidance で 軌道最適化 • 【実験】 オフライン強化学習のベンチマーク(D4RL)で主要ベースラインと同等の性能。 報酬関数を差し替えることで、学習データに含まれていないタスクへの汎化を実証 • 【課題】 計算コスト。オンラインでの強化学習への応用 32 /92
Diffusion Policy: Visuomotor Policy Learning via Action Diffusion [Chi+, RSS2023] • 【概要】 Diffusion Policy: 模倣学習の方策を拡散モデルで実現 • 【問題設定】 DNN で行動を直接予測する方策は表現力が低い;i.e., • 高次元(long horizon)にスケールしない • 多峰性の表現が難しい • 【提案】 観測(画像)を条件入力とした拡散モデルで、複数タイムステップの行動を予測する Diffusion Policy の提案 • 【実験】 長期の計画 and/or 多峰性の考慮が必要なタスクで既存の方策表現に対する優位性を確認 • 【課題】 計算コスト 33 /92
Diffusion Policies as an Expressive Policy Class for Offline Reinforcement [Wang+, ICLR2023] • 【概要】 オフライン強化学習 × 拡散モデル • 【問題設定】 オフライン強化学習における課題は一般的な方策が多峰性を表現できないこと • 【提案】 Diffusion-QL:オフライン強化学習 TD3+BC における方策に拡散モデルを採用 • 【実験】 オフライン強化学習ベンチマーク D4RL で SOTA • 【課題】 拡散モデルによる高い計算コスト 34 /92
Diffuser の拡張・応用 35 /92 Diffuser [Janner+, ICML2022] ChainedDiffuser [Xian+, CoRL2023] Diffusion Policy [Chi+, RSS2023] Generative Skill Chaining [Mishra+, CoRL2023] Decision Diffuser [Ajay+, ICLR2023] 高速化 マルチタスク化 言語指示対応 長期タスク 自動運転応用 etc. Scaling Up & Distilling Down [Ha+, CoRL2023] Motion Diffuser [Jiang+, CVPR2023] PlayFusion [Chen+, CoRL2023] Language Control Diffusion [Zhang+, ICLR2023] BESO [Reuss+, RSS2023] MTDiff [He+, NeurIPS2023] Diffusion Co-Policy [Ng+, RAL2023] Meta Diffuser [Ni+, ICML2023] Cold Diffusion on Replay Buffer [Wang+, CoRL2023] Motion Planning Diffusion [Carvalho+,IROS2023] Noise & Back [Yoneda+, RSS2023] Diffusion QL [Wang+, ICLR2023] Hierarchical Diffuser [Chen+, ICML2024] Hierarchical Diffusion Policy [Ma+, CVPR2024] 凡例 モデルベース 強化学習 Flow to Better [Zhang+, ICLR2024] Consistency Policy [Parasad+, RSS2024] 模倣学習 3D Diffusion Policy [Ze+, RSS2024] Motion Primitive Diffusion [Scheikl+, RAL2024] モデルフリー 強化学習 Render & Diffusion [Vosylius+, RSS2024] その他 Oct [Ghosh+, RSS2024] BRIDGER [Chen+, RSS2024] Efficient Diffusion Policy [Kang+, NeurIPS2023] IDQL [Estruch+, arXiv2023] Multimodal Diffusion Transformer [Reuss+, RSS2024] Crossway Diffusion [Li+, ICRA2024] EDGI [Brehmer+, NeurIPS2023] NoMaD [Sridhar+, ICRA2024] HDMI [Li+, ICML2023] Consistency Policy RL [Ding+, ICLR2024] Diffusion BC [Pearce+, ICLR2023] Synthetic Experience Replay [Lu+,NeurIPS2023] GNFactor [Ze+, CoRL2023] CTG [Zhong+,ICRA2023] Extracting Reward [Nuti+, NeurIPS2023] DALL-E-Bot [Kapelyukh+, IROS2023] StructDiffusion [Liu+, RSS2023] ROSIE [Yu+, RSS2023] Score Guided Planning [Suh+, CoRL2023] SE3-DiffusionField [Urain+, ICRA2023] Diffusion-EDFs [Ryu+, CVPR2024] GenAug [Chen+,RSS2023] Diffusion CCSP [Yang+,CoRL2023] DiffuseBot [Wang+,NeurIPS2023] SuSIE [Black+, ICLR2024] Score Regularized Policy Optimization [Chen+, ICLR2024] CTG++ [Yang+,CoRL2023] Latent Diffusion Constrained Q-Learning [Venkatraman+, ICLR2024] Q-score Matching TODO [Psenka+, ICML2024] Diffusion Contact Model [Okada+, IROS2024] Track2Act [Bharadhwaj+, ECCV2024] UniSim [Yang+, ICLR2024] DiffAIL [Wang+, AAAI2024] Reasoning with Latent Diffusion [Yang+, ICLR2024] Copilot4D [Zhang+, ICLR2024] ReorientDiff [Mishra+, ICRA2024]
ChainedDiffuser: Unifying Trajectory Diffusion and Keypose Prediction for Robotic Manipulation [Xian+,CoRL2023] • 【概要】 Diffuser の長期タスク対応 • 【問題設定】 拡散モデルでは long-horizon な行動予測は困難 • 【提案】 言語指示や点群データからマクロアクション(初期状態と目標状態での姿勢)を予測。 拡散モデルをマクロアクションで条件付けし行動生成 • 【実験】 シミュレーション、実ロボットでの評価で Diffuser を outperform • 【課題】 joint-space での行動生成。動的な環境への柔軟性。カメラ較正が必要 36 /92
Is Conditional Generative Modeling all you need for Decision-Making? [Ajay+,ICLR2024] 37 /92 • 【概要】 Diffuser のマルチタスク化 • 【問題設定】 多様な条件でラベル付けした多様な軌道で Diffuser を学習させれば、prompt 次第で 様々なタスクをこなせるようになるのでは? • 【提案】 報酬、制約、スキルなどで条件付けした Diffuser を学習。複数の条件を組み合わせて計画を実施 • 【実験】 D4RL ベンチで Diffuser を outperform。複数の条件やスキルの組合せでの新規動作を実現 • 【課題】 部分観測への対応、OR条件への対応(AND, NOT のみ)、外乱のある環境に弱い Trott Trott + Bound Bound
MotionDiffuser: Controllable Multi-Agent Motion Prediction using Diffusion [Jiang+, CVPR2023] • 【概要】 Diffuser によるマルチエージェント(複数の自動車)の軌道予測 • 【問題設定】 複数の軌道を矛盾なく予測することが難しい。分布に多峰性がある。通常の回帰では様々な シーンに対応できない。 • 【提案】 拡散モデルで複数の自動車の軌道を予測。周辺環境の条件付けのためのコスト関数を設計し、 分類器ガイダンス • 【実験】 Waymo Open Motion Dataset での評価で SOTA • 【課題】 自動運転の別タスク(プランニング、シーン生成)への適用 38 /92
Language Control Diffusion: Efficiently Scaling through Space, Time, and Tasks [Zhang+,ICLR2024] • 【概要】 Diffuser の高次元観測、言語指示、long-horizon タスクへの拡張 • 【問題設定】 Diffuser をそのまま上記に拡張することは困難 • 【提案】 言語指示を入力とし、サブゴールを推論する high level policy を拡散モデルで構築。 サブゴールは学習済みの low level policy が出力する潜在状態の軌道を間引いて抽出 • 【実験】 CALVIN ベンチマークで SOTA 達成 • 【課題】 階層レベルの拡張 39 /92
Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning [He+,NeurIPS2023] • 【概要】 Diffuser のマルチタスク化 • 【問題設定】 Diffuser の異なるタスク間の汎化性能については十分に評価されていない • 【提案】 prompt (特定のタスクの軌道のログ)も入力とする Transformer 型の Diffuser を学習 • 【実験】 Meta-World ベンチマークでの 50 タスクの評価で、ベースラインを outperform • 【課題】 実ロボットへの展開 40 /92
MetaDiffuser: Diffusion Model as Conditional Planner for Offline Meta-RL [Ni+, ICML2023] 41 /92 • 【概要】 Diffuser のマルチタスク化 • 【問題設定】 Diffuser の異なるタスク間の汎化性能については十分に評価されていない • 【提案】 タスクの軌道から context encoder がタスクの潜在表現 𝑧 を出力。𝑧 で条件づけられた Diffuser, 及び報酬・ダイナミクスモデル(ガイダンス用)を学習 • 【実験】 新たなタスクに汎化させる実験において、ベースラインを outperform。新規タスクの潜在表現の推論 に使うデータの品質にも頑健 • 【課題】 実ロボットへの展開
Cold Diffusion on the Replay Buffer: Learning to Plan from Known Good States [Wang+,CoRL2023] • 【概要】 Goal-conditioned なタスクへの Diffuser の応用 • 【問題設定】 完全なガウスノイズからのデノイズは infeasible な計画を出力する可能性 • 【提案】 CDRB (Cold Diffusion on the Replay Buffer): 拡散プロセス(ガウスノイズ付与)を replay buffer からのランダムサンプリングに置き換え • 【実験】 goal conditioned なタスクで Diffuser を outperform • 【課題】 デノイジングステップ数の設定やデータの質に敏感 Cold Diffusion: ノイズによらない変換と復元 42 /92
Motion Planning Diffusion: Learning and Planning of Robot Motions with Diffusion Models [Carvalho+,IROS2023] 43 /92 • 【概要】 Diffuser の実ロボットのための動作生成 • 【問題設定】 最適化に基づくロボットの動作生成は、よい初期解の設定に強く依存。 また多峰性のある動作生成ができない • 【提案】 ロボットの軌道を学習させた拡散モデルを活用。Hand-designed なコスト関数で拡散モデルの生成 を classifier-guidance • 【実験】 Collision-free な動作計画が求められるタスクでベースラインから成功率改善 • 【課題】 異なる軌道の表現方法(joint-space?)への適用
To the Noise and Back: Diffusion for Shared Autonomy [Yoneda+,RSS2023] • 【概要】 人と自律エージェントの共同作業を Diffuser で実現 • 【問題設定】 人・エージェントの共同作業はエージェントが人の意図をくみ取る必要があり、 報酬ベースでの制御が難しい • 【提案】 人の行動にを拡散過程で一定のノイズを加えた後、逆拡散過程でエージェントの行動を生成 • 【実験】 ゲームや実ロボットでのタスクで、共同作業により成功率改善 • 【課題】 人とエージェントの状態分布の不一致への対処 44 /92
EDGI: Equivariant Diffusion for Planning with Embodied Agents [Brehmer+,NeurIPS2023] • 【概要】 Diffuser における対称性の考慮 • 【問題設定】 Diffuser は対称性を考慮しておらずサンプル効率が悪い • 【提案】 並進・回転対称性、時間対称性、物体の順列対称性を考慮したデノイジングネットワーク • 【実験】 シミュレーション上のナビゲーション、ロボットタスクで評価。特にデータ数が少ない設定において Diffuser を outperform • 【課題】 デノイジングに由来する計算コスト 45 /92
Hierarchical Diffusion for Offline Decision MakIng [Li+,ICML2023] • 【概要】 Diffuser による階層的な計画 • 【問題設定】 long horizon task の困難性 • 【提案】 HDMI: サブゴールを予測する Diffuser と サブゴール間の軌道を予測する Diffuser を用い、 階層的な計画を実施。サブゴールの抽出は教示データのクラスタリング、グラフ化などで実施 • 【実験】 特に迷路タスクにおいて Diffuser を outperform • 【課題】 2つの Diffuser の同時学習、解釈性のあるスキルの自動抽出 46 /92
Simple Hierarchical Planning with Diffusion [Chen+,ICML2024] • 【概要】 Diffuser による階層的な計画 • 【問題設定】 long horizon task の困難性 • 【提案】 Hierarchical Diffuser: サブゴールを予測する Diffuser と サブゴール間の軌道を予測する Diffuser を用い、階層的な計画を実施。サブゴールは単純に教示から K ステップずつ間引くことで抽出。 • 【実験】 迷路タスクにおいて HDMI を outperform • 【課題】 データセットの質に依存。インターバル K の設定の困難性 47 /92
Flow to Better: Offline Preference-based Reinforcement Learning via Preferred Trajectory Generation [Zhang+, ICLR2024] 48 /92 • 【概要】 Diffuser の嗜好ベースオフライン強化学習への応用 • 嗜好ベース:データセット内の軌道間のペアに人が判定した優劣のラベルが付与さ • 【問題設定】 従来手法はデータセットから transition-wise な報酬関数を学習した後に方策を学習するが、 報酬関数の学習が難しい • 【提案】 FTB: low-preference な軌道から high-preference な軌道へ変換する Diffuser を学習。 Diffuser の出力するデータをもとに方策を模倣学習 • 【実験】 シミュレーションベンチマーク(i.e., D4RL, MetaWorld)でベースラインを大幅に outperform • 【課題】 計算コスト、学習時間が長い
Diffusion Policy の拡張・応用 Diffuser [Janner+, ICML2022] ChainedDiffuser [Xian+, CoRL2023] Diffusion Policy [Chi+, RSS2023] Generative Skill Chaining [Mishra+, CoRL2023] Decision Diffuser [Ajay+, ICLR2023] Scaling Up & Distilling Down [Ha+, CoRL2023] Motion Diffuser [Jiang+, CVPR2023] PlayFusion [Chen+, CoRL2023] Language Control Diffusion [Zhang+, ICLR2023] BESO [Reuss+, RSS2023] MTDiff [He+, NeurIPS2023] Diffusion Co-Policy [Ng+, RAL2023] Meta Diffuser [Ni+, ICML2023] Cold Diffusion on Replay Buffer [Wang+, CoRL2023] Motion Planning Diffusion [Carvalho+,IROS2023] Noise & Back [Yoneda+, RSS2023] Diffusion QL [Wang+, ICLR2023] 49 /92 Hierarchical Diffusion Policy [Ma+, CVPR2024] IDQL [Estruch+, arXiv2023] モデルベース 強化学習 Flow to Better [Zhang+, ICLR2024] Consistency Policy [Parasad+, RSS2024] 模倣学習 3D Diffusion Policy [Ze+, RSS2024] Motion Primitive Diffusion [Scheikl+, RAL2024] 高速化 階層化 マルチタスク化 言語指示対応 etc. Render & Diffusion [Vosylius+, RSS2024] Oct [Ghosh+, RSS2024] BRIDGER [Chen+, RSS2024] Efficient Diffusion Policy [Kang+, NeurIPS2023] 凡例 Hierarchical Diffuser [Chen+, ICML2024] モデルフリー 強化学習 その他 Multimodal Diffusion Transformer [Reuss+, RSS2024] Crossway Diffusion [Li+, ICRA2024] EDGI [Brehmer+, NeurIPS2023] NoMaD [Sridhar+, ICRA2024] HDMI [Li+, ICML2023] Consistency Policy RL [Ding+, ICLR2024] Diffusion BC [Pearce+, ICLR2023] Synthetic Experience Replay [Lu+,NeurIPS2023] GNFactor [Ze+, CoRL2023] CTG [Zhong+,ICRA2023] Extracting Reward [Nuti+, NeurIPS2023] DALL-E-Bot [Kapelyukh+, IROS2023] StructDiffusion [Liu+, RSS2023] ROSIE [Yu+, RSS2023] Score Guided Planning [Suh+, CoRL2023] SE3-DiffusionField [Urain+, ICRA2023] Diffusion-EDFs [Ryu+, CVPR2024] GenAug [Chen+,RSS2023] Diffusion CCSP [Yang+,CoRL2023] DiffuseBot [Wang+,NeurIPS2023] SuSIE [Black+, ICLR2024] Score Regularized Policy Optimization [Chen+, ICLR2024] CTG++ [Yang+,CoRL2023] Latent Diffusion Constrained Q-Learning [Venkatraman+, ICLR2024] Q-score Matching TODO [Psenka+, ICML2024] Diffusion Contact Model [Okada+, IROS2024] Track2Act [Bharadhwaj+, ECCV2024] UniSim [Yang+, ICLR2024] DiffAIL [Wang+, AAAI2024] Reasoning with Latent Diffusion [Yang+, ICLR2024] Copilot4D [Zhang+, ICLR2024] ReorientDiff [Mishra+, ICRA2024]
Generative Skill Chaining: Long-Horizon Skill Planning with Diffusion Models [Mishra+,CoRL2023] 50 /92 • 【概要】 拡散モデルによるスキルの組合せの生成 • 【問題設定】 高レベルのスキル(e.g., pick, place)の組合せによる long-horizon task の解法 • 【提案】 各スキルを表現する Diffusion Policy を用意。初期状態から目標状態までスキルが 適切に連鎖するように(状態・行動が滑らかに遷移するように)制約を加えた classifier-guidance を実施 • 【実験】 特にスキルの新規組合せが必要なタスクで成功率改善 • 【課題】 タスクを解くためのスキルセットと順番は所与
Scaling Up and Distilling Down: Language-Guided Robot Skill Acquisition [Ha+,CoRL2023] 51 /92 • 【概要】 Diffusion Policy の大規模モデル化 • 【問題設定】 多様なデータの大量収集と、大規模データセットからの効率的な方策の学習 • 【提案】 (データ収集)LLM で言語指示をサブタスクに分解後、制御コードを生成。サブタスクの成否検証も LLM で実施しラベル付け。失敗時は復帰・再試行することで多様なデータを収集。(学習)言語入力を持 つ Diffusion Policy を学習 • 【実験】 検証と再試行による多様なデータを収集することで、タスクの成功率改善 • 【課題】 データ収集はシミュレーションに限定。操作対象となるオブジェクトの種類が限定
PlayFusion: Skill Acquisition via Diffusion from Language-Annotated Play [, CoRL2023] • 【概要】 多様なスキルを内包する Diffusion Policy • 【問題設定】 プレイデータ(≠ デモンストレーション)からの方策獲得。 プレイデータは必ずしも最適な軌道ではないが、言語でのアノテーションが容易、かつ多様な軌道を収集可能。 • 【提案】 言語指示入力を持つ Diffusion Policy を学習。暗にスキルを獲得することを期待し、 内部表現を Vector Quantized VAE で離散化 • 【実験】 特に未知のタスクについてベースラインから成功率改善 • 【課題】 VQA モデルによる自動アノテーション。実ロボットでのさらなる性能改善 52 /92
Goal-Conditioned Imitation Learning using Score-based Diffusion Policies [Reuss+,RSS2023] • 【概要】 Diffusion Policy のゴール条件付けタスクへの拡張 • 【問題設定】 ゴール状態で条件された方策の模倣学習は有望なアプローチであるが、 先行研究は方策の表現力に課題(多峰性が表現できない) • 【提案】 Diffusion Poilcy にゴール状態の入力を追加した BESO の提案。アーキテクチャの工夫で3回の デノイジングステップで行動生成 • 【実験】 シミュレーションタスクで従来の模倣学習や Diffusion Policy を outperform • 【課題】 言語指示での条件付けへの拡張 53 /92
Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation [Parasad+, RSS2024] • 【概要】 Diffusion Policy の高速化 • 【問題設定】 Diffusion Policy では低遅延、高周期の制御が不可能 • 【提案】 Consistency Distillation と呼ばれる手法に基づき、必要な繰り返し回数が少ない 方策モデルを蒸留 • 【実験】 少ない繰り返し回数で Diffusion Policy と同等(or 少しの劣化)のタスク成功率を達成 • 【課題】 拡散モデルの利点の一つである多峰性が蒸留により消失 54 /92
3D Diffusion Policy [Ze+, RSS2024] • 【概要】 Diffusion Policy の 3D 入力への拡張 • 【問題設定】 視覚情報からの模倣学習はサンプル効率が悪い • 【提案】 点群データのエンコーダを含む Diffusion Policy を End-to-End で学習 • 【実験】 シミュレーション&実機タスクで成功率を改善 • 【課題】 extremely long horizon なタスクでの性能は未検証 55 /92
Movement Primitive Diffusion: Learning Gentle Robotic Manipulation of Deformable Objects [Scheikl+, RAL2024] 56 /92 • 【概要】 拡散モデルによる柔軟物体の制御 • 【問題設定】 ロボットによる手術などのタスクにおいては少量データでの学習、および、連続的かつ gentle な制御が求められる • 【提案】 拡散モデルにより動作プリミティブ(DMP: Dynamic Movement Primitives、 一連の動作の数式表現)のパラメタを予測 • 【実験】 柔軟物の操作タスクで、Diffusion Policy に対するサンプル効率性や動作の滑らかさの優位性を実証 • 【課題】 手術タスクへの応用
Render and Diffuse: Aligning Image and Action Spaces for Diffusion-based Behaviour Cloning [Vosylius+, RSS2024] • 【概要】 Diffusion Policy による行動と高次元観測の予測 • 【問題設定】 方策に行動と観測を予測させることで、タスクの理解が促進されるが、 観測(画像)と比較して行動が低次元であるがゆえに、モデルへの行動入力が埋もれてしまいやすい • 【提案】 行動によるグリッパ位置の遷移を画像として可視化(高次元化)したうえで拡散モデルに入力。 モデルは行動と観測(グリッパ位置の点群)を予測する • 【実験】 特に教示サンプルが少ない設定で、Diffusion Policy に対する優位性を確認 • 【課題】 計算コスト。カメラ較正が必要。オクルージョンに弱い 57 /92
Octo: An Open-Source Generalist Robot Policy [Ghosh+,RSS2024] 58 /92 • 【概要】 拡散モデルによる Generalist Robot Policy(GRP; 様々なタスクに適用可能な方策) • 【問題設定】 言語指示可能な GRP(e.g., RT シリーズ)の公式実装の多くは非公開 • 【提案】 Diffusion Policy をもとに GRP を構築しオープンソース化、モデル公開 • 【実験】 Open X-Embodiment データセットでモデルを学習。Zero-shot 評価で RT シリーズ(非公式実 装)に匹敵する性能。少数データのファインチューニングで未知のドメインに対応 • 【課題】 移動可能なロボットへの対応、手首カメラからの入力への対応
Don’t Start from Scratch: Behavioral Refinement via Interpolant-based Policy Diffusion [Chen+,RSS2024] • 【概要】 Diffusion Policy の生成過程の効率化 • 【問題設定】 ガウス分布に基づく行動生成は非効率 • 【提案】 BRIDGER: Stochastic Interpolants の理論に基づき、任意の分布からの生成ができるように Diffusion Policy を一般化。確率分布は人手で設計、もしくは Conditional VAE でデータから学習 • 【実験】 シミュレーション・実機評価で Diffusion Policy から性能改善を実証 • 【課題】 確率分布に安全性の制約や人の嗜好を組み込めないか? 59 /92
Multimodal Diffusion Transformer: Learning Versatile Behavior from Multimodal Goals [Reuss+,RSS2024] 60 /92 • 【概要】 Diffusion Policy の複数モーダルでのゴール条件付け • 【問題設定】言語指示がアノテーションされた教示データセットの構築は高コスト • 【提案】 Multimodal Diffusion Transformer: ゴール状態を言語や画像などの複数のモーダルで 条件付け可能な Diffusion Policy。言語・画像から推論されるゴールの潜在状態が一致するように対照学習 • 【実験】 CALVIN, LIBERO などのシミュレーションベンチマークにおいて、言語指示のラベルが少ない設定でもベー スラインを outperform • 【課題】 一部のベンチマークでは性能改善はできず
Crossway Diffusion: Improving Diffusion-based Visuomotor Policyvia Selfsupervised Learning [Li+, ICRA2024] • 【概要】自己教師あり学習 × Diffusion Policy • 【問題設定】 Diffusion Policy の性能改善 • 【提案】 Diffusion Policy の中間層のベクトルから状態入力を再構成する auxiliary loss を追加 • 【実験】 特に実ロボットでのタスクで Diffusion Policy の成功率を改善 • 【課題】 最先端の自己教師あり学習の適用 61 /92
NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [Sridhar+, ICRA2024] 62 /92 • 【概要】 単一の Diffusion Policy による Exploitation と Exploration の実現 • 【問題設定】 未知環境の Navigation タスクにおいて地図作成のための探索とゴールへの誘導を 両立する方策表現が難しい • 【提案】 NoMaD (Navigation with Goal Masked Diffusion): 画像観測とゴール画像から行動を予測 する Diffusion Policy。ゴール画像は一定確率でマスキングし探索行動を誘発 • 【実験】 探索・誘導の成功率をベースラインから大きく改善。衝突回数も削減 • 【課題】 画像以外での目標位置の指示への対応など
モデルフリーオフライン強化学習の発展 Diffuser [Janner+, ICML2022] ChainedDiffuser [Xian+, CoRL2023] Diffusion Policy [Chi+, RSS2023] Generative Skill Chaining [Mishra+, CoRL2023] Decision Diffuser [Ajay+, ICLR2023] Scaling Up & Distilling Down [Ha+, CoRL2023] Motion Diffuser [Jiang+, CVPR2023] PlayFusion [Chen+, CoRL2023] Language Control Diffusion [Zhang+, ICLR2023] BESO [Reuss+, RSS2023] MTDiff [He+, NeurIPS2023] Diffusion Co-Policy [Ng+, RAL2023] Meta Diffuser [Ni+, ICML2023] Cold Diffusion on Replay Buffer [Wang+, CoRL2023] Motion Planning Diffusion [Carvalho+,IROS2023] Noise & Back [Yoneda+, RSS2023] Diffusion QL [Wang+, ICLR2023] 63 /92 Hierarchical Diffuser [Chen+, ICML2024] Hierarchical Diffusion Policy [Ma+, CVPR2024] 凡例 モデルベース 強化学習 Flow to Better [Zhang+, ICLR2024] Consistency Policy [Parasad+, RSS2024] 模倣学習 3D Diffusion Policy [Ze+, RSS2024] Motion Primitive Diffusion [Scheikl+, RAL2024] モデルフリー 強化学習 Render & Diffusion [Vosylius+, RSS2024] その他 Oct [Ghosh+, RSS2024] BRIDGER [Chen+, RSS2024] Efficient Diffusion Policy [Kang+, NeurIPS2023] IDQL [Estruch+, arXiv2023] Multimodal Diffusion Transformer [Reuss+, RSS2024] Crossway Diffusion [Li+, ICRA2024] EDGI [Brehmer+, NeurIPS2023] NoMaD [Sridhar+, ICRA2024] HDMI [Li+, ICML2023] Consistency Policy RL [Ding+, ICLR2024] Diffusion BC [Pearce+, ICLR2023] Synthetic Experience Replay [Lu+,NeurIPS2023] GNFactor [Ze+, CoRL2023] CTG [Zhong+,ICRA2023] Extracting Reward [Nuti+, NeurIPS2023] DALL-E-Bot [Kapelyukh+, IROS2023] StructDiffusion [Liu+, RSS2023] ROSIE [Yu+, RSS2023] Score Guided Planning [Suh+, CoRL2023] SE3-DiffusionField [Urain+, ICRA2023] Diffusion-EDFs [Ryu+, CVPR2024] GenAug [Chen+,RSS2023] Diffusion CCSP [Yang+,CoRL2023] DiffuseBot [Wang+,NeurIPS2023] SuSIE [Black+, ICLR2024] • 別の学習則への適用 • 高速化、など Score Regularized Policy Optimization [Chen+, ICLR2024] CTG++ [Yang+,CoRL2023] Latent Diffusion Constrained Q-Learning [Venkatraman+, ICLR2024] Q-score Matching TODO [Psenka+, ICML2024] Diffusion Contact Model [Okada+, IROS2024] Track2Act [Bharadhwaj+, ECCV2024] UniSim [Yang+, ICLR2024] DiffAIL [Wang+, AAAI2024] Reasoning with Latent Diffusion [Yang+, ICLR2024] Copilot4D [Zhang+, ICLR2024] ReorientDiff [Mishra+, ICRA2024]
IDQL: Implicit Q-Learning as an Actor-CriticMethod with Diffusion Policies [Estruch+, arXiv2023] • 【概要】 オフライン強化学習 × 拡散モデル • 【問題設定】 オフライン強化学習における課題は一般的な方策が多峰性を表現できないこと • 【提案】 IDQL:オフライン強化学習 Implicit Q-learning における方策に拡散モデルを採用 • 【実験】 オフライン強化学習ベンチマーク D4RL で SOTA • 【課題】 行動空間の次元が小さいタスク(e.g., locomotion) では過学習が発生 64 /92
Efficient Diffusion Policies for Offline Reinforcement Learning [Kang+,NeurIPS2023] • 【概要】 Diffusion-QL の学習の効率化 • 【問題設定】 Diffusion-QL は学習時の行動生成の際、 デノイジングを全ステップ実行しており効率が悪い • 【提案】 行動生成を中間ステップから実施、 かつ 1ステップのデノイジングで近似 • 【実験】 D4RL ベンチでの学習時間を大幅に短縮し、 かつスコアも向上 • 【課題】 N/A 65 /92
Consistency Models as a Rich and Efficient Policy Class for Reinforcement Learning [Ding+,ICLR2024] • 【概要】 Diffusion Policy の高速化 • 【問題設定】 拡散モデルによる方策表現は計算が高コスト。特に強化学習の際は、繰り返しの全ステップ を Back-Prop. する必要がある • 【提案】 Consistency Model で方策表現した際の、模倣学習・強化学習の性能を評価 • 【実験】 Diffusion-QL に対して学習、推論時間を削減しつつ、同等の性能 • 【課題】 N/A 66 /92
Score Regularized Policy Optimization through Diffusion Behavior [Chen+, ICLR2024] • 【概要】 オフライン強化学習における正則化を拡散モデルで実現 • 【問題設定】 拡散モデルでの方策の表現は計算コストが高い • 【提案】 オフライン強化学習における方策正則化において経験分布 𝜇 を拡散モデルで表現。 学習・推論時からデノイジングステップを不要に • 【実験】 Diffusion-QL などと同等の性能を達成しつつ、計算コストを大幅に削減 • 【課題】 N/A 正則化:𝜋𝜃 が 𝜇 から離れすぎないようにする 拡散モデル:勾配だけが必要なので 複数のデノイジングステップは不要 67 /92
Reasoning with Latent Diffusion in Offline Reinforcement Learning [Venkatraman+,ICLR2024] • 【概要】 拡散モデルによるスキルの潜在表現獲得 • 【問題設定】 オフライン強化学習で状態・行動軌道の直接推論は適さない • 【提案】 潜在状態 𝑧 で条件づけられた low-level 方策と Q 関数を学習。 潜在状態の分布 𝑝(𝑧|𝑠) は多峰性があるため拡散モデルで表現 • 【実験】 D4RL で Diffuser, Decision Diffuser と competitive、特に疎報酬のタスクで差が顕著 • 【課題】 推論時の計算コスト 68 /92
その他 69 /92 Diffuser [Janner+, ICML2022] ChainedDiffuser [Xian+, CoRL2023] Diffusion Policy [Chi+, RSS2023] Generative Skill Chaining [Mishra+, CoRL2023] Decision Diffuser [Ajay+, ICLR2023] Scaling Up & Distilling Down [Ha+, CoRL2023] Motion Diffuser [Jiang+, CVPR2023] PlayFusion [Chen+, CoRL2023] Language Control Diffusion [Zhang+, ICLR2023] BESO [Reuss+, RSS2023] MTDiff [He+, NeurIPS2023] Diffusion Co-Policy [Ng+, RAL2023] Meta Diffuser [Ni+, ICML2023] Cold Diffusion on Replay Buffer [Wang+, CoRL2023] Motion Planning Diffusion [Carvalho+,IROS2023] Noise & Back [Yoneda+, RSS2023] Diffusion QL [Wang+, ICLR2023] Hierarchical Diffuser [Chen+, ICML2024] Hierarchical Diffusion Policy [Ma+, CVPR2024] 凡例 モデルベース 強化学習 Flow to Better [Zhang+, ICLR2024] Consistency Policy [Parasad+, RSS2024] 模倣学習 3D Diffusion Policy [Ze+, RSS2024] Motion Primitive Diffusion [Scheikl+, RAL2024] モデルフリー 強化学習 Render & Diffusion [Vosylius+, RSS2024] その他 Oct [Ghosh+, RSS2024] BRIDGER [Chen+, RSS2024] Efficient Diffusion Policy [Kang+, NeurIPS2023] IDQL [Estruch+, arXiv2023] Multimodal Diffusion Transformer [Reuss+, RSS2024] Crossway Diffusion [Li+, ICRA2024] EDGI [Brehmer+, NeurIPS2023] NoMaD [Sridhar+, ICRA2024] HDMI [Li+, ICML2023] Consistency Policy RL [Ding+, ICLR2024] Diffusion BC [Pearce+, ICLR2023] Synthetic Experience Replay [Lu+,NeurIPS2023] GNFactor [Ze+, CoRL2023] CTG [Zhong+,ICRA2023] Extracting Reward [Nuti+, NeurIPS2023] DALL-E-Bot [Kapelyukh+, IROS2023] StructDiffusion [Liu+, RSS2023] ROSIE [Yu+, RSS2023] Score Guided Planning [Suh+, CoRL2023] SE3-DiffusionField [Urain+, ICRA2023] Diffusion-EDFs [Ryu+, CVPR2024] GenAug [Chen+,RSS2023] Diffusion CCSP [Yang+,CoRL2023] DiffuseBot [Wang+,NeurIPS2023] SuSIE [Black+, ICLR2024] Score Regularized Policy Optimization [Chen+, ICLR2024] CTG++ [Yang+,CoRL2023] Latent Diffusion Constrained Q-Learning [Venkatraman+, ICLR2024] Q-score Matching TODO [Psenka+, ICML2024] Diffusion Contact Model [Okada+, IROS2024] Track2Act [Bharadhwaj+, ECCV2024] UniSim [Yang+, ICLR2024] DiffAIL [Wang+, AAAI2024] Reasoning with Latent Diffusion [Yang+, ICLR2024] Copilot4D [Zhang+, ICLR2024] ReorientDiff [Mishra+, ICRA2024]
GNFactor: Multi-Task Real Robot Learning with Generalizable Neural Feature Fields [Ze+,CoRL2023] • 【概要】 拡散モデルによる画像再構成に基づく 3D シーンの理解 • 【問題設定】 3D シーンの意味的理解なしにロボットが言語指示タスクを解くのは困難 • 【提案】 RGB-D 入力から複数視点の画像を再構成する NeRF モデルと、言語指示を入力とする方策を模 倣学習。エンコーダ部に学習済みの基盤モデル(Stable Diffusion)を活用(逆拡散過程は利用せず) • 【実験】 シミュレーション、実ロボット実験でベースライン(perceiver-actor)を outperform • 【課題】 学習に複数視点から撮影された映像が必要 70 /92
Extracting Reward Functions from Diffusion Models [Nuti+,NeurIPS2023] • 【概要】 拡散モデルによる逆強化学習 • 【問題設定】 エキスパートの行動から報酬関数を導き出す逆強化学習は、 学習過程に強化学習を含み効率が悪い • 【提案】 エキスパート、非エキスパートのデータから学習された Diffuser が出力するスコアの差分から 報酬関数を推定 • 【実験】 D4RL タスクで、学習された報酬関数による classifier guidance により、非エキスパートの Diffuser の性能を改善。 • 【課題】 実験がシミュレーション環境にのみ限定 71 /92
DiffuseBot: Breeding Soft Robots With Physics-Augmented Generative Diffusion Models [Wang+,NeurIPS2023] • 【概要】 拡散モデルによるソフトロボット設計 • 【問題設定】 拡散モデルによるソフトロボットの自動設計は有望であるが、物理特性を考慮しておらず、 また、学習データに含まれないのタスク設定に適用できない • 【提案】 ロボットの形状と制御系を生成する拡散モデルを学習。生成時にはタスクの性能を 微分可能シミュレータで定量評価し、評価値に従って classifier guidance。 • 【実験】 様々なタスクの自動設計のシミュレーション評価でベースラインからパフォーマンス改善 • 【課題】 Sim2real ギャップなど DiffuseBot: Breeding Soft Robots With Physics-Augmented Generative Diffusion Models 72 /92
GenAug: Retargeting behaviors to unseen situations via Generative Augmentation [Chen+,RSS2023] • 【概要】 画像のスタイル変換によるデータ拡張 • 【問題設定】 模倣学習による視覚制御を汎化させるためには多種多様な画像のデータセットが必要 • 【提案】 拡散モデルを利用し、言語指示に従って画像データを拡張 • 【実験】 物体操作タスクの実機評価で未知のタスクでの成功率を改善 • 【課題】 行動データの拡張は不可。データ拡張に時間がかかる(1サンプル当たり30秒) 73 /92
Scaling Robot Learning with Semantically Imagined Experience [Yu+, RSS2023] 74 /92 • 【概要】 画像生成によるロボット学習データセットの拡張 (data augmentation) • 【問題設定】 画像データセットに対してロボット学習のためデータセットは小規模であり、 かつデータの収集もコストが高い • 【提案】 言語指示で既存のデータセットを加工しデータ拡張を行う ROSIE の提案(色を変える、タスクと無関係 の物体を配置するなど) • 【実験】 データ拡張により RT-1 の成功率改善 • 【課題】データ拡張の処理に時間を要する、アクションの拡張は不可。
Synthetic Experience Replay [Lu+,NeurIPS2023] • 【概要】 拡散モデルによるデータ拡張 • 【問題設定】 深層強化学習において学習を成功させるためには多くのデータが必要 • 【提案】 拡散モデルを利用し、replay buffer のデータを水増し(up-sampling) • 【実験】 シミュレーション評価でオンライン・オフライン強化学習の両条件で有効性を実証。視覚制御でも有効 • 【課題】 n-step formulation への拡張など 75 /92
Guided Conditional Diffusion for Controllable Traffic Simulation [Zhong+,ICRA2023] • 【概要】 拡散モデルによる交通シミュレーション • 【問題設定】 データ駆動アプローチで制御性とリアリズムの両方を兼ね備えた交通シミュレータを構築する • 【提案】 Conditional Traffic Generation (CTG): 実データから自動車の軌道を生成する拡散モデルを 学習。所望のシーンの生成のため、所与の速度制約や交通ルールに従うように classifier-guidance • 【実験】 特に複数の制約を課したシーン生成においてベースラインから性能を改善 • 【課題】 対象が自動車のみで、自転車・歩行者などは含まれない 76 /92
Language-Guided Traffic Simulation via Scene-Level Diffusion [Zhong+,CoRL2023] • 【概要】 拡散モデルによる交通シミュレーション • 【問題設定】 user-friendly なインターフェースを備えた交通シミュレータを構築する • 【提案】 CTG++: 実データから自動車の軌道を生成する拡散モデルを学習。所望のシーンを言語で指定す るために、LLM で classifier-guidance 用の評価関数のコードを生成 • 【実験】 ベースラインから性能を改善 • 【課題】 LLM に地図情報を入力できていない、LLM が生成したコードの検証・修正ができない。 77 /92
DALL-E-Bot: Introducing Web-Scale Diffusion Models to Robotics [Kapelyukh+, IROS2023] • 【概要】 言語指示による物体の配置タスクにおいて拡散モデルで目標状態の画像を予測 • 【問題設定】 目標状態の予測は有用な方法であるが、モデル構築に大量のデータが必要 • 【提案】 DALL-E により言語指示で目標状態をゼロショットで予測。あとはパターンマッチングなどで ルールベース制御 • 【実験】 ロボットが指示通りにオブジェクトを配置できることを主観評価で実証 • 【課題】 自由度 3DoF のみ。オブジェクトの重なりを未考慮。文字の扱いが苦手 78 /92
Fighting Uncertainty with Gradients: OfflineReinforcement Learning via Diffusion Score Matching [Suh+,CoRL2023] 79 /92 • 【概要】 拡散モデルによる不確実性の推定 • 【問題設定】 モデルベース強化学習において予測の不確実性の活用は有効だが、 アンサンブルなどの手法は不確実性を過小評価する • 【提案】 予測値からデータへの距離を不確実性と定義。距離の勾配は拡散モデルで計算できることを証明し、 高コストな距離計算をスキップ。累積報酬と距離で定義される目的関数を勾配法で最適化 • 【実験】 オフライン強化学習 D4RL ベンチマークでアンサンブルベースの手法 (i.e., MOPO) を outperform • 【課題】 摂動的な不確実性(aleatoric uncertainty)への対応
StructDiffusion: Language-Guided Creationof Physically-Valid Structures using Unseen Objects [Liu+,RSS2023] • 【概要】 拡散モデルの物体の再配置タスクへの応用 • 【問題設定】 言語指示での物体の配置タスクにおいて、未知の物体に対して汎化させることは困難 • 【提案】 言語指示、点群データ、姿勢を入力とする Transformer で構成される拡散モデルで、 各物体の目標位置・姿勢を推論。推論した配置が適切かを判定する discriminator も別途学習 • 【実験】 シミュレーション、実機実験で成功率を平均 16% 改善 • 【課題】 ロボットのモーションプランニングとの組み合わせ 80 /92
SE(3)-Diffusion Fields: Learning smooth cost functions forjoint grasp and motion optimization through diffusion [Urain+,ICRA2023] • 【概要】 最適化によるモーションプランニングのためのコスト関数の学習 • 【問題設定】 既存研究における教示データからのコスト関数の学習は広範囲の plateau を生成しがちで、 勾配法による最適化に適さない • 【提案】 滑らかなコスト関数の構築のため拡散モデルを利用し、把持位置推定のための目的関数を学習。並 進・回転対称性を考慮。Hand-designed な目的関数と組み合わせて動作全体を計画。 • 【実験】 干渉を避けながら特定の物体を把持するタスクで成功率改善 • 【課題】 複数の拡散モデルの組合せによるより複雑な動作生成、閉ループ制御への適用 81 /92
Diffusion-EDFs: Bi-equivariant Denoising GenerativeModeling on SE(3) for Visual Robotic Manipulation [Ryu+,CVPR2024] • 【概要】 拡散モデルにおける対称性の考慮 • 【問題設定】 対称性を考慮しておらずサンプル効率が悪い • 【提案】 並進・回転対称性を考慮した拡散モデルの学習則を導出。 点群データ入力からロボットの目標位置姿勢を推論する拡散モデルを構築 • 【実験】 Pick & Place タスクの数個の教示データで、未知の物体・姿勢に対して汎化性向上 • 【課題】 軌道レベルの推論ができない 82 /92
Track2Act: Predicting Point Tracks from Internet Videos enables Diverse Zero-shot Robot Manipulation [Bharadhwaj +,ECCV2024] • 【概要】 拡散モデルによる操作対象物の軌道予測 • 【問題設定】 模倣学習のための大規模の教示データセットの構築は困難 • 【提案】 初期・目標状態の画像からオブジェクトの特徴点がどのような軌道を描くべきかを拡散モデルで予測。 軌道を達成するロボットの動作は別途計画。拡散モデルは Web 上の大量の動画データで学習 • 【実験】 実機実験で未知のオブジェクト、シーンでのタスクにある程度汎化できることを実証 • 【課題】 long-horizon task や複数オブジェクト操作への拡張 83 /92
DiffAIL: Diffusion Adversarial Imitation Learning [Wang+,AAAI2024] • 【概要】 拡散モデルによる敵対的模倣学習(Adversarial Imitation Learning) • AIL: GAN の枠組みで方策と識別器を競わせながら学習 • 【問題設定】 従来の AIL は識別器の表現力が低く、方策の学習を抑制 • 【提案】 DiffAIL: 識別機を拡散モデルで置き換え • 【実験】 シミュレーション評価でベースラインを outperform • 【課題】 識別器の計算コスト。模倣学習以外のタスク(画像生成)などへの応用 84 /92
Zero-Shot Robotic Manipulation with Pretrained Image-Editing Diffusion Models [Black+, ICLR2024] • 【概要】 拡散モデルによるサブゴールの画像予測 • 【問題設定】 ロボットが未知の物体、シーンに対応するためには意味的知識を持たせる必要があるが、現状の ロボット用データセットは不十分である • 【提案】 SuSIE: 大量データで学習した画像編集モデル(拡散モデル)を用い、現時点の画像からサブゴー ルの画像を予測。サブゴール間は模倣学習で構築した goal-conditioned な方策で制御。 • 【実験】 実機実験での未知タスクへゼロショット評価で SOTA • 【課題】 拡散モデルに方策の能力を認識させることで性能改善する可能性 85 /92
Copilot4D: Learning Unsupervised World Models for Autonomous Driving via Discrete Diffusion [Zhang+,ICLR2024] • 【概要】 拡散モデルによる点群データの時系列予測 • 【問題設定】 点群データのような非構造かつ高次元データの予測は困難 • 【提案】 点群データを VQ-VAE で低次元の token に埋め込み。過去の token 列から将来の token を 拡散モデルで自己回帰的に予測 • 【実験】 自動運転データセット nuScenes、KITTI などで SOTA 達成 • 【課題】 長期(e.g., 3秒後)の予測精度のさらなる改善 86 /92
Learning Interactive Real-World Simuators [Yang+,ICLR2024] • 【概要】 拡散モデルによる汎用シミュレータ • 【問題設定】 インターネット上の様々なデータをもとに実世界のシミュレータを構築 • 【提案】 過去の観測と条件(ロボットへのコマンド、言語、カメラ姿勢など)から将来の画像を予測するモデル UniSim を拡散モデルで構築。多様なデータから汎用的な世界モデルを獲得することを期待 • 【実験】 UniSim が生成したデータでの模倣学習や UniSim 上での強化学習に成功 • 【課題】 ハルシネーション、画像の予測のみ対応、など 87 /92
Compositional Diffusion-Based Continuous Constraint Solvers [Yang+,CoRL2023] • 【概要】 拡散モデルによる制約充足問題の解法 • 【問題設定】 ロボット制御を制約充足問題として定式化し、目的関数の最適化問題に変換して解く。 ただし、目的関数の設計が難しい制約が存在(e.g., A と B が隣り合う、というような制約) • 【提案】 各制約を表現する目的関数を拡散モデルとして学習。逆拡散過程(最適化)で、 制約を満たす制御変数を探索する • 【実験】 object stacking, packing などのタスクで評価。未知の制約に組合せへの汎化を確認 • 【課題】 各制約の変数は固定長(可変長に非対応) 88 /92
A Contact Model based on Denoising Diffusion to Learn Variable Impedance Control for Contact-rich Manipulation [Okada+,IROS2024] • 【概要】 拡散モデルの接触シミュレーション • 【問題設定】 モデルベースでのロボットの制御パラメタチューニングは時間効率の観点で有望だが、 接触のシミュレーションは原理的に難しく(最適化計算を包含)、contact-rich なタスクへの適用が困難 • 【提案】 ロボットの制御パラメタから接触力を拡散モデルで予測する Diffusion Contact Model • 【実験】 通常の DNN に対し拡散モデルは高精度で接触力を予測。拡散モデルベースでのモデルベースチュー ニングが可能であることを実機で検証 • 【課題】 さらなる精度の改善 89 /92
おわりに
おわりに 91 /92 • 拡散モデルの概要とロボティクス分野での関連研究を俯瞰して紹介 • 所感 • 応用観点 • 現状 DNN で予測しているものについては拡散モデルで代替してもよいのでは? (計算コストが許せば) • 研究観点 • 拡散モデルが最適化問題、微分方程式のソルバーである、ということを意識すると面白いネタができそう • Flow Matching (今回は触れず)など拡散モデルの代替が期待されている技術についても 動向のウォッチが必要
Technology Division Technology Division