【DL輪読会】Learning a Thousand Tasks in a Day

184 Views

March 26, 26

#模倣学習 #ロボット #Few-shot Learning #MT3 #軌道生成

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.9K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.4K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.5K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Learning a Thousand Tasks in a Day Makoto Sato, Matsuo Iwasawa Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

書籍情報 ▪ タイトル: Learning a Thousand Tasks in a Day ▪ 著者: Kamil Dreczkowski, Pietro Vitiello, Vitalis Vosylius, Edward Johns ▪ 所属: Imperial College London ▪ 学術誌: Science Robotics, November 2025 ▪ TL;DR: 動作をalignmentとinteractionに分解し，両段階でretrieval-based policyを用いるMT3を提案した．1task-1demoの設定下で17時間のデータ収集をし，1,000tasksの教示できることを示した． ▪ リンク: ▪ https://www.robot-learning.uk/learning-1000-tasks ▪ https://www.science.org/doi/10.1126/scirobotics.adv7594 ▪ https://arxiv.org/abs/2511.10110 2

背景 ▪ 近年の模倣学習: 大規模なデータ・モデルの活用 ▪ 様々なロボットや環境で収集された大規模データセットを活用することで，多種多様な物体操作タスクに対応する模倣学習研究が進展 ▪ 課題: 少数デモ条件での汎化が難しい ▪ 既存のロボット模倣学習は，各タスクごとに大量のデータを必要とし，数百〜数千タスクへの拡張が難しい BC-Z[1] ~26K demos for 100 tasks RT-1[2] ~130K demos for 744 tasks MT-ACT[3] ~7.5K demos for 38 tasks [1] E. Jang, et al. BC-z: Zero-shot task generalization with robotic imitation learning. In 5th Annual Conference on Robot Learning, 2021. URL https://openreview. net/forum?id=8kbp23tSGYv. [2] A. Brohan, et al. RT-1: robotics transformer for real-world control at scale. Robotics: Science and Systems XIX, Daegu, Republic of Korea, July 10-14, 2023, 2023. doi:10.15607/RSS.2023. XIX.025. URL https://doi.org/10.15607/RSS.2023.XIX.025. [3] H. Bharadhwaj, et al. RoboAgent: Generalization and Efficiency in Robot Manipulation via Semantic Augmentations and Action Chunking. In 2024 IEEE International Conference on Robotics and Automation (ICRA), pages 4788–4795, 2024. doi: 10.1109/ICRA57147.2024.10611293. 3

提案手法 (1/2) ▪ 提案手法: Multi-Task Trajectory Transfer (MT3) ▪ ロボットの軌道をalignmentとinteractionに分解し，両段階でretrievalによる少数デモ条件での学習を実現する few-shot multi-task imitation learning ▪ ねらい: 少数デモでの高効率学習 ▪ Alignmentは疎にinteractionは密に扱う構造化による少数デモ下でのデータ効率向上 ▪ テスト時に類似デモの参照による少数デモ条件での新規タスク・新規物体への汎化 4

提案手法 (2/2) ▪ Retrieval-based policy ▪ Task descriptionから同じデモを絞り込み，geometry / poseの類似度を表す埋め込みをPointNet++ Encoderで計算し，コサイン類似度から1つデモを選択 ▪ Alignment / interactionへの軌道分解 ▪ ロボット軌道を位置合わせを行うalignment phaseと，精密な物体操作を行うinteraction phaseに分解 ▪ Alignment phaseでは，Retrieveされたデモから相対的な座標変換により手先姿勢を求め，Motion Planningで軌道を生成 ▪ Interaction phaseでは，Retrieveされたデモの手先速度を手先座標系で再生 5

実験設定 ▪ 各taskを単一interactionからなる物体操作として定義し，seen / unseen taskの両方で評価 ▪ Macro skill，micro skillの階層でタスクを構成 ▪ 入力はsegmented point cloudとtask descriptionとし，出力はロボットの動作 ▪ Monolithic BCと，alignment / interactionに分解したBC / retrieval手法の合計5つを比較 ▪ 性能比較に加え，データサイズ・多様性・1,000 tasksでの評価 6

実験結果① ▪ 少数デモ条件でのmulti-task imitation learningの比較結果 ▪ 1 taskあたりのデモ数が限られた条件で，monolithic BCとdecomposition-based methodsを比較し，alignment / interactionそれぞれにBCとretrievalを組み合わせた設計 ▪ データ量・タスク多様性に対するスケーリング分析 ▪ 性能の比較に加えて，dataset sizeとdataset diversityを系統的に変化させ，few-demonstrations-per-task regimeにおけるデータ効率と性能の関係を分析 7

実験結果② ▪ 1,000 tasksに対する大規模評価 ▪ 1,000 seen + 100 unseen tasks（31 macro skills, 534 micro skills, 402 objects）を各1デモで評価 ▪ MT3はseen 78.25%，unseen 68.0%を達成し，大規模few-shot imitationの有効性を確認 ▪ 失敗の主因は(1)pose estimation，(2)retrieval，(3)segmentation ▪ 高精度挿入や変形物操作では，open-loop制御の限界が顕在化 8

実験結果③ ▪ データ量・タスク多様性に対するスケーリング分析 ▪ 総データ数を固定し，タスク数と1タスクあたりデモ数を系統的に変化 ▪ Seen Taskでの性能 ▪ Seen tasks では，BC-BCは多デモ条件で高性能，MT-ACT+はタスク多様性の増加とともに改善 ▪ Unseen Taskでの性能 ▪ Unseen tasks では，BC-BCは汎化が弱く，MT-ACT+は少数デモ条件でも高い汎化性能を示す 9

10.

議論 ▪ データが十分な場合は？ ▪ 少数デモ条件では，decomposition + retrievalがmonolithic BCより高いデータ効率を示すが，データが十分に増えるとBCの方が有利になりうる ▪ 主要な限界は？ ▪ 1,000 task規模への拡張性は示したが，retrieval・pose estimation・segmentationの性能が主要な律速となる ▪ 他の拡張先は？ ▪ 今後は，open-loopの限界を超えるclosed-loop / tactile / skill chainingへの拡張が重要である 10

11.

まとめ ▪ まとめ ▪ 少数デモ条件でのmulti-task imitation learningに対して，軌道分解とretrievalが有効であることを示した ▪ 今後の展望 ▪ より長期的で複雑なmanipulation taskへの適用 ▪ 基盤モデルと組み合わせた効率的なadaptationへの発展 ▪ 感想 ▪ Science Robotsに掲載されるまでに査読時間が長かったのか，技術的には多少遅れがある ▪ VLAなど大規模なモデルの学習が一通り済んだら，この研究のような効率的なAdaptationが重要になる？ 11