【DL輪読会】Learning a Thousand Tasks in a Day

>100 Views

March 26, 26

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Learning a Thousand Tasks in a Day Makoto Sato, Matsuo Iwasawa Lab http://deeplearning.jp/ 1

2.

書籍情報 ▪ タイトル: Learning a Thousand Tasks in a Day ▪ 著者: Kamil Dreczkowski, Pietro Vitiello, Vitalis Vosylius, Edward Johns ▪ 所属: Imperial College London ▪ 学術誌: Science Robotics, November 2025 ▪ TL;DR: 動作をalignmentとinteractionに分解し,両段階でretrieval-based policyを用いるMT3を 提案した.1task-1demoの設定下で17時間のデータ収集をし,1,000tasksの教示できることを示 した. ▪ リンク: ▪ https://www.robot-learning.uk/learning-1000-tasks ▪ https://www.science.org/doi/10.1126/scirobotics.adv7594 ▪ https://arxiv.org/abs/2511.10110 2

3.

背景 ▪ 近年の模倣学習: 大規模なデータ・モデルの活用 ▪ 様々なロボットや環境で収集された大規模データセットを活用することで,多種多様な物体操作タスクに対応する 模倣学習研究が進展 ▪ 課題: 少数デモ条件での汎化が難しい ▪ 既存のロボット模倣学習は,各タスクごとに大量のデータを必要とし,数百〜数千タスクへの拡張が難しい BC-Z[1] ~26K demos for 100 tasks RT-1[2] ~130K demos for 744 tasks MT-ACT[3] ~7.5K demos for 38 tasks [1] E. Jang, et al. BC-z: Zero-shot task generalization with robotic imitation learning. In 5th Annual Conference on Robot Learning, 2021. URL https://openreview. net/forum?id=8kbp23tSGYv. [2] A. Brohan, et al. RT-1: robotics transformer for real-world control at scale. Robotics: Science and Systems XIX, Daegu, Republic of Korea, July 10-14, 2023, 2023. doi:10.15607/RSS.2023. XIX.025. URL https://doi.org/10.15607/RSS.2023.XIX.025. [3] H. Bharadhwaj, et al. RoboAgent: Generalization and Efficiency in Robot Manipulation via Semantic Augmentations and Action Chunking. In 2024 IEEE International Conference on Robotics and Automation (ICRA), pages 4788–4795, 2024. doi: 10.1109/ICRA57147.2024.10611293. 3

4.

提案手法 (1/2) ▪ 提案手法: Multi-Task Trajectory Transfer (MT3) ▪ ロボットの軌道をalignmentとinteractionに分解し,両段階でretrievalによる少数デモ条件での学習を実現する few-shot multi-task imitation learning ▪ ねらい: 少数デモでの高効率学習 ▪ Alignmentは疎にinteractionは密に扱う構造化による 少数デモ下でのデータ効率向上 ▪ テスト時に類似デモの参照による少数デモ条件での 新規タスク・新規物体への汎化 4

5.

提案手法 (2/2) ▪ Retrieval-based policy ▪ Task descriptionから同じデモを絞り込み,geometry / poseの類似度を表す埋め込みをPointNet++ Encoderで 計算し,コサイン類似度から1つデモを選択 ▪ Alignment / interactionへの軌道分解 ▪ ロボット軌道を位置合わせを行うalignment phaseと,精密な物体操作を行うinteraction phaseに分解 ▪ Alignment phaseでは,Retrieveされたデモから相対的な座標変換により手先姿勢を求め,Motion Planningで 軌道を生成 ▪ Interaction phaseでは,Retrieveされたデモの手先速度を手先座標系で再生 5

6.

実験設定 ▪ 各taskを単一interactionからなる物体操作として定義し,seen / unseen taskの両方で評価 ▪ Macro skill,micro skillの階層でタスクを構成 ▪ 入力はsegmented point cloudとtask descriptionとし,出力はロボットの動作 ▪ Monolithic BCと,alignment / interactionに分解したBC / retrieval手法の合計5つを比較 ▪ 性能比較に加え,データサイズ・多様性・1,000 tasksでの評価 6

7.

実験結果① ▪ 少数デモ条件でのmulti-task imitation learningの比較結果 ▪ 1 taskあたりのデモ数が限られた条件で,monolithic BCとdecomposition-based methodsを比較し,alignment / interactionそれぞれにBCとretrievalを組み合わせた設計 ▪ データ量・タスク多様性に対するスケーリング分析 ▪ 性能の比較に加えて,dataset sizeとdataset diversityを系統的に変化させ,few-demonstrations-per-task regimeに おけるデータ効率と性能の関係を分析 7

8.

実験結果② ▪ 1,000 tasksに対する大規模評価 ▪ 1,000 seen + 100 unseen tasks(31 macro skills, 534 micro skills, 402 objects)を各1デモで評価 ▪ MT3はseen 78.25%,unseen 68.0%を達成し,大規模few-shot imitationの有効性を確認 ▪ 失敗の主因は(1)pose estimation,(2)retrieval,(3)segmentation ▪ 高精度挿入や変形物操作では,open-loop制御の限界が顕在化 8

9.

実験結果③ ▪ データ量・タスク多様性に対するスケーリング分析 ▪ 総データ数を固定し,タスク数と1タスクあたりデモ数を系統的に変化 ▪ Seen Taskでの性能 ▪ Seen tasks では,BC-BCは多デモ条件で高性能,MT-ACT+はタスク多様性の増加とともに改善 ▪ Unseen Taskでの性能 ▪ Unseen tasks では,BC-BCは汎化が弱く,MT-ACT+は少数デモ条件でも高い汎化性能を示す 9

10.

議論 ▪ データが十分な場合は? ▪ 少数デモ条件では,decomposition + retrievalがmonolithic BCより高いデータ効率を示すが,データが十分に 増えるとBCの方が有利になりうる ▪ 主要な限界は? ▪ 1,000 task規模への拡張性は示したが,retrieval・pose estimation・segmentationの性能が主要な律速となる ▪ 他の拡張先は? ▪ 今後は,open-loopの限界を超えるclosed-loop / tactile / skill chainingへの拡張が重要である 10

11.

まとめ ▪ まとめ ▪ 少数デモ条件でのmulti-task imitation learningに対して,軌道分解とretrievalが有効であることを示した ▪ 今後の展望 ▪ より長期的で複雑なmanipulation taskへの適用 ▪ 基盤モデルと組み合わせた効率的なadaptationへの発展 ▪ 感想 ▪ Science Robotsに掲載されるまでに査読時間が長かったのか,技術的には多少遅れがある ▪ VLAなど大規模なモデルの学習が一通り済んだら,この研究のような効率的なAdaptationが重要になる? 11