【DL輪読会】RoboCook: Long-Horizon Elasto-Plastic Object Manipulation with Diverse Tools (CoRL2023)

1.8K Views

September 15, 23

#Deep Learning #Robotics #Tool Use #Elasto-Plastic Object Manipulation #Long-Horizon Planning

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 91K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 68K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.2K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 50.6K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 48K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.5K

各ページのテキスト

DEEP LEARNING JP [DL Papers] RoboCook: Long-Horizon Elasto-Plastic Object Manipulation with Diverse Tools (CoRL2023) 2023.09.15 Ryosuke Takanami, M2, Matsuo Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • RoboCook: Long-Horizon Elasto-Plastic Object Manipulation with Diverse Tools • Project Page: https://hshi74.github.io/robocook/ • arXiv: https://arxiv.org/abs/2306.14447 • Github: https://github.com/hshi74/robocook • 著者：Haochen Shi, Huazhe Xu, Samuel Clarke, Yunzhu Li and Jiajun Wu (Stanford, Tsinghua, UIUC) • 選定理由： – CoRL2023 Oral 採択論文 – 長期的な実物の柔軟物体のマニピュレーションを可能にした手法を提案 • 特に断りのない限り，図表等の出典は本論文、本プロジェクトページからの引用 2

概要 • ロボティクスにおける3つの課題 – 柔軟物体のマニピュレーション (deformable object manipulation) – 長期的なプランニング (long-horizon planning) – ツールの利用 (tool usage) • 以上の3つの課題を体現した料理タスク (餃子、クッキー作り) に試みた研究 3

概要 • RoboCookと呼ばれる新たなフレームワークを提案 – 認識: 効果的な点群サンプリング手法と直感的なツールの点群表現 – ダイナミクス: GNNを用いた柔軟物体とツールの間の複雑なダイナミクスの学習 – Closed-loop制御: PointNetを用いたツール選択モジュールと自己教師あり学習による方策学習認識とGNNによるダイナミクスの学習 PointNetによるツール選択と方策学習 4

概要 • RoboCookは複雑なプロセスを要する餃子を作るタスク等が可能 • また、人間が調理の邪魔をしても即座に途中過程から調理を再開 • 物体の素材が変化しても対応が可能 5

関連研究 • 実世界における柔軟物体操作を扱った既存研究 • 微分可能シミュレータを使ったsim-to-real手法 – ある程度実物を表現できるがsim-to-realギャップが大きい問題がしばしば生じる https://arxiv.org/abs/2205.02835 • 高次元センサーデータからダイナミクスを学習し、物体操作する手法 – 実物の柔軟物体特有のダイナミクスは扱えるが、系列長が短いタスクや1つのツール活用タスクに限られている http://hxu.rocks/robocraft/ より複雑で長期的なタスクを扱うには、長期的な行動による影響やツールを使うことの影響を考慮した適応的なplannerが必要がある 6

手法 1. 認識 – 効果的な点群サンプリング手法と直感的なツールの点群表現 2. ダイナミクス – GNNを用いた柔軟物体とツールの間の複雑なダイナミクスの学習 3. Closed-loop制御 – PointNetを用いたツール選択モジュールと自己教師あり学習による方策学習 7

手法 1. 効果的な点群サンプリング手法と直感的なツールの点群表現 – (a) 4方向からRGB-Dカメラで色付き点群を撮影 – (b) 色から生地の部分だけをclip – (c) 生地の凹凸やツールによるocclusionの度合いに合わせて表面再構成し、正確な生地のmeshを生成 – (d) 生地のmeshのSDFを使用して、mesh内の点群をrandom sampling – (e) 事前に用意されたツールのmeshを用いてツールと重なった生地の点群を削除 – (f) 生地の点群をuniform samplingして固定サイズ(300点)の点群にする • 後段の処理でGNNを使うため点群サイズが固定にする必要がある 8

手法 2. GNNを用いた柔軟物体とツールの間の複雑なダイナミクスの学習 – 現在状態と1stepの行動から生地の将来の状態を予測する GNNベースのダイナミクスモデルを学習 • – 各ツールごとに20分の実データを使用 LossはChamfer Distance(CD)と Earth Mover’s Distance(EMD)の加重平均 – 長期的な将来予測を安定させるために自己回帰的に数step予測した結果も使用して全体の学習lossとする 9

10.

手法 3. PointNetを用いたツール選択モジュールと自己教師あり学習による方策学習 10

11.

手法 3. PointNetを用いたツール選択モジュールと自己教師あり学習による方策学習 11

12.

手法 3. PointNetを用いたツール選択モジュールと自己教師あり学習による方策学習学習 – 現在状態の点群とtargetの点群を別々のPointNet++で特徴量抽出し、それぞれの特徴量を concatしてMLP層に通すことで、ツールごとの確率を出力する (PointNet++とMLPがClassifier Network) • ツールは全部で15種類 (後述) 実行 – 出力確率の内、上位3つのツールが候補として選ばれ、それぞれのツールによる最適行動列を方策が生成する • – エラーに対する頑健性を向上させるため 3つの最適行動列を計画した上で、最適な状態に到達する最適行動列を実行する • おそらく学習したダイナミクスモデルを使用して仮想的にrolloutしている 12

13.

手法 3. PointNetを用いたツール選択モジュールと自己教師あり学習による方策学習 13

14.

手法 3. PointNetを用いたツール選択モジュールと自己教師あり学習による方策学習 – ツールを制御する方策は、現在状態の点群、targetの点群、ツールのラベルを入力とし、パラメタライズされた行動の値を出力する – 学習データは、学習されたダイナミクスモデル (GNN) を使用して得られる合成データ – Loss関数は、各行動パラメータを離散化してmulti-bin classification問題として定式化している 14

15.

実験結果 • 実験設定 – Franka Emika Panda robot arm – 4つのRealSense RGB-Dカメラ – 15種類のツール 15

16.

実験結果 • 実験タスク – Making Dumplings • 餃子を作るタスク、途中過程でミスが許されない複雑なタスクとして設計 • 成功判定は皮が十分に薄いことと中身が完全に包まれていること – Making Alphabet Letter Cokkies • 汎化性を検証するためのタスクとして設計 16

17.

実験結果 • Making Dumplingsの結果 – Subtargetに従って餃子を作ることができている (左) – 途中人間の介入があっても再度試行することができている (右) • 頑健性が高いことが示されている 17

18.

実験結果 • Making Alphabet Letter Cokkiesの結果 – 比較手法 • 数理最適化＋GNN、サンプリングベース＋GNN、サンプリングベース＋シミュレータ、強化学習＋GNN – 定性評価 • 追加で学習することなく、R、O、B、C、Kが成形できている 18

19.

実験結果 • Making Alphabet Letter Cokkiesの結果 – 定量評価 • ゴール点群と成形後の点群のCDとEMDにおいてベースラインを上回る結果 • 被験者100人によるアルファベットの認識テストでもベースライン以上のスコアを達成 • また、方策のplanning速度も圧倒的に向上 19

20.

実験結果 • Making Alphabet Letter Cokkiesの結果 – 素材に対する汎化性も確認された 20

21.

まとめ • まとめ – RoboCookは、GNNによる長期的な柔軟物体ダイナミクスの学習と、ダイナミクスを考慮したツール選択モジュールを取り入れることで、ゴール状態に適したツールの選択と柔軟物体の操作を可能にした – また、ダイナミクスモデルを利用した合成データセットによる制御方策の自己教師あり学習によって、精度、速度ともに改善されたことが示された • 感想 – 多様なツールを駆使して柔軟物体を扱えている点が面白い – 餃子を作るタスクでは、subtargetを事前に人間が決めている？ため、改善の余地あり – Subtargetのplanningに関してほぼ言及がなく、人間が介入した時のsubtargetの扱いが不明 21

22.

補足資料 • ツールのモデル 22

23.

実験結果 • ツール選択モデルの混同行列 23

24.

実験結果 • GNN学習データの内訳 – Asymmetric gripeer / two-rod symmetric gripper / two-plane symmetric gripper • 1エピソード5ステップ・60エピソード – Circle press / square press / circle punch / square punch • 1エピソード3ステップ・90エピソード – Large roller / small roller • 1エピソード3ステップ・80エピソード 24