【DL輪読会】RoboCook: Long-Horizon Elasto-Plastic Object Manipulation with Diverse Tools (CoRL2023)

1.5K Views

September 15, 23

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] RoboCook: Long-Horizon Elasto-Plastic Object Manipulation with Diverse Tools (CoRL2023) 2023.09.15 Ryosuke Takanami, M2, Matsuo Lab http://deeplearning.jp/ 1

2.

書誌情報 • RoboCook: Long-Horizon Elasto-Plastic Object Manipulation with Diverse Tools • Project Page: https://hshi74.github.io/robocook/ • arXiv: https://arxiv.org/abs/2306.14447 • Github: https://github.com/hshi74/robocook • 著者:Haochen Shi, Huazhe Xu, Samuel Clarke, Yunzhu Li and Jiajun Wu (Stanford, Tsinghua, UIUC) • 選定理由: – CoRL2023 Oral 採択論文 – 長期的な実物の柔軟物体のマニピュレーションを可能にした手法を提案 • 特に断りのない限り,図表等の出典は本論文、本プロジェクトページからの引用 2

3.

概要 • ロボティクスにおける3つの課題 – 柔軟物体のマニピュレーション (deformable object manipulation) – 長期的なプランニング (long-horizon planning) – ツールの利用 (tool usage) • 以上の3つの課題を体現した料理タスク (餃子、クッキー作り) に試みた研究 3

4.

概要 • RoboCookと呼ばれる新たなフレームワークを提案 – 認識: 効果的な点群サンプリング手法と直感的なツールの点群表現 – ダイナミクス: GNNを用いた柔軟物体とツールの間の複雑なダイナミクスの学習 – Closed-loop制御: PointNetを用いたツール選択モジュールと自己教師あり学習による方策学習 認識とGNNによるダイナミクスの学習 PointNetによるツール選択と方策学習 4

5.

概要 • RoboCookは複雑なプロセスを要する餃子を作るタスク等が可能 • また、人間が調理の邪魔をしても即座に途中過程から調理を再開 • 物体の素材が変化しても対応が可能 5

6.

関連研究 • 実世界における柔軟物体操作を扱った既存研究 • 微分可能シミュレータを使ったsim-to-real手法 – ある程度実物を表現できるがsim-to-realギャップが大き い問題がしばしば生じる https://arxiv.org/abs/2205.02835 • 高次元センサーデータからダイナミクスを学習し、 物体操作する手法 – 実物の柔軟物体特有のダイナミクスは扱えるが、系列長が 短いタスクや1つのツール活用タスクに限られている http://hxu.rocks/robocraft/ より複雑で長期的なタスクを扱うには、長期的な行動による影響や ツールを使うことの影響を考慮した適応的なplannerが必要がある 6

7.

手法 1. 認識 – 効果的な点群サンプリング手法と直感的なツールの点群表現 2. ダイナミクス – GNNを用いた柔軟物体とツールの間の複雑なダイナミクスの学習 3. Closed-loop制御 – PointNetを用いたツール選択モジュールと自己教師あり学習による方策学習 7

8.

手法 1. 効果的な点群サンプリング手法と直感的なツールの点群表現 – (a) 4方向からRGB-Dカメラで色付き点群を撮影 – (b) 色から生地の部分だけをclip – (c) 生地の凹凸やツールによるocclusionの度合いに合わせて表面再構成し、 正確な生地のmeshを生成 – (d) 生地のmeshのSDFを使用して、mesh内の点群をrandom sampling – (e) 事前に用意されたツールのmeshを用いてツールと重なった生地の点群を削除 – (f) 生地の点群をuniform samplingして固定サイズ(300点)の点群にする • 後段の処理でGNNを使うため点群サイズが固定にする必要がある 8

9.

手法 2. GNNを用いた柔軟物体とツールの間の複雑なダイナミクスの学習 – 現在状態と1stepの行動から生地の将来の状態を予測する GNNベースのダイナミクスモデルを学習 • – 各ツールごとに20分の実データを使用 LossはChamfer Distance(CD)と Earth Mover’s Distance(EMD)の加重平均 – 長期的な将来予測を安定させるために自己回帰的に 数step予測した結果も使用して全体の学習lossとする 9

10.

手法 3. PointNetを用いたツール選択モジュールと自己教師あり学習による方策学習 10

11.

手法 3. PointNetを用いたツール選択モジュールと自己教師あり学習による方策学習 11

12.

手法 3. PointNetを用いたツール選択モジュールと自己教師あり学習による方策学習 学習 – 現在状態の点群とtargetの点群を別々のPointNet++で特徴量抽出し、それぞれの特徴量を concatしてMLP層に通すことで、ツールごとの確率を出力する (PointNet++とMLPがClassifier Network) • ツールは全部で15種類 (後述) 実行 – 出力確率の内、上位3つのツールが候補として選ばれ、それぞれのツールによる最適行動列を方策が生成する • – エラーに対する頑健性を向上させるため 3つの最適行動列を計画した上で、最適な状態に到達する最適行動列を実行する • おそらく学習したダイナミクスモデルを使用して仮想的にrolloutしている 12

13.

手法 3. PointNetを用いたツール選択モジュールと自己教師あり学習による方策学習 13

14.

手法 3. PointNetを用いたツール選択モジュールと自己教師あり学習による方策学習 – ツールを制御する方策は、現在状態の点群、targetの点群、ツールのラベルを入力とし、 パラメタライズされた行動の値を出力する – 学習データは、学習されたダイナミクスモデル (GNN) を使用して得られる合成データ – Loss関数は、各行動パラメータを離散化してmulti-bin classification問題として定式化している 14

15.

実験結果 • 実験設定 – Franka Emika Panda robot arm – 4つのRealSense RGB-Dカメラ – 15種類のツール 15

16.

実験結果 • 実験タスク – Making Dumplings • 餃子を作るタスク、途中過程でミスが許されない複雑なタスクとして設計 • 成功判定は皮が十分に薄いことと中身が完全に包まれていること – Making Alphabet Letter Cokkies • 汎化性を検証するためのタスクとして設計 16

17.

実験結果 • Making Dumplingsの結果 – Subtargetに従って餃子を作ることができている (左) – 途中人間の介入があっても再度試行することができている (右) • 頑健性が高いことが示されている 17

18.

実験結果 • Making Alphabet Letter Cokkiesの結果 – 比較手法 • 数理最適化+GNN、サンプリングベース+GNN、サンプリングベース+シミュレータ、強化学習+GNN – 定性評価 • 追加で学習することなく、R、O、B、C、Kが成形できている 18

19.

実験結果 • Making Alphabet Letter Cokkiesの結果 – 定量評価 • ゴール点群と成形後の点群のCDとEMDにおいてベースラインを上回る結果 • 被験者100人によるアルファベットの認識テストでもベースライン以上のスコアを達成 • また、 方策のplanning速度も圧倒的に向上 19

20.

実験結果 • Making Alphabet Letter Cokkiesの結果 – 素材に対する汎化性も確認された 20

21.

まとめ • まとめ – RoboCookは、GNNによる長期的な柔軟物体ダイナミクスの学習と、ダイナミクスを 考慮したツール選択モジュールを取り入れることで、ゴール状態に適したツールの選択 と柔軟物体の操作を可能にした – また、ダイナミクスモデルを利用した合成データセットによる制御方策の自己教師あり学習 によって、精度、速度ともに改善されたことが示された • 感想 – 多様なツールを駆使して柔軟物体を扱えている点が面白い – 餃子を作るタスクでは、subtargetを事前に人間が決めている?ため、改善の余地あり – Subtargetのplanningに関してほぼ言及がなく、人間が介入した時のsubtargetの扱いが不明 21

22.

補足資料 • ツールのモデル 22

23.

実験結果 • ツール選択モデルの混同行列 23

24.

実験結果 • GNN学習データの内訳 – Asymmetric gripeer / two-rod symmetric gripper / two-plane symmetric gripper • 1エピソード5ステップ・60エピソード – Circle press / square press / circle punch / square punch • 1エピソード3ステップ・90エピソード – Large roller / small roller • 1エピソード3ステップ・80エピソード 24