【DL輪読会】Waypoint-Based Imitation Learning for Robotic Manipulation

2.4K Views

October 20, 23

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Waypoint-Based Manipulation Imitation Learning for Robotic Koki Yamane, University of Tsukuba http://deeplearning.jp/ 1

2.

書誌情報 題名 Waypoint-Based Imitation Learning for Robotic Manipulation 著者 Lucy Xiaoyang Shi∗ Archit Sharma∗ Tony Z. Zhao (Action Chunking with Transformersの筆頭著者) Chelsea Finn 所属 Stanford University 会議 Conference on Robot Learning (CoRL) 2023 概要 ⚫ 模倣学習の教示データをウェイポイントに分割することで学習を効率化 2023/10/20 2

3.

背景 ◼ 模倣学習  人間が操作したデータを正解として 教師あり学習することで動作を獲得 ◼ 課題:compounding errors  長時間自律動作させていると教えた 動作と実際の動作の誤差が累積し、 学習範囲から逸脱していってしまう  解決策としては、基本的にデータを 追加して学習済みの状態の範囲を広 げる必要があった →データの前処理のみで改善する手法を提案 2023/10/20 3

4.

提案手法:Automatic Waypoint Extraction (AWE) 教示データの軌跡をウェイポイントに分割 ◼ 評価関数  正解軌跡との距離の最小値の最大値 (一番離れたところの距離) ◼ 経由点選択  近似軌跡の評価関数を許容誤差以下 にする制約の中でウェイポイント数 を最小化 2023/10/20 4

5.

実験結果(シミュレーション) 難易度の高い双腕タスクでベースラインを超える成功率を達成 ◼ プログラム生成データ、人間のデモンストレーション各50回 ◼ 50Hz、400~500ステップ、提案手法で7~10倍圧縮 2023/10/20 5

6.

実験結果(シミュレーション) 少数データでの学習でベースラインを超える成功率を達成 ◼ 模倣学習のベンチマーク 「RoboMimic」で性能を比較 ◼ Diffusion Policy と組み合わせ  拡散モデルで次の行動を出力  自由度の高い確率分布で 行動の多峰性に対応 ◼ ※データ数が多い場合は向上せず (むしろ下がっている) 2023/10/20 6

7.

実験結果(実機) 双腕ロボットの3つの長期タスクで高い成功率を達成 2023/10/20 7

8.

許容誤差と成功率の関係 許容誤差が小さいほど ウェイポイントの間隔は細かくなる 2023/10/20 許容誤差が小さすぎると間隔が細かすぎて成功率低下 許容誤差が大きすぎると近似精度が低すぎて成功率低下 8

9.

出力形式による性能変化 AWEを用いた模倣学習では多峰性を許容できる出力形式がより重要となる ◼ ウェイポイントは少し遠い未来のため多峰な分布になりやすい 混合ガウス分布出力 では性能向上 2023/10/20 単一の出力では むしろ性能低下 9

10.

既存のウェイポイント抽出手法との比較 提案手法が既存のヒューリスティックな手法と比較して高い成功率を達成 ◼ Velocity+Gripper  速度0になった位置とグリッパ開閉 時の位置を記録 ◼ Constant  一定時間ごとに位置を記録 ◼ AWE  提案手法 2023/10/20 10

11.

まとめ ◼ 模倣学習の教示データをウェイポイントに分割することで学習を効率化 ◼ 動作の多峰性を扱えるモデルと組み合わせることでタスク成功率向上  ※予測対象のばらつきは増すため、組み合わせるモデルの性能で補う必要がある  ※データ数が多い場合は成功率向上していない(むしろ低下) ◼ 感想  動作を時間ではなく目標が切り替わったところで分割するのは重要そう  模倣学習に限らず時系列データの分節に色々使えそう  AWE+ACTとAWE+Diffusion Policyとの比較が気になる 2023/10/20 11