【DL輪読会】Waypoint-Based Imitation Learning for Robotic Manipulation

3.5K Views

October 20, 23

#Deep Learning #Waypoint-Based #Imitation Learning #Robotic Manipulation #Automatic Waypoint Extraction

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 86.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.8K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 57.4K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 40.5K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 35.5K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 35.3K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Waypoint-Based Manipulation Imitation Learning for Robotic Koki Yamane, University of Tsukuba http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報題名 Waypoint-Based Imitation Learning for Robotic Manipulation 著者 Lucy Xiaoyang Shi∗ Archit Sharma∗ Tony Z. Zhao (Action Chunking with Transformersの筆頭著者) Chelsea Finn 所属 Stanford University 会議 Conference on Robot Learning (CoRL) 2023 概要 ⚫ 模倣学習の教示データをウェイポイントに分割することで学習を効率化 2023/10/20 2

背景 ◼ 模倣学習  人間が操作したデータを正解として教師あり学習することで動作を獲得 ◼ 課題：compounding errors  長時間自律動作させていると教えた動作と実際の動作の誤差が累積し、学習範囲から逸脱していってしまう  解決策としては、基本的にデータを追加して学習済みの状態の範囲を広げる必要があった →データの前処理のみで改善する手法を提案 2023/10/20 3

提案手法：Automatic Waypoint Extraction (AWE) 教示データの軌跡をウェイポイントに分割 ◼ 評価関数  正解軌跡との距離の最小値の最大値（一番離れたところの距離） ◼ 経由点選択  近似軌跡の評価関数を許容誤差以下にする制約の中でウェイポイント数を最小化 2023/10/20 4

実験結果（シミュレーション）難易度の高い双腕タスクでベースラインを超える成功率を達成 ◼ プログラム生成データ、人間のデモンストレーション各50回 ◼ 50Hz、400～500ステップ、提案手法で7～10倍圧縮 2023/10/20 5

実験結果（シミュレーション）少数データでの学習でベースラインを超える成功率を達成 ◼ 模倣学習のベンチマーク「RoboMimic」で性能を比較 ◼ Diffusion Policy と組み合わせ  拡散モデルで次の行動を出力  自由度の高い確率分布で行動の多峰性に対応 ◼ ※データ数が多い場合は向上せず（むしろ下がっている） 2023/10/20 6

実験結果（実機）双腕ロボットの３つの長期タスクで高い成功率を達成 2023/10/20 7

許容誤差と成功率の関係許容誤差が小さいほどウェイポイントの間隔は細かくなる 2023/10/20 許容誤差が小さすぎると間隔が細かすぎて成功率低下許容誤差が大きすぎると近似精度が低すぎて成功率低下 8

出力形式による性能変化 AWEを用いた模倣学習では多峰性を許容できる出力形式がより重要となる ◼ ウェイポイントは少し遠い未来のため多峰な分布になりやすい混合ガウス分布出力では性能向上 2023/10/20 単一の出力ではむしろ性能低下 9

10.

既存のウェイポイント抽出手法との比較提案手法が既存のヒューリスティックな手法と比較して高い成功率を達成 ◼ Velocity＋Gripper  速度０になった位置とグリッパ開閉時の位置を記録 ◼ Constant  一定時間ごとに位置を記録 ◼ AWE  提案手法 2023/10/20 10

11.

まとめ ◼ 模倣学習の教示データをウェイポイントに分割することで学習を効率化 ◼ 動作の多峰性を扱えるモデルと組み合わせることでタスク成功率向上  ※予測対象のばらつきは増すため、組み合わせるモデルの性能で補う必要がある  ※データ数が多い場合は成功率向上していない（むしろ低下） ◼ 感想  動作を時間ではなく目標が切り替わったところで分割するのは重要そう  模倣学習に限らず時系列データの分節に色々使えそう  AWE＋ACTとAWE＋Diffusion Policyとの比較が気になる 2023/10/20 11