【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"

2.8K Views

July 19, 23

#deep learning #Artificial Intelligence #Robotics #Machine Learning #Transformer #CVAE

スライド概要

2023/7/14
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 87.4K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 58.7K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.5K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 38K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 37.6K

各ページのテキスト

Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware Koki Yamane, University of Tsukuba 1

書誌情報題名 Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware 著者 Tony Z. Zhao (1) Vikash Kumar (3) Sergey Levine (2) Chelsea Finn (1) 所属 (1) Stanford University (2) UC Berkeley (3) Meta 会議概要 2023/7/14 RSS 2023  ロボット模倣学習で高精度動作を行うには教示データのばらつきが課題  Transformerを用いたCVAEによる行動シーケンス生成モデル「ACT」を提案 2

概要模倣学習により低コストのロボットで高精度のタスクを実現 2023/7/14 3

ALOHA：A Low-cost Open-source Hardware System for Bimanual Teleoperation 低コストの双腕遠隔操作ハードウェアを提案 2023/7/14 4

Action Chunking with Transformers (ACT) Transformerを用いたCVAEで現在の状態から次の数ステップの行動を予測動作のスタイルを表す潜在変数（操作者による癖などを表現）次の１ステップではなく次の数ステップの行動を同時に予測４つのカメラの画像と各関節の角度を入力 2023/7/14 自律動作時の潜在変数は０ 5

Action Chunking with Transformers (ACT) Transformerを用いたCVAEで現在の状態から次の数ステップの行動を予測  Action Chunking  次の数ステップをまとめて予測  一連の動作をまとめて扱う  非マルコフ性に対応  １ステップごとの生成では，一時停止と終了時の停止を見分けるのが難しい  Temporal Ensembling  チャンクを毎ステップ出力し加重平均を取ることで滑らかにつなぐ  チャンクの境目で急な動作になるのを防ぐ 2023/7/14 6

実験  ８つのタスクで検証  シミュレーション２，実機６  教示データ     2023/7/14 各50回１エピソード８～１４秒所要時間30分～60分 50Hz 7

実験結果全てのタスクでベースラインを上回る成功率を達成 2023/7/14 8

Ablations 予測するチャンクのステップ数を比較  シミュレーションタスクで検証  全ての手法でチャンクで性能向上  100ステップで最高性能  長く予測しすぎると性能が落ちる  適応的な動作がしにくくなる？ 2023/7/14 9

10.

Ablations Temporal Ensemblingの効果を検証  提案手法では3.3%の成功率上昇  BC-ConvMLPでも成功率上昇  VINNでは20%の成功率減少  VINNは画像特徴量をNearest neighbor法で動作に対応付ける  ノンパラメトリックな手法ではむしろ悪影響 2023/7/14 10

11.

Ablations CVAEの効果を検証  シミュレーションタスクで検証  プログラムで生成したデータからの学習ではほとんど変化なし  人間が操作した教示データからの学習では33.3%の成功率上昇 2023/7/14 11

12.

まとめ  模倣学習では教示データに一貫性がない場合にうまく学習できない  CVAEの潜在変数で動作の特徴を表現し，ばらつきのある動作から学習  数ステップまとめて予測することにより非マルコフ性を伴う動作に対応  実機を含む8つのタスクでベースラインを超える成功率を達成  感想  データのばらつきに対して入力に潜在変数を加えて対応している点が興味深い  Transformerで連続信号の生成をする場合，値の急激な変化は問題にならないのか  Temporal Ensemblingなしでもある程度成功している 2023/7/14 12