【DL輪読会】Model-Based Runtime Monitoring withv Interactive Imitation Learning (ICRA2024)

1.4K Views

May 02, 24

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Model-Based Runtime Monitoring with Interactive Imitation Learning (ICRA2024) 2024.05.02 Ryosuke Takanami, D1, Matsuo-Iwasawa Lab http://deeplearning.jp/ 1

2.

書誌情報 • Model-Based Runtime Monitoring with Interactive Imitation Learning • • • Project Page: https://ut-austin-rpl.github.io/sirius-runtime-monitor/ arXiv: https://arxiv.org/abs/2310.17552 著者:Huihan Liu, Shivin Dass, Roberto Martin-Martin, Yuke Zhu (UT Austin) • 選定理由: – ICRA2024 採択論文 – ロボット学習において課題となる多様な実行環境に対する汎化性と頑健性に対して どういうアプローチが試みられているか最近気になっているため • 特に断りのない限り,図表等の出典は本論文、本プロジェクトページからの引用 2

3.

概要 (課題と提案) • 多様なテスト環境が存在するロボット学習分野においては,汎化性や頑健性が 問題になり,継続的な動作⽅策の改善が必要 • Interactive imitation learning (IIL) は継続的な⽅策改善が可能だが,⼈ 間の監視コストや介⼊コスト,実⾏時の安全性が課題 • 世界モデル (ダイナミクスモデル) を活⽤して,動作実⾏中のロボットの監視 の⾃動化に試みた研究 3

4.

概要 (提案⼿法) • IILの枠組みにおいて⼈間の監視コストを低減させるために,失敗判定器に着⽬ • ダイナミクスモデルを学習し,将来の失敗を予測する失敗判定器を構築 Interactive Imitation Learning (IIL) の枠組み 提案ダイナミクスモデルと方策と失敗判定器 4

5.

概要 (結果) • 提案⼿法は,他のIIL⼿法に⽐べてタスク成功率が⾼く,⼈間の負担も軽減された • ダイナミクスモデルに基づいた失敗判定器の失敗検出も他の⼿法より優れていた 5

6.

関連研究 • Interactive imitation learning (IIL) の先⾏研究 – そもそもIILとは,制御⽅策を環境で実⾏でしつつ,データを集め,必要に応じて⼈間が介⼊しながら逐次的に⽅策 を更新する⼿法 • ⼈間が介⼊するタイミングを選ぶ⼿法 – ⼈間が常に監視しなくてはならず,⼈間側の負担が⼤きい https://arxiv.org/abs/2211.08416 • ロボットが⾃動で介⼊するタイミングを判定する⼿法 – 効率的なデータ取得に主眼をおいており,実⾏時の安全性は 考えられていない https://arxiv.org/abs/2109.08273 実応⽤上,IILが機能するには,⼈間の負担を低減 させつつ,実⾏時の安全性を担保する必要がある 6

7.

関連研究 • 失敗判定の先⾏研究 • 教師なし学習による分布外検出 – – 教師ありに⽐べ,誤差検出を誤る可能性が⾼い 将来の失敗を予測することはできない https://arxiv.org/abs/2212.04708 • 教師あり学習による失敗検出 – 実際に失敗したデータが必要であり安全性の観点から難あり https://arxiv.org/abs/2109.08273 不完全な⽅策を実⾏時に失敗に陥る前に⼈間に介⼊したい 将来状態を予測するようなモデルで実⾏時の失敗を回避することはできないか 7

8.

⼿法 1. ダイナミクスモデル - cVAEによる潜在空間上でのダイナミクスをモデル化 2. ⽅策と失敗判定器 - 潜在状態を⼊⼒とする⽅策,失敗判定器を学習 8

9.

⼿法 1. cVAEによる潜在空間上でのダイナミクスをモデル化 l 過去の潜在状態と⾏動を条件づけとして, 次のtimestepの潜在状態を出⼒するcVAEを学習 l Encoder, decoderはMLPを使⽤ 9

10.

⼿法 2. 潜在状態を⼊⼒とする⽅策,失敗判定器を学習 • 現在の潜在状態を⼊⼒として,⾏動を出⼒するBC-RNNを学習 • 学習⾃体は,前述のcVAEと⼀緒に下記のlossで学習 • 第1項は,BCのloss • 第2,3項は,よくあるVAEの再構成誤差とKL loss 10

11.

⼿法 2. 潜在状態を⼊⼒とする⽅策,失敗判定器を学習 • 失敗判定器は失敗とnot失敗の2状態で分類するのではなく, 失敗,介⼊,それ以外の3状態に分類するように学習される • 学習データは⼈間が介⼊したタイミングの少し前のタイミング の状態を教師データとして学習 (失敗データは明⽰的に必要がない) • モデルはLSTMを採⽤,lossはcross entropy lossを使⽤ 11

12.

実験結果 • 実験環境 – Simulation (左 Nut Assembly, 右 Threading) – Franka Emika Panda 実機 (左 Coffee Pod Packing, 右 Gear Assembly) 12

13.

実験結果 • システム全体としてのタスク成功率の⽐較 – ⽅策実⾏→学習を3Round繰り返してどれだけタスクの精度が向上するかを検証 – ⽅策実⾏中は公平な⽐較のために特定回数のinterventionしか許していない • おそらく,介⼊のタイミングが⼤事な設定になっている – Round1は提案⼿法は失敗判定器の学習のために⼈間の監視が常に必要になるため評価されて いないが,Round2以降はベースライン⼿法を超える精度を達成 13

14.

実験結果 • ⼈間の介⼊の効率性の評価 – Normalized ROHEと呼ばれる⼈間の介⼊が少なく,かつ,タスク成功していると⾼くなる 指標で評価 – Round1は前述の理由で低いものの,Round2以降は⾼いスコアを達成 14

15.

実験結果 • 失敗判定器⾃体の定量評価 – 失敗が発⽣するような軌跡で学習ずみの失敗判定器によって判定された失敗フレームと⼈間に よって判定された失敗フレームの⼀致度を⽐較 – 指標 • IOU (Intersection over Union) – 画像認識のIOUと定義は同じ – 失敗判定器の判定したフレームと⼈間が判定したフレームがどれだけかぶっているか • DCI (Distance to Closest Intervention) – 介⼊のタイミングのずれが平均的にどれだけあるかを評価している指標 – 失敗判定⾃体も提案⼿法の⽅が有効であった 15

16.

まとめ • まとめ – IILの枠組みの中でダイナミクスモデルを学習することで,将来の失敗を予測することができ るようになり,安全にタスク全体のパフォーマンスを向上し,⼈間の負担も軽減された – また,失敗判定器⾃体も⼈間が介⼊しようとしたタイミングを教師データとしており,実際に 学習された判定器は⼈間がリスクと感じる状態を学習できていることが⽰された • 感想 – アーキテクチャ⾃体や失敗データの取り⽅の⼯夫⾃体はよく⾒る⽅法だが,それらをうまく組 み合わせることが今回の新しさだと理解した – ダイナミクスモデルの部分はcVAEでなくてもtrasnforer, diffusion model, SSMなど⾊々改良 はできそうだと感じた – また,今回はテーブルトップの環境でロボットアームでしかやられていないが他のロボットや 環境でも適応できるかは実際に試してみたいと感じた 16

17.

補⾜資料 • OOD判定のablation study – 左は定量的評価,失敗判定もOOD判定も必要 – 右は定性的評価,失敗判定は細かいところ,OOD判定は⼤雑把なところを判 定していることがわかる 17