[DL輪読会]Making Sense of Vision and Touch: Self-Supervised Learning of Multimodal Representations for Contact-Rich Tasks

>100 Views

August 08, 19

#deep learning #Deep Learning #Self-Supervised Learning #Multimodal representations #Robotics #Vision and touch

スライド概要

2019/07/26
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 84.7K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 54.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 38.9K

【拡散モデル勉強会】拡散モデルのサンプラーまとめ

Deep Learning JP 33.4K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 32.1K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Making Sense of Vision and Touch: Self-Supervised Learning of Multimodal Representations for Contact-Rich Tasks Kohei Nishimura, DeepX,Inc. http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • Title: Making Sense of Vision and Touch: Self-Supervised Learning of Multimodal Re pre se ntations for Contact-Rich Ta sk s • Authors: Michelle A. Lee∗, Yuke Zhu∗, Krishnan Srinivasan, Parth Shah, Silvio Savarese, Li Fei-Fei, Animesh Garg, Jeannette Bohg • Institutes: – Stanford AI Lab • ICRA 2019 best paper. • project page: https://sites.google.com/view/visionandtouch 2

https://sites.google.com/view/visionandtouch

概要 • マルチモーダルな特徴表現をself-supervisedに学習するアーキテクチャを手法を提案した • ペグを穴に差し込むタスクを用いて、マルチモーダルな特徴表現から方策が学習できることを確認した • ペグの形状や外乱に対して頑健に制御できることを確認した 3

動画 • https://www.youtube.com/watch?time_continue=3&v=usFQ8hNtE8c 4

https://www.youtube.com/watch?time_continue=3&v=usFQ8hNtE8c

背景 • 単一のモーダル(センサー)で、一定の動作を達成することは、ある程度うまくできるようになってきている. – ex. 関節情報を入力としたの運動学による制御 – ex. 画像を入力とした学習ベース手法による制御 • より複雑、多様な動きをするためには、マルチモーダル(複数のセンサー)の入力が必要な場合がある – ex. ペグの差し込み、箱をつめる、エッジをなぞる 5

従来の研究 • 従来制御手法(学習ベースではない、運動学を用いた制御) – マルチモーダルな環境においても、制御する手法が提案されてきた – 特徴量をタスクごとに人間が抽出して制御してきた • 学習ベースの制御手法 – 主にシングルモーダル(特に画像)を入力とした、強化学習による制御手法が提案されてきている – 強化学習による制御では、環境との相互作用によって学習するので、データ数が必要になる 6

既存研究マルチモーダルなセンサーを使う研究 • 複数のセンサーを入力として、制御を行う研究も行われている 7

表現学習を用いた、強化学習手法の改善 • 表現学習を用いることで、学習の安定性、サンプル効率を向上する既存研究がある – In t e g r at in g St at e Re pr e se n t at io n L e ar n in g In t o D e e p Re in fo r c e m e n t Learning – 表現学習には、センサー情報の再構成を用いており、データの偏りに敏感、過学習しやすいなどという課題があった • 表現学習手法で必要な内容 – self-supervisedな学習手法 – action-relavantな表現になるような学習 – センサー間の相互依存を考慮した表現になるような学習 8

マルチモーダル表現学習のアーキテクチャ • 画像、トルク、関節情報から特徴表現を抽出する 9

10.

マルチモーダル表現学習のアーキテクチャ Vision • 学習タスク – optical flowのマップを推論 10

11.

マルチモーダル表現学習のアーキテクチャ Vision • Encoder – 入力: • 128 x 128 x 3, RGB Image – 出力: • 128次元 – モデルアーキテクチャ: • 6-layer CNN like FlowNet • Flow Predictor – 入力: • マルチモーダル特徴 & action Encoder output – 出力 • 128 x 128 x 2, Flow map – モデルアーキテクチャ • 6-layer CNN with upsampling 11

12.

特徴抽出モデルのアーキテクチャ sensor: Force-Torque • 学習タスク – 次のステップで机とのペグが衝突するかどうか 12

13.

特徴抽出モデルのアーキテクチャ sensor: Force-Torque • force encoder – 入力 • 32 timestep x 6 axis – 出力 • 64次元 – モデルアーキテクチャ • 5 layer CNN like wavenet (stride 2) • contact predictor – 入力 • マルチモーダル特徴 & action Encoder output – 出力 • binary – モデルアーキテクチャ • 2-layer MLP 13

14.

特徴抽出モデルのアーキテクチャ proprioception • 学習タスク – ランダムに、データの順序を変更し、データの順序を変更したかどうかを推論 14

15.

特徴抽出モデルのアーキテクチャ proprioception • proprioception encoder – 入力 • 14次元(各関節の角度と各関節速度) – 出力 • 32次元 – モデルアーキテクチャ • 2 layer MLP • align predictor – 入力 • マルチモーダル特徴(128次元) & action encoder output – 出力 • binary (are action and proprioception time alingned?) – モデルアーキテクチャ • 2 layer MLP 15

16.

制御システム 16

17.

制御システムの詳細 • 方策はマルチモーダルな表現から、エンドエフェクターの最適な移動差分を出力し、制御コントローラーは方策が出力した移動差分からトルクを出力する • 方策はロボットのダイナミクスを学習する必要がないため、安全に実験できる • Trajectory Generatorは軌道を補完するような移動差分を出力する • PDコントローラーと運動学(慣性行列、ヤコビ行列)を用いることでトルクを出力する 17

18.

方策のアーキテクチャについて • 入力 – 128次元のマルチモーダル表現 • 出力 – エンドエフェクターの理想移動量 • モデルアーキテクチャ – 2層のMLP • 学習方法 – TRPO • 報酬関数は右の通り 18

19.

実験 • 実験で検証したい内容 – 3つのモーダルのセンサーを、入力に用いる意味があるのか。 • シミュレーターで学習した方策を用いて、ablation studyを行い検証 – 獲得した表現から学習した方策は、有用な方策であるのか。 • 実機で学習した方策の性能を検証 – 学習した方策は、タスクや外乱に対して汎化性能があるのか。 • 表現学習時、方策学習時にpegの形状を変更して性能を検証 19

20.

実験設定 • ロボット – KUKA LBR IIWA robot • レンダリング – CHAI3D • pegと箱の間の衝突モデル – SAI 2.0 • 表現学習 – 100kステップの状態を獲得して、20epoch学習 – シミュレーターでは、ランダムに操作して90 ~ 120分 – 実機では、5時間 • 方策学習 – 各エピソードは最大500(sim) / 1000(real)ステップ、1.2k(sim)/300(real)エピソードで学習 20

21.

評価指標 • 定量的評価 – 報酬を獲得可能最大報酬値で正規化して評価 • 定性的評価 – 各エピソードに対する評価を以下の4パターンに分類して評価 21

22.

3つのモーダルのセンサーを、入力に用いる意味があるのか。 • simulatorで、複数のモーダルを用いることで方策の性能が向上した 22

23.

獲得した表現から学習した方策は、有用な方策であるのか実機で学習した方策において、高い性能を示した 23

24.

学習した方策は、タスクや外乱に対して汎化性能があるのか • ペグの形が異なる環境間で転移学習を行い、表現学習と方策学習の汎化性能があることを確認した 24

25.

学習した方策は、タスクや外乱に対して汎化性能があるのか • 外乱を加えても、制御できることを定性的に確認した(1分40秒あたりから) • https://www.youtube.com/watch?time_continue=3&v=usFQ8hNtE8c 25

https://www.youtube.com/watch?time_continue=3&v=usFQ8hNtE8c

26.

まとめ • マルチモーダルな特徴表現をself-supervisedに学習するアーキテクチャを手法を提案した • ペグを差し込むタスクによって、マルチモーダルな特徴表現から方策が学習できることを確認した • ペグの形状や外乱に対して頑健に制御できることを確認した 26

27.

所感 • 自己教師ありで学習したマルチモーダルな表現から、4種類のタスクを一気に強化学習できているのは興味深い • 表現学習の実験が物足りない印象 – ペグの形だけではなく、他のタスクなど、より多くの実験で評価してほしかった 27