>100 Views
August 08, 19
スライド概要
2019/07/26
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Making Sense of Vision and Touch: Self-Supervised Learning of Multimodal Representations for Contact-Rich Tasks Kohei Nishimura, DeepX,Inc. http://deeplearning.jp/ 1
書誌情報 • Title: Making Sense of Vision and Touch: Self-Supervised Learning of Multimodal Re pre se ntations for Contact-Rich Ta sk s • Authors: Michelle A. Lee∗, Yuke Zhu∗, Krishnan Srinivasan, Parth Shah, Silvio Savarese, Li Fei-Fei, Animesh Garg, Jeannette Bohg • Institutes: – Stanford AI Lab • ICRA 2019 best paper. • project page: https://sites.google.com/view/visionandtouch 2
概要 • マルチモーダルな特徴表現をself-supervisedに学習するアーキテクチャを手 法を提案した • ペグを穴に差し込むタスクを用いて、マルチモーダルな特徴表現から方策が学 習できることを確認した • ペグの形状や外乱に対して頑健に制御できることを確認した 3
動画 • https://www.youtube.com/watch?time_continue=3&v=usFQ8hNtE8c 4
背景 • 単一のモーダル(センサー)で、一定の動作を達成することは、ある程度うまく できるようになってきている. – ex. 関節情報を入力としたの運動学による制御 – ex. 画像を入力とした学習ベース手法による制御 • より複雑、多様な動きをするためには、マルチモーダル(複数のセンサー)の入 力が必要な場合がある – ex. ペグの差し込み、箱をつめる、エッジをなぞる 5
従来の研究 • 従来制御手法(学習ベースではない、運動学を用いた制御) – マルチモーダルな環境においても、制御する手法が提案されてきた – 特徴量をタスクごとに人間が抽出して制御してきた • 学習ベースの制御手法 – 主にシングルモーダル(特に画像)を入力とした、強化学習による制御手法が提案され てきている – 強化学習による制御では、環境との相互作用によって学習するので、データ数が必要 になる 6
既存研究 マルチモーダルなセンサーを使う研究 • 複数のセンサーを入力として、制御を行う研究も行われている 7
表現学習を用いた、強化学習手法の改善 • 表現学習を用いることで、学習の安定性、サンプル効率を向上する既存研究が ある – In t e g r at in g St at e Re pr e se n t at io n L e ar n in g In t o D e e p Re in fo r c e m e n t Learning – 表現学習には、センサー情報の再構成を用いており、データの偏りに敏感、過学習し やすいなどという課題があった • 表現学習手法で必要な内容 – self-supervisedな学習手法 – action-relavantな表現になるような学習 – センサー間の相互依存を考慮した表現になるような学習 8
マルチモーダル表現学習のアーキテクチャ • 画像、トルク、関節情報から特徴表現を抽出する 9
マルチモーダル表現学習のアーキテクチャ Vision • 学習タスク – optical flowのマップを推論 10
マルチモーダル表現学習のアーキテクチャ Vision • Encoder – 入力: • 128 x 128 x 3, RGB Image – 出力: • 128次元 – モデルアーキテクチャ: • 6-layer CNN like FlowNet • Flow Predictor – 入力: • マルチモーダル特徴 & action Encoder output – 出力 • 128 x 128 x 2, Flow map – モデルアーキテクチャ • 6-layer CNN with upsampling 11
特徴抽出モデルのアーキテクチャ sensor: Force-Torque • 学習タスク – 次のステップで机とのペグが衝突するか どうか 12
特徴抽出モデルのアーキテクチャ sensor: Force-Torque • force encoder – 入力 • 32 timestep x 6 axis – 出力 • 64次元 – モデルアーキテクチャ • 5 layer CNN like wavenet (stride 2) • contact predictor – 入力 • マルチモーダル特徴 & action Encoder output – 出力 • binary – モデルアーキテクチャ • 2-layer MLP 13
特徴抽出モデルのアーキテクチャ proprioception • 学習タスク – ランダムに、データの順序を変更し、データの 順序を変更したかどうかを推論 14
特徴抽出モデルのアーキテクチャ proprioception • proprioception encoder – 入力 • 14次元(各関節の角度と各関節速度) – 出力 • 32次元 – モデルアーキテクチャ • 2 layer MLP • align predictor – 入力 • マルチモーダル特徴(128次元) & action encoder output – 出力 • binary (are action and proprioception time alingned?) – モデルアーキテクチャ • 2 layer MLP 15
制御システム 16
制御システムの詳細 • 方策はマルチモーダルな表現から、エンドエフェクターの最適な移動差分を出 力し、制御コントローラーは方策が出力した移動差分からトルクを出力する • 方策はロボットのダイナミクスを学習する必要がないため、安全に実験できる • Trajectory Generatorは軌道を補完するような移動差分を出力する • PDコントローラーと運動学(慣性行列、ヤコビ行列)を用いることでトルクを出 力する 17
方策のアーキテクチャについて • 入力 – 128次元のマルチモーダル表現 • 出力 – エンドエフェクターの理想移動量 • モデルアーキテクチャ – 2層のMLP • 学習方法 – TRPO • 報酬関数は右の通り 18
実験 • 実験で検証したい内容 – 3つのモーダルのセンサーを、入力に用いる意味があるのか。 • シミュレーターで学習した方策を用いて、ablation studyを行い検証 – 獲得した表現から学習した方策は、有用な方策であるのか。 • 実機で学習した方策の性能を検証 – 学習した方策は、タスクや外乱に対して汎化性能があるのか。 • 表現学習時、方策学習時にpegの形状を変更して性能を検証 19
実験設定 • ロボット – KUKA LBR IIWA robot • レンダリング – CHAI3D • pegと箱の間の衝突モデル – SAI 2.0 • 表現学習 – 100kステップの状態を獲得して、20epoch学習 – シミュレーターでは、ランダムに操作して90 ~ 120分 – 実機では、5時間 • 方策学習 – 各エピソードは最大500(sim) / 1000(real)ステップ、1.2k(sim)/300(real)エピソー ドで学習 20
評価指標 • 定量的評価 – 報酬を獲得可能最大報酬値で正規化して評価 • 定性的評価 – 各エピソードに対する評価を以下の4パターンに分類して評価 21
3つのモーダルのセンサーを、入力に用いる意味があるのか。 • simulatorで、複数のモーダルを用いることで方策の性能が向上した 22
獲得した表現から学習した方策は、有用な方策であるのか 実機で学習した方策において、高い性能を示した 23
学習した方策は、タスクや外乱に対して汎化性能があるのか • ペグの形が異なる環境間で転移学習を行い、表現学習と方策学習の汎化性能が あることを確認した 24
学習した方策は、タスクや外乱に対して汎化性能があるのか • 外乱を加えても、制御できることを定性的に確認した(1分40秒あたりから) • https://www.youtube.com/watch?time_continue=3&v=usFQ8hNtE8c 25
まとめ • マルチモーダルな特徴表現をself-supervisedに学習するアーキテクチャを手 法を提案した • ペグを差し込むタスクによって、マルチモーダルな特徴表現から方策が学習で きることを確認した • ペグの形状や外乱に対して頑健に制御できることを確認した 26
所感 • 自己教師ありで学習したマルチモーダルな表現から、4種類のタスクを一気に 強化学習できているのは興味深い • 表現学習の実験が物足りない印象 – ペグの形だけではなく、他のタスクなど、より多くの実験で評価してほしかった 27