591 Views
October 03, 22
スライド概要
2022/9/30
Deep Learning JP
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] DayDreamer: World Models for Physical Robot Learning Yuya Ikeda, MatsuoLab B4 http://deeplearning.jp/ 1
書誌情報 ◼ 題名 ◼ DayDreamer: World Models for Physical Robot Learning ◼ 著者 ◼ Philipp Wu* Alejandro Escontrela* Danijar Hafner* Ken Goldberg Pieter Abbeel University of California, Berkeley ◼ 会議 ◼ CoRL2022 ◼ URL ◼ https://arxiv.org/pdf/2206.14176.pdf 2
概要 ◼ 実ロボットを用いたタスクをDreamerで直接学習 ◼ 実機・オンラインで数時間で学習 ◼ 4種類のタスク環境での検証を行なった ◼ 一貫したハイパーパラメータを使用 ◼ 主要なモデルフリーRLアルゴリズムと比較実験を行い、Dreamerの有効性を 検証 ◼ 実世界ロボット学習のための枠組みを示した 引用 https://danijar.com/project/ daydreamer/ 3
背景 深層学習は大量のデータを用いることで高い精度を実現してきた ロボット学習の課題・・・実機でのデータ収集コストが非常に高い → シミュレータの活用 高速・並列に動かせるのでデータを効率的に集められる ◼ シミュレータをどのように作成するか ◼ 人が設計したシミュレータを用いる方針 ◼ 学習によって獲得したシミュレータを用いる方針 4
背景 ◼ 人が設計したシミュレータを利用したデータ収集 ◼ 環境・ロボットのモデルをシミュレータで再現しデータを集め学習 ◼ シミュレータ(sim)で学習した方策を実機(real)で利用(sim-to-real) ◼ 人が設計したシミュレータの課題 ◼ sim-to-realした際に性能が発揮できない場合がある ◼ realの環境やモデルがsimで正確に再現できていないことに起因 ◼ この環境差はreality gapと呼ばれる ◼ reality gapに対処する主な工夫 ◼ sim環境をランダム化する (domain randomization) ◼ 汎化性能の向上が期待できる 5 引用 : https://openai.com/blog/solving-rubiks-cube/
背景 ◼ 学習によってシミュレータを獲得する方針 ◼ モデルベースRL ◼ 以下を繰り返し行う ・方策に基づき行動し、環境からデータを収集 ・データから環境のモデルを学習する ・学習した環境のモデル(世界モデル)から方策を更新 ◼ 世界モデルをシミュレータとして利用できるためサン プル効率が良い ◼ Model-Based Reinforcement Learning for Atari ◼ SimPLeと呼ばれるモデルベースRLでAtariをプレイ ◼ モデルフリーRLと比較して数倍のサンプル効率 引用 : Model-Based Reinforcement Learning for Atari 6
背景 sim-to-real vs モデルベースRL ◼ sim-to-real ◼ reality gapが課題 ◼ domain randomizationなどによりある程度解ける ◼ 実機を用いたロボット学習では主流 ◼ モデルベースRL ◼ 正確な世界モデルを学習することが難しい ◼ 成果はAtariなどに限られており、実ロボットへの活用はあまりなかった → DayDreamerが登場 7
DayDreamer ◼ ネットワーク ◼ DreamerV2 ◼ 高いサンプル効率を発揮したモデルベースRLの一種 ◼ アルゴリズムはそのまま使用している ◼ タスク ◼ 各タスクで同一のパラメータを使用 ◼ A1 Quadruped Walking ◼ UR5 Multi-Object Visual Pick and Place ◼ XArm Visual Pick and Place ◼ Sphero Navigation 引用 : https://arxiv.org/pdf/2206.14176.pdf 8
A1 Quadruped Walking ◼ タスク詳細 ◼ 12DOFの4脚ロボットで歩行を行うタスク ◼ 入力はモータの角度、姿勢、角速度 ◼ アクションは各モータの角度 ◼ 初期状態は仰向けになった状態 ◼ 報酬 Unitree A1 9
A1 Quadruped Walking ◼ 実装上の工夫 ◼ 訓練可能な領域の端に到達したら、ロボットの姿勢を変えず手動で位置を戻す (リセットを用いない) ◼ ロボットが転がりやすいようにシェルを3Dプリンタで作成 ◼ 結果 ◼ 1時間後には前進するように ◼ 10分の追加学習で外乱に耐えるように ◼ SACは立ち上がることができなかった 引用 : https://arxiv.org/pdf/2206.14176.pdf 引用 : https://www.youtube.com/watch?v=A6Rg0qRwTYs 10
UR5 Multi-Object Visual Pick and Place ◼ タスク詳細 ◼ 5DOFのロボットアームで複数物体のpick and placeを行うタスク ◼ 片方の容器からもう片方の容器へ移動させることが目標 ◼ 入力はロボットの位置、RGB画像 ◼ アクションはグリッパのx, y, zの変位とグリッパの開閉 ◼ 報酬 ◼ 物体をつかむと+1 ◼ つかんだ物体を同じ容器内で離してしまうと-1 ◼ つかんだ物体を異なる容器内で離すと+10 ◼ 結果 引用 : https://arxiv.org/pdf/2206.14176.pdf ◼ 8時間後に人がテレオペした時に近い性能 ◼ RainbowやPPOは物体をつかんでも同じ容器に落としてしまう 11
XArm Visual Pick and Place ◼ タスク詳細 ◼ 7DOFのロボットアームで単一物体のpick and placeを行うタスク ◼ 片方の容器からもう片方の容器へ移動させることが目標 ◼ 紐でロボットアームと物体を接続 ◼ 物体が角でスタックしないようにするための工夫 ◼ 入力はロボットの位置、RGB画像、Depth画像 ◼ アクション、報酬はUR5の実験と同様 ◼ 結果 ◼ 10時間後に人がテレオペした時に近い性能 ◼ Rainbowでは学習できなかった 引用 : https://arxiv.org/pdf/2206.14176.pdf 12
XArm Visual Pick and Place ◼ 結果 ◼ 照明条件が大きく変化した際性能が低下するが、5時間ほどで元の水準に ◼ Dreamerが適応的に学習していることを示している ◼ ここはあまり意義がわからなかった ◼ RGBに加えてDepthを入力している影響はどれくらいなのか ◼ Depthを使っていないUR5の方は照明条件に関する言及はない 引用 : https://arxiv.org/pdf/2206.14176.pdf 13
Sphero Navigation ◼ タスク詳細 ◼ 車輪付きロボットを目標位置までナビゲーションするタスク ◼ ロボットは左右対称なので観測履歴から方向を推定する必要がある ◼ 入力はRGB画像 ◼ アクションはロボットのトルク ◼ 報酬 ◼ ゴールとのL2距離を負にした値 ◼ 結果 ◼ 2時間でナビゲーションができるように ◼ DrQv2でも近い性能を達成 ◼ DrQv2 : 画像ベース連続値制御モデルフリーRLアルゴリズム 引用 : https://arxiv.org/pdf/2206.14176.pdf 14
まとめ・感想 ◼ 実世界ロボットを用いたタスクをDreamerで直接学習 ◼ モデルベースRLを用いることで低時間(〜10h)で実機のみで学習が可能 ◼ Dreamerをそのまま適用してきちんと動作しているのが驚き ◼ 実世界ロボット学習のための枠組みを示した ◼ 実機を使って世界モデルを学習する新しいアプローチ ◼ 人が設計するシミュレータと世界モデルをうまく組み合わせることができると より高度なことができそう ◼ ハードウェアや設定に論文に明示されていないトリックがありそう ◼ コードが公開されている&A1が利用できるので動かしてみたい ◼ 本当は輪読会までに動かしたいと思っていたが準備が間に合わなかった 15