【DL輪読会】NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics via Novel-View Synthesis

1K Views

January 27, 23

#@deep learning jp #NeRF #Robotics #Augmentation #Imitation Learning #View Synthesis

スライド概要

2023/1/27
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.7K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.3K

各ページのテキスト

NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics via Novel-View Synthesis 2023.1.27 Presenter: Tatsuya Matsushima @__tmats__ , Matsuo Lab 1

https://twitter.com/__tmats__

概要画像入力の模倣学習の方策の学習時に，NeRFをdata augmentationするためのツールとして利用し，模倣学習におけるcompound errorを低減 • Eye-in-hand（ロボットアームの手先にカメラを固定）の設定において提案 • 手先の座標にノイズを加えた姿勢からの画像を NeRFで生成しデータセットに加える • シミュレータと実機で検証 2

書誌情報 NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics via Novel-View Synthesis • Allan Zhou1, Moo Jin Kim1, Lirui Wang2, Pete Florence3, Chelsea Finn1 • 1Stanford, 2MIT CSAIL，3Google • https://arxiv.org/abs/2301.08556 • v1: 2023/1/18 （フォーマット的にICRA2023にsubmit？） • サイト：https://bland.website/spartn/ ※特に出典が明記されていない図は当論文・サイトから引用 3

本発表について（背景の解説資料）最近，Implicit Neural Representation (INR)やNeRF周りの研究がたくさん出ている ①NeRF @DL輪読会 2020/3/27（土居さん） • https://www.slideshare.net/DeepLearningJP2016/dlnerf-representing-scenes-as-neural-radiance-fields-for-view-synthesis ②NeRFの派生研究まとめ＠DL輪読会 2021/3/19（土居さん） • https://www.slideshare.net/DeepLearningJP2016/dlneural-radiance-field-nerf ③NeRF-VAE ＠DL輪読会 2021/4/16（谷口さん） • NeRFを潜在変数モデル（VAE）と組み合わせて複数のシーンに汎化させる．ICML2021． • https://www.slideshare.net/DeepLearningJP2016/dlnerfvae-a-geometry-aware-3d-scene-generative-model ④GIRFFE ＠DL輪読会 2021/4/30（松嶋） • 複数のNeRFを組み合わせてシーンのdisentangleを目指す．CVPR2021 best paper． ⑤Grasping Field ＠DL輪読会 2021/6/18（近藤さん） • INRの一種のDeep SDFを複数組み合わせて手と物体の衝突や把持を扱う．3DV2020 best paper． • https://www.slideshare.net/DeepLearningJP2016/dlgrasping-field-learning-implicit-representations-for-human-grasps ⑥NeRFlow ＠DL輪読会 2021/8/6（松嶋） • NeRFを動的なシーンを学習できるように拡張．ICCV2021. • https://deeplearning.jp/neural-radiance-flow-for-4d-view-synthesis-and-video-processing-nerflow/ ⑦HyperNeRF ＠DL輪読会 2021/10/1（近藤さん） • 動的でdeformableなシーンを一つの映像だけで3D再構成．SIGGRAPH Asia2021． • https://deeplearning.jp/a-higher-dimensional-representation-for-topologically-varying-neural-radiance-fields/ ⑧LIIF ＠DL輪読会 2021/11/19（秋田さん） • INRで2D画像の超解像，CVPR2021． • https://www.slideshare.net/DeepLearningJP2016/learning-continuous-image-representation-with-local-implicit-image-function-cvpr2021 …and more 4

➡︎ NeRF （谷口さんのDL輪読会スライド） 3次元座標 (x) と視線方向 (d) を入力として輝度 (r, g, b) と密度 σ を出力するNN (シーン関数) Fθ : (x, d) ↦ ((r, g, b), σ) 様々な角度から撮った写真で学習別の角度から撮った写真を生成できる(novel view synthesis) 5 https://www.slideshare.net/DeepLearningJP2016/dlnerfvae-a-geometry-aware-3d-scene-generative-model

https://www.slideshare.net/DeepLearningJP2016/dlnerfvae-a-geometry-aware-3d-scene-generative-model

NeRF （谷口さんのDL輪読会スライド） • シーンを3次元座標と視線方向から輝度と密度への関数として表現 • この関数がわかると、volume renderingを用いて任意の視点からの画像を生成可能（詳しくは土居さんの資料参照） 6 https://www.slideshare.net/DeepLearningJP2016/dlnerfvae-a-geometry-aware-3d-scene-generative-model

https://www.slideshare.net/DeepLearningJP2016/dlnerfvae-a-geometry-aware-3d-scene-generative-model

NeRF （谷口さんのDL輪読会スライド） • 学習はレンダリングした画像と真の画像との２乗誤差の最小化 • volume renderingが微分可能なので end-to-endに学習可能 • レンダリング時に使うサンプル点の選び方などには様々な工夫あり 7 https://www.slideshare.net/DeepLearningJP2016/dlnerfvae-a-geometry-aware-3d-scene-generative-model

https://www.slideshare.net/DeepLearningJP2016/dlnerfvae-a-geometry-aware-3d-scene-generative-model

NeRF （谷口さんのDL輪読会スライドを編集） Pros Cons • 連続的な3D表現として画期的 • 従来は点群・メッシュなどの離散的な表現を利用 • シーンごとにたくさんの画像を用意して学習が必要 • 未知のシーンに汎化しない • 基本的にレンダリング手法 • 獲得される表現に関してあまり議論されていない https://www.matthewtancik.com/nerf 8 https://www.slideshare.net/DeepLearningJP2016/dlnerfvae-a-geometry-aware-3d-scene-generative-model

INRの高速化 Instant NGP • 2022年1月にNeRFの学習が数秒で終わるデモが公開され世界が震撼 • ハッシュエンコーディングを活用して高速化 • NeRFだけではなくDeepSDFなどほかのINRにも使える • https://arxiv.org/abs/2201.05989 • https://github.com/NVlabs/instant-ngp 9

10.

問題設定：画像入力による物体把持の模倣学習模倣学習：オフラインに集められたデータセットから方策を学習 • Behavior Cloning (BC)：観測（入力）と行動（出力）のマッピング（方策）を教師あり学習で学習 • データセットが最適（エキスパート）と仮定 • 共変量シフトに弱いことが知られている • 小さい誤差によってデータ分布から外れてしまい戻ってくるのが難しくなる • コストの高い環境とのオンラインの相互作用が不要 • RLはオンラインでデータを集める 10

11.

アイデア：NeRFでエキスパートにノイズを加える • オフラインに収集したエキスパートでシーンごとにNeRF（instantNeRF）を学習 • エキスパートにノイズを加えた擬似軌道を生成し，対応する画像をNeRFで生成 • ノイズを加えた軌道から，エキスパートの軌道に修正する行動をデータセットに • 入力にNeRFで生成した画像を利用 11

12.

アルゴリズム系列（エピソード）ごとに NeRFを学習（軌道で） 12

13.

アルゴリズム手先の姿勢にノイズを加える 13

14.

アルゴリズム正解の行動を再計算（手先姿勢制御の場合次の姿勢から計算可能） 14

15.

アルゴリズムノイズを加えた手先座標での画像をNeRFを使って生成 15

16.

アルゴリズムデータセットに追加 16

17.

エキスパートからのNeRFの学習 • 世界座標系でのカメラ姿勢にはカメラキャリブレーションの誤差が乗るので，カメラの姿勢を画像からCOLMAPを使って推定 • 姿勢なしの画像からNeRFするときと同じ方法 • COLMAPで推定した姿勢と世界座標系でのカメラ姿勢を対応づける（appendex D2） • NeRFのstaticな制約を満たすために，エキスパートからgripperから物体を掴むまでの画像を利用 • 画像からgripperに対応するピクセルをマスクしてNeRFを学習 17

18.

Instant-NGPの活用元々のNeRFの学習は非常に重いので，Instant-NGPを活用 • 各シーン（エピソード）ごとに，Instant-NGPを3.5k step学習 • それぞれRTX2080Tiで30秒かかる • 2500シーンを4GPUで並列に学習して計7時間程度かかる • でも，オフラインの学習なので，テスト時には問題ない 18

19.

シミュレータでの実験 1500個のShapeNetの物体に対してで2500個のエキスパートを生成 • ACRONYMデータセットにある把持姿勢から軌道を生成 • 各軌道は20ステップ以内 • 各軌道につき100パターンaugument • 学習時にないShapeNetとYCBで評価 19

https://sites.google.com/nvidia.com/graspdataset

20.

実機での実験 Franka Pandaで実験 • 行動空間は前ステップとの姿勢の差分 • 4HzでCartesian Impedance制御 • VRコントローラでエキスパート作成 • 各軌道50パターンでaugument 20

21.

その他実験の結果ウェブサイトに行くつか動画がある https://bland.website/spartn/ 21

https://bland.website/spartn/

22.

まとめ・感想 • 手法は非常にシンプル • 計算量の大きいNeRFはオフライン学習なら使えるということをうまく生かしている • NeRFを方策学習のデータ生成器として利用する観点では，（一般的な）モデルベースRLと同じような仕組みになっている • 世界のモデルを学習し，そのモデルをシミュレータとして擬似データを大量に生成，方策学習を効率化する • ここまで一般化すると世界モデルみが出る（3D世界・レンダリングの事前知識を導入した世界モデルといえそう） 22

23.