736 Views
January 27, 23
スライド概要
2023/1/27
Deep Learning JP
http://deeplearning.jp/seminar-2/
DL輪読会資料
NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics via Novel-View Synthesis 2023.1.27 Presenter: Tatsuya Matsushima @__tmats__ , Matsuo Lab 1
概要 画像入力の模倣学習の方策の学習時に,NeRFをdata augmentationするためのツールとして利用し, 模倣学習におけるcompound errorを低減 • Eye-in-hand(ロボット アームの手先にカメラを 固定)の設定において提案 • 手先の座標にノイズを 加えた姿勢からの画像を NeRFで生成しデータ セットに加える • シミュレータと実機で検証 2
書誌情報 NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics via Novel-View Synthesis • Allan Zhou1, Moo Jin Kim1, Lirui Wang2, Pete Florence3, Chelsea Finn1 • 1Stanford, 2MIT CSAIL,3Google • https://arxiv.org/abs/2301.08556 • v1: 2023/1/18 (フォーマット的にICRA2023にsubmit?) • サイト:https://bland.website/spartn/ ※特に出典が明記されていない図は当論文・サイトから引用 3
本発表について(背景の解説資料) 最近,Implicit Neural Representation (INR)やNeRF周りの研究がたくさん出ている ①NeRF @DL輪読会 2020/3/27(土居さん) • https://www.slideshare.net/DeepLearningJP2016/dlnerf-representing-scenes-as-neural-radiance-fields-for-view-synthesis ②NeRFの派生研究まとめ @DL輪読会 2021/3/19(土居さん) • https://www.slideshare.net/DeepLearningJP2016/dlneural-radiance-field-nerf ③NeRF-VAE @DL輪読会 2021/4/16(谷口さん) • NeRFを潜在変数モデル(VAE)と組み合わせて複数のシーンに汎化させる.ICML2021. • https://www.slideshare.net/DeepLearningJP2016/dlnerfvae-a-geometry-aware-3d-scene-generative-model ④GIRFFE @DL輪読会 2021/4/30(松嶋) • 複数のNeRFを組み合わせてシーンのdisentangleを目指す.CVPR2021 best paper. ⑤Grasping Field @DL輪読会 2021/6/18(近藤さん) • INRの一種のDeep SDFを複数組み合わせて手と物体の衝突や把持を扱う.3DV2020 best paper. • https://www.slideshare.net/DeepLearningJP2016/dlgrasping-field-learning-implicit-representations-for-human-grasps ⑥NeRFlow @DL輪読会 2021/8/6(松嶋) • NeRFを動的なシーンを学習できるように拡張.ICCV2021. • https://deeplearning.jp/neural-radiance-flow-for-4d-view-synthesis-and-video-processing-nerflow/ ⑦HyperNeRF @DL輪読会 2021/10/1(近藤さん) • 動的でdeformableなシーンを一つの映像だけで3D再構成.SIGGRAPH Asia2021. • https://deeplearning.jp/a-higher-dimensional-representation-for-topologically-varying-neural-radiance-fields/ ⑧LIIF @DL輪読会 2021/11/19(秋田さん) • INRで2D画像の超解像,CVPR2021. • https://www.slideshare.net/DeepLearningJP2016/learning-continuous-image-representation-with-local-implicit-image-function-cvpr2021 …and more 4
➡︎ NeRF (谷口さんのDL輪読会スライド) 3次元座標 (x) と視線方向 (d) を 入力として輝度 (r, g, b) と 密度 σ を出力するNN (シーン関数) Fθ : (x, d) ↦ ((r, g, b), σ) 様々な角度から撮った写真で学習 別の角度から撮った写真を 生成できる(novel view synthesis) 5 https://www.slideshare.net/DeepLearningJP2016/dlnerfvae-a-geometry-aware-3d-scene-generative-model
NeRF (谷口さんのDL輪読会スライド) • シーンを3次元座標と視線方向から輝度と密度 への関数として表現 • この関数がわかると、volume renderingを用いて任意の視点から の画像を生成可能(詳しくは土居さんの資料参照) 6 https://www.slideshare.net/DeepLearningJP2016/dlnerfvae-a-geometry-aware-3d-scene-generative-model
NeRF (谷口さんのDL輪読会スライド) • 学習はレンダリングした画像と 真の画像との2乗誤差の最小化 • volume renderingが微分可能なので end-to-endに学習可能 • レンダリング時に使うサンプル点の 選び方などには様々な工夫あり 7 https://www.slideshare.net/DeepLearningJP2016/dlnerfvae-a-geometry-aware-3d-scene-generative-model
NeRF (谷口さんのDL輪読会スライドを編集) Pros Cons • 連続的な3D表現として画期的 • 従来は点群・メッシュなどの 離散的な表現を利用 • シーンごとにたくさんの画像 を用意して学習が必要 • 未知のシーンに汎化しない • 基本的にレンダリング手法 • 獲得される表現に関して あまり議論されていない https://www.matthewtancik.com/nerf 8 https://www.slideshare.net/DeepLearningJP2016/dlnerfvae-a-geometry-aware-3d-scene-generative-model
INRの高速化 Instant NGP • 2022年1月にNeRFの学習が数秒で終わる デモが公開され世界が震撼 • ハッシュエンコーディングを活用して高速化 • NeRFだけではなくDeepSDFなど ほかのINRにも使える • https://arxiv.org/abs/2201.05989 • https://github.com/NVlabs/instant-ngp 9
問題設定:画像入力による物体把持の模倣学習 模倣学習:オフラインに集められたデータセットから方策を学習 • Behavior Cloning (BC):観測(入力)と行動(出力)のマッピン グ(方策)を教師あり学習で学習 • データセットが最適(エキスパート)と仮定 • 共変量シフトに弱いことが知られている • 小さい誤差によってデータ分布から外れてしまい戻ってくるのが難しくなる • コストの高い環境とのオンラインの相互作用が不要 • RLはオンラインでデータを集める 10
アイデア:NeRFでエキスパートにノイズを加える • オフラインに収集したエキスパートで シーンごとにNeRF(instantNeRF)を 学習 • エキスパートにノイズを加えた擬似軌道 を生成し,対応する画像をNeRFで生成 • ノイズを加えた軌道から,エキスパート の軌道に修正する行動をデータセットに • 入力にNeRFで生成した画像を利用 11
アルゴリズム 系列(エピソード)ごとに NeRFを学習(軌道で) 12
アルゴリズム 手先の姿勢にノイズを加える 13
アルゴリズム 正解の行動を再計算 (手先姿勢制御の場合 次の姿勢から計算可能) 14
アルゴリズム ノイズを加えた手先座標での 画像をNeRFを使って生成 15
アルゴリズム データセットに追加 16
エキスパートからのNeRFの学習 • 世界座標系でのカメラ姿勢にはカメラキャリブレーションの誤差が 乗るので,カメラの姿勢を画像からCOLMAPを使って推定 • 姿勢なしの画像からNeRFするときと同じ方法 • COLMAPで推定した姿勢と世界座標系でのカメラ姿勢を対応づける (appendex D2) • NeRFのstaticな制約を満たすために, エキスパートからgripperから物体を 掴むまでの画像を利用 • 画像からgripperに対応する ピクセルをマスクしてNeRFを学習 17
Instant-NGPの活用 元々のNeRFの学習は非常に重いので,Instant-NGPを活用 • 各シーン(エピソード)ごとに,Instant-NGPを3.5k step学習 • それぞれRTX2080Tiで30秒かかる • 2500シーンを4GPUで並列に学習して計7時間程度かかる • でも,オフラインの学習なので,テスト時には問題ない 18
シミュレータでの実験 1500個のShapeNetの物体に対してで2500個のエキスパートを 生成 • ACRONYMデータセットにある 把持姿勢から軌道を生成 • 各軌道は20ステップ以内 • 各軌道につき100パターンaugument • 学習時にないShapeNetとYCBで評価 19
実機での実験 Franka Pandaで実験 • 行動空間は前ステップとの姿勢の差分 • 4HzでCartesian Impedance制御 • VRコントローラでエキスパート作成 • 各軌道50パターンでaugument 20
その他実験の結果 ウェブサイトに行くつか動画がある https://bland.website/spartn/ 21
まとめ・感想 • 手法は非常にシンプル • 計算量の大きいNeRFはオフライン学習なら使えるということを うまく生かしている • NeRFを方策学習のデータ生成器として利用する観点では, (一般的な)モデルベースRLと同じような仕組みになっている • 世界のモデルを学習し,そのモデルをシミュレータとして擬似データを 大量に生成,方策学習を効率化する • ここまで一般化すると世界モデルみが出る (3D世界・レンダリングの事前知識を導入した世界モデルといえそ う) 22
23