[DL輪読会]Grasping Field: Learning Implicit Representations for Human Grasps

0.9K Views

June 18, 21

スライド概要

2021/06/18
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

Grasping Field: Learning Implicit Representations for Human Grasps Naruya Kondo (Digital Nature Group M1) 1

2.

書誌情報 • 3DV 2020 Best Paper • 著者:Korrawe Karunratanakul, Jinlong Yang, Yan Zhang, Michael Black, Krikamol Muandet, Siyu Tang • 機関:ETH Zurich & Max Planck Institute for Intelligent Systems • ひとことで言うと 1. 物体の点群から、自然で安定した人の手の把持姿勢を生成 (初の研究) 2. 物体+手が写った画像から、物体と手の3Dメッシュを再構成 • メッシュ等ではなく場として手と把持対象を扱う • 陰関数大好き! 2

3.

動画 3

4.

陰関数 例 • x^2 + y^2 + z^2 = c (球) • F(x,y,z) = 0 – 境界を表す 良い点 この2次元の形 をFで表したい⇨ c この空間を考える⇨ F(x,y) = c • 計算コストが低い – ボクセルで1024^3とか大変 • トーラス等も問題なく使える – メッシュだと穴の推定が必要 (穴無し研究が普通だった ) • 空間を連続的に扱える – (さまざまな周波数の重ね合わせ?) PIFuも陰関数表現を使った手法 4

5.

符号付き距離関数 (SDF: Signed Distance Function) • F(x,y,z) = “境界面との距離” とする関数 – F(x,y,z) > 0: 境界の外 – F(x,y,z) < 0: 境界の中 F=cがその形。内側: F>c, 外側: F<c この2次元の形 をFで表したい⇨ c この空間を考える⇨ F(x,y) = c 100 – (勝手に地球をイメージ) 0 -100 5

6.

Grasping Field • 手と把持対象の距離関係をSDFで表したもの do 手の中 両方の中 (和集合) 両方の外 dh 物体の中 良くない dh: 手との距離 do: 物体との距離 - 手と物体の接地面は (0,0) のベクトル それぞれの境界面は (0,do) or (dh,0) - xyz空間が2次元ベクトルの場に 6

7.

Grasping Field • 手と把持対象の距離関係をSDFで表したもの – 接触面 – 貫通部分 (めり込み) • このSDFをデータドリブンに学習 • 使い道を2つ提案 1. human grasp synthesis (新しいタスクの提案) 2. 3D hand-object reconstruction from a single RGB image 7

8.

Grasping Field xyz - 把持姿勢の生成 画像から3Dメッシュの再構成 • タスクによって入力・モデル構造は違うが概ねこの図 8

9.

① human grasp synthesis • タスク – 物体の点群を与えて、自然で安定する把持姿勢を生成 9

10.

① human grasp synthesis loss loss • 訓練時 – 物体の点群 + 手の点群 + (調べたい)クエリ座標 • 推論時 – 物体の点群 + サンプルした手の点群のz + (調べたい)クエリ座標 10

11.

Loss loss loss • 訓練時loss • データ数は2772 c(,δ)はクリッピング 11

12.

メッシュの復元:Marching Cubes Algorithm • 点群(今回の場合内側だと判定した点群 )を適切につないでメッシュを作る方法 • 3D格子上に並んだ点は、局所的には8つのパターンしかない。 • ⇨ それぞれのパターンで、点を内側に内包するように面を引く 12

13.

メッシュの復元:手の3Dモデルへのfitting • 手の3Dモデル「MANO」にfittingし、最終的な姿勢を得る – 補助用に6部位それぞれの尤度を予測 – (6クラス分類lossを追加) 13

14.

結果 (定性評価、良いサンプル) • 未知物体もよくもてる 14

15.

結果 (定性評価、悪いサンプル) g.t. raw after fitting • ランダムに手の姿勢zをサンプルするため、歪み、貫通がある – (とはいえサンプルされるほとんどのzが物体に対して的外れな姿勢なはずだけど、生成結果はそれ なりに掴んでいるのが不思議) 15 – (⇧Hand Object EncoderにObjectのEncode結果を入力してるので可能)

16.

実験 • baseline手法を独自に用意 – 物体の点群を入力し、 dh, doを予測するのではなく直接MANOの姿勢パラメータを予測 – SDFを介さない手法 16

17.

結果 • • • Contact ratio: 全データサンプルに対し、接地面が発生した割合 Physics simulation: 物理simで再現し、短い時間で移動した量 Perceptural score: 自然な把持かどうかの人の評価(3人...) • Baseline比で貫通は多いけど、見た目の自然さと物理的安定性がgood – (zをサンプルした回数に依りそう…? 1回なのかな) – (SDF使わなくても割と良い?) 17

18.

② 3D hand-object reconstruction from a single RGB image • タスク (と結果) input raw after fitting g.t. 18

19.

② 3D hand-object reconstruction from a single RGB image • 入力: 画像とクエリ点 • 出力: dh, do – ⇨ mesh 復元 19

20.

② 3D hand-object reconstruction from a single RGB image c(,δ)はクリッピング SDFのLoss: 貫通のLoss: dh + doしてるだけ 接触促進のLoss: ⇦ これのみだと、 接触が起きなくなる ⇦ 1/α 以下なら0を出力さ せて 20 接触を促す

21.

比較結果 2De: decoderが分岐 L: 貫通と接触促進 lossを加えたモデル MANO: fittingあり 従来法と条件を揃えるため、 全条件でobject shapeがgiven ⇦ これのみ従来手法 (メッシュベース ) • 従来手法比でHandはかなり良い。Objectは悪化 – object shapeがgivenに特化してないため • Lを加えると貫通が押さえられるが、(接触促進を加えていても)接触しなくなる • Decoderを分岐させると、Hand・Objectともに改善するが、貫通が増える 21

22.

Limitation • 意味のある持ち方にはなれない – 電動ドリルのグリッパーを掴んでほしい – 刃物の持ち方は2通りある • 画像から把持アニメーションを作るなどはfuture work 22

23.

まとめと感想 • SDFを使ったGrasping Fieldを提案 – 把持姿勢生成、物体と手の3D再構成に使える – 見た目が自然で、物理的にも安定する • 感想 – 同じ発想で2つのタスクが解けていてすごい – Physics simulationの評価指標が良い感じ • (そんなにそれっぽく持てるんだ) – ただあまりSDFの良さがわからなかった… • 内容多すぎて8ページに収まらなかった感 (appendixもう少し頑張って…) 23