【論文読み会】LidarGait: Benchmarking 3D Gait Recognition with Point Clouds

1.2K Views

March 06, 24

スライド概要

profile-image

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

2023年度論文読み会#8(3Dデータ論文読み会#2) LiDAR点群データを用いた歩行認識「LidarGait」 京都大学理学部 3回生 松田拓巳 0

2.

■3D論文読み会について ⚫ 週1回ペースで3D×機械学習に関連する論文読み会を実施 ⚫ 全7回を予定し、3回分は認識系、4回分は生成系を読む ⚫ 発表予定の1週間前までに発表する旨を#generalで告知 ⚫ • 発表する日時(基本は火曜19時~ですが都合により変更も可) • 論文名とそのリンク • 認識系 or 生成系 発表希望者がいない回は松田が発表します 1

3.

■論文の探し方(例) ⚫ Google Scholar や X,arXiv,CVPR,Microsoft Academicなど で検索して探す ⚫ • “3D deep learning” • “3D recognition” • 興味のある分野のwordを入れても良いかも(ex. 自動運転) Paper with codeのBrowse State-of-the-Artで性能の良い モデルの論文を探す 2

4.

LidarGait: Benchmarking 3D Gait Recognition with Point Clouds 目次 1. 歩行認識の概要 2. データセット:SUSTech1K 3. モデル:LidarGait 4. 精度検証 3

5.

1. 歩行認識の概要 4

6.

1. 歩行認識の概要 1.1 歩行認識(gait recognition) ⚫ 歩行する人物のデータ(画像群、3Dデータ群)から、その人がどの人物かを同定するタスク ⚫ 物理的接触なしに遠距離から人物を特定できる 5

7.

1. 歩行認識の概要 1.2 カメラベースの手法 ⚫ 通常のカメラ画像から得られるシルエットをもとに推定する 主な手法 • 左図のように単一視点からの情報から人物 を同定する • 3D表現を推定してから、人物を同定する 問題点 • 低解像度,暗い,未知の姿勢などの悪条件 に弱い(=実環境に応用しづらい) 6

8.

1. 歩行認識の概要 1.3 LiDARベースの手法 ⚫ LiDARから得られる点群をもとに推定する LiDARの原理 • レーザー光を照射し、反射して返ってくる までの時間から距離がわかる メリット • 3次元的な情報が使える デメリット • センサーが高価 7

9.

1. 歩行認識の概要 1.4 本論文のポイント ⚫ カメラ画像&LiDARによる点群データを集めた初の大規模データセットを構築 ⚫ 屋外環境での歩行認識で、カメラベースの手法を上回る精度を達成 SUSTech1Kデータセット LiDARGait 8

10.

2. データセット:SUSTech1K 9

11.

2. データセット:SUSTech1K 2.1 SUSTech1Kのポイント ⚫ 既存の点群データセットに比べて大規模 ⚫ 点群だけでなくカメラ画像、シルエットも含まれている ⚫ 屋外環境で収集されている 画像出典:Shiqi Yu, Daoliang Tan, and Tieniu Tan. A framework for evaluating the effect of view angle, clothing and carrying condition on gait recognition. In ICPR, pages 441–444, 2006. 1, 3, 4, 6, 7 10

12.

2. データセット:SUSTech1K 2.2 収集方法 ⚫ 大学キャンパス内の3地点で実施(Scene1~Scene3) ⚫ 往復経路(橙色)と片道経路(青)を歩かせる(下図) ⚫ 普通に歩く場合(Normal)と、変則的な場合(Variance)で歩かせる 11

13.

2. データセット:SUSTech1K 2.3 データ例 12

14.

3. モデル:LidarGait 13

15.

■補足|人物同定の方法 ⚫ データベース上の各個人の特徴ベクトルと、今得られた特徴ベクトルを比較し、人物を同定 データベース (gallery set) 認識対象 (probe set) 14

16.

■補足|距離学習(Metric Learning) 参考記事:https://qiita.com/tancoro/items/35d0925de74f21bfff14 ⚫ 人物同定タスクをクラス分類として解く場合、新しい人物を追加するごとに再学習の必要 ⚫ Triplet Lossを使って、同じ人物のNN出力は近くなるように、違う人物のNN出力は遠くなるよ うに学習させる(Metric Learning) 15

17.

3. モデル:LidarGait 3.1 モデルの内容 𝑗 𝑗 1. 各時刻における点群データ𝑃𝑖 から、RGBDデータを生成:𝒢(𝑃𝑖 ) 𝑗 𝑗 2. RGBDデータをGaitBase(畳み込みNNモデル)に入力して特徴量を得る:𝑓𝑖,𝑡 = 𝒮 𝒢 𝑃𝑖,𝑡 3. 特徴量をSet Poolingで時間方向に集約:𝒯 𝒮 𝒢 𝑃𝑖,1 , ⋯ , 𝒮 𝒢 𝑃𝑖,𝑇 4. 集約特徴量を距離学習モデルに入れ、人物同定用の特徴量を得る 16

18.

3. モデル:LidarGait 3.2 モデルの詳細 幾何学的変換 1 atan2 𝑦, 𝑥 Δ𝜃 1 𝑧 𝑐= arcsin Δ𝜙 𝑥 2 + 𝑦2 + 𝑧2 𝑟= 出典:https://arxiv.org/abs/2211.06597 出典:https://arxiv.org/abs/1811.06186 17

19.

3. モデル:LidarGait 3.3 多視点版:MV-LidarGait ⚫ センサーからの視点だけでなく、他の視点からのRGBDも考慮するようにする • (センサーから見て)右側から見た視点=Right-side-view • 上側から見た視点=Bird-eye’s-view ⚫ 各視点のRGBDを𝒮に入れて、各出力を足し合わせる(他の部分は単一視点モデルと同じ) 18

20.

4. 精度検証 19

21.

4. 精度検証 4.1 他モデルとの正解率比較 ⚫ カメラベースモデル、従来の点群ベースモデルを超える精度を達成 ⚫ カメラベースではNightで精度が著しく低いが、LiDARでは精度を維持できている 注1)GaitSet, GaitBaseはフレームの順序を考慮しないモデル、GaitPart, GaitGLは考慮するモデル 注2)Rank-1 accuracy:通常の正解率と同じ,Rank-5 accuracy:上位候補5個の中に正解が含まれる割合 20

22.

4. 精度検証 4.2 視点角度による正解率比較 ⚫ カメラベースでは、galleryの視点とprobeの視点が±90度ズレていると低精度(紫部分) ⚫ LiDARベースでは、±90度ズレていてもそこまで精度は落ちない *galleryとprobeがわからない人はスライドp.14を参照! 21

23.

4. 精度検証 4.3 深度情報はどれだけ精度向上に貢献しているのか? ⚫ 深度情報が含まれていない場合:LiDARシルエット<カメラシルエット …… 点群の方が粗い・疎なので当然 ⚫ 深度情報を含む場合:LiDARシルエット>カメラシルエット …… 3次元的な情報はかなり重要ということがわかる カメラ画像から得たシルエット画像 LiDAR点群から作ったシルエット画像 ↑に深度情報(奥行)を追加した画像 深度情報を入れたら 正解率が22ポイントUP 22

24.

4. 精度検証 4.4 視点による正解率比較 ⚫ 単一視点なら、LiDAR視点が最も精度が良い ⚫ 複数視点を組み合わせることで、精度がわずかに改善 • 特に、傘を持っている場合の精度が改善している • 上からの視点(BEV)を加えても精度上がらず (Bird Eye’s View) (Right Side View) (Lidar Range View) 23

25.

■補足|傘を持っていると精度が下がる理由 ⚫ 傘を持っていると、身長が本来よりも小さく見えてしまう 24

26.

4. 精度検証 4.5 その他検証 ⚫ 入力フレーム数の影響 ⚫ GalleryとProbeのデータ種 ⚫ 次元削減マップ 変則的な歩行データ(variation)をGalleryにす るよりも、普通の歩行データ(normal)を Galleryにしたほうが精度が良い 注)フレームは連続ではなく、ランダムに選択 25

27.

LidarGait: Benchmarking 3D Gait Recognition with Point Clouds まとめ まとめ1 LiDARセンサーとRGBカメラによって収集された大規模な歩行認識データセット まとめ2 LidarGaitは既存の点群ベース/シルエットベースのモデル精度を上回り、 「SUSTech1K」を構築した 角度や環境に影響されづらい安定的な人物同定が可能 26