[DL輪読会]DeepSignals: Predicting Intent of Drivers Through Visual Signals

319 Views

June 05, 20

#deep learning #Deep Learning #Autonomous Driving #Uber #Behavior Prediction #Machine Learning

スライド概要

2020/06/05
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 87.3K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.9K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 58.4K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.4K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 37.9K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 37.3K

各ページのテキスト

DEEP LEARNING JP [DL Papers] DeepSignals: Predicting Intent of Drivers Through 1 Visual Signals Takumi Ohkuma, Nakayama Lab M2 http://deeplearning.jp/ 2020/6/5

http://deeplearning.jp/

2 自己紹介  大熊拓海（オオクマ  東京大学情報理工学系研究科創造情報学専攻中山研究室 M2  専門はfew-shot learning関連   タクミ）現在のテーマはOpenset image recognitionとFew-shot learningの融合に関する研究共同研究で自動運転系の研究にも携わっている 2020/6/5

書誌情報  題名：DeepSignals: Predicting Intent of Drivers Through Visual Signals  出典：International Conference on Robotics and Automation (ICRA) 2019  著者：Davi Frossard, Eric Kee, Raquel Urtasun (Uberの研究チーム)  URL：https://arxiv.org/pdf/1905.01333.pdf 3 2020/6/5

https://arxiv.org/pdf/1905.01333.pdf

概要 4  自動運転に必要な自動車の行動予測に関する研究  サブタスクとして、自動車のウィンカーや視点の推定も行う  Convolutional LSTMを用いることで精度の向上に貢献  Uberの自動運転プラットフォームを用いて大規模なデータセットを用意し、実験を行う 2020/6/5

メインタスク  自動車が写った連続画像を入力として受け取り、その自動車が次にどのような行動をするかを予測する。  予測する行動の種類はLeft Turn (左折), Right Turn (右折), Flashers (道路脇で停止), Off (そのまま), Unknown (不明) の5クラスである。 5 2020/6/5

サブタスク  ウィンカー検出 (左右それぞれ On, Off ,Unknown)   6 自動車は右折、左折、一時停止するときにはウィンカーを出す決まりになっているので、これを使わない手はない。対象となる自動車に対する視点 (前, 後, 左, 右)  どの視点から対象となる自動車を見ているのか判別できないと、認識が難しい（同じ右折でも向きが変わってしまう）これらのタスクをサブタスクとして同時に学習させることで、メインタスクである行動予測の精度を高めることが目的 2020/6/5

モデルの概要  7 基本的には Attention (a), CNN (b), Convolutional LSTM (c), FC (d)の流れである。 2020/6/5

8 Attention, CNN Attention  何処に注目するかを示すヒートマップ  4層のCNNを用いており入力サイズは224×224×3、出力サイズは224×224×1  元の画像とAttentionの出力をピクセルごとにかけ合わせ、次のCNN (VGG16) の入力とする Input Attention CNN • Imagenet pretrained VGG16を用い、training中にfine tuningする。 • 出力サイズは7×7×512 2020/6/5

9 Convolutional LSTM  通常のLSTMが内部でFCに基づく計算を行うのに対し、ConvLSTMは畳み込みに基づく計算が行われる。  𝑋𝑡 が時刻tにおけるVGG16 (もしくは下位のConvLSTM) より与えられる入力  𝐻𝑡 が時刻tにおける出力 (次のConvLSTM層もしくはFC層に渡す値)  正則化のため (3) の出力にDropout  本研究では2層のConvLSTM層を用いる  隠れ層の次元は7×7×256, 出力サイズは 7×7×1024 2020/6/5

10.

データセット (1) 10  ウィンカー検出用の公開された大規模データが無いので、研究チームが自作した。  Uberの自動運転プラットフォームから10Hzで連続画像を抜き出した  10,000以上の連続画像を作成し、フレーム総数は1,257,591  データ画像は予め自動車領域が抜き出されている (Detectionの必要はない)。  各フレームに行動予測, 左右ウィンカーのON, OFF, 自動車の向きのアノテーション  ウィンカーに関してはフレームごとの点灯、消灯ではなく、連続時間で考えたときのON, OFFのラベルである。  点滅しているウィンカーに対しては、消灯しているフレームに対するラベルもONである。 2020/6/5

11.

データセット (2)  occlusionや悪天候等、難しい状況のデータも含まれている。 11 • 各クラスラベルのデータ数は以下の様にばらつきがある。 2020/6/5

12.

12 学習  誤差関数は4つのheadのcross-entropy loss関数の重み付き和である  𝑦が予測ラベル, ො 𝑥が入力で, intent, left, right viewがそれぞれ行動予測, 左ウィンカー, 右ウィンカー, 視点である。 ℒ 𝑦, ො 𝑥 θ = 𝑙𝑖𝑛𝑡𝑒𝑛𝑡 𝑦, ො 𝑥 θ + 𝑙𝑙𝑒𝑓𝑡 𝑦, ො 𝑥 θ + 𝑙𝑟𝑖𝑔ℎ𝑡 𝑦, ො 𝑥 θ + 𝑙𝑣𝑖𝑒𝑤 𝑦, ො 𝑥θ 𝑙 𝑦, ො 𝑥 θ = γ ෍ 𝑦ො𝑐 log(σ𝑐 (𝑥|θ)) 𝑐  全て微分可能であり、End-to-Endの学習を行う。  Adam optimizerを用い（パラメータの詳細等は論文を参照）、50epochの学習を行った。  25epochほどで大体収束するらしい 2020/6/5

13.

実験結果 (1)  13 行動予測に関して以下の様な混合行列が得られた  各行が正解ラベル、各列が予測ラベルに対応している • 偽陰性率（行動を予測できないでOFFと判断する）が高めになっている。 • 逆に偽陽性率はそれほど高くない。 • Flashersの精度が低い (データ数が少ないから？) 2020/6/5

14.

実験結果 (2) 14 モデルアーキテクチャの有効性に関する実験 1. FC-LSTM: CNNを用いずに元の画像を平滑化してLSTMに入力するモデル 2. ConvLSTM: CNNを用いずに元の画像をそのままConvLSTMに入力するもでる 3. CNN-LSTM: CNNの出力をConvLSTMではなく通常のLSTMに入力したものを比較実験に用いる。 • 1はCNNを用いておらず、画像の良い特徴量が得られていない。 • 2はConvLSTMの入力サイズが大きすぎてチャネル数や層数が非常に少なくなってしまい (3層, 8, 8, 3チャネル) 精度が出ない。 • 3とoursの差は、LSTMよりConvLSTMがこのタスクにおいて優れていることを示している。 2020/6/5

15.

実験結果(3) 15 Ablation study  1はAttentionを抜いたとき、2は AttentionにU-Netを用いた時に対応し、それぞれ精度が低下している。  3, 4はウィンカー及び視点のサブタスクに関する実験で、これらを省くと精度が劣化するので、サブタスクは行動推定に対して有効に働いているとわかる。  5, 6は各種normalizationを導入した実験であり、本タスクにおいては有効ではないようである。 2020/6/5

16.

実験結果(4) 16 Detectorを用いた場合の精度  本データセットはあらかじめ自動車の領域に切り取られた動画であるが、実際の自動運転ではDetection部分から検出器を用いて自動で行う必要がある。  Detector部分の不正確性によって、行動推定の精度が下がらないかどうかを確かめる実験の結果が以下である。  DetectorはLIDARを用いたものと書いてあるが、詳細は不明 • Detectorを用いた場合でも(Detections) 多少の精度劣化は見られるが、十分機能する。 2020/6/5

17.

まとめ 17  自動運転に必要な自動車の行動予測に関する研究  サブタスクとして、自動車のウィンカーや視点の推定も行う  Convolutional LSTMを用いることで精度の向上に貢献  Uberの自動運転プラットフォームを用いて大規模なデータセットを用意し、実験を行った。 2020/6/5

18.

感想 18 作成しているデータセットが大規模で素晴らしい（流石Uber）。 (120万フレーム, 10000Seqences)  データセットを公開してほしい。    純粋に研究に使いたい  データセットを見られないので、例えば精度70%と言われても良くわからない  論文に載せてあるデータセットの図も少しわかりにくいので、実感がつかみにくいせっかくなのでウィンカー検出タスクの精度も公開してほしい。  ウィンカー検出タスクは自動運転パイプラインに組み込むこともできる重要なタスクなので、こちらの精度も出せているとすれば大きな研究成果であると思う。 2020/6/5