[DL輪読会]Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Object Detection

>100 Views

July 26, 19

スライド概要

2019/07/26
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Object Detection [DL Papers] Takumi Ohkuma, Nakayama Lab M1 http://deeplearning.jp/ 1

2.

自己紹介 ■ 大熊拓海(オオクマ タクミ) ■ 東京大学 情報理工学系研究科 創造情報学専攻 中山研究室 M1 ■ 専門はCV系 – 現在の研究テーマは動画情報を用いたSemi-Supervised detection 2

3.

書誌情報 ■ 題名:Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Object Detection ■ 会議:CVPR 2019 ■ 著者:Hang Xu, ChenHan Jiang, Xiaodan Liang, Liang Lin, Zhenguo(Huaweiと中山大学の共同研究) スライド中の図で引用が特に明記されていないもの は、全て紹介する論文のものです 3

4.

概要 ■ クラス間の関係性を用いて、多 クラスの物体検出の精度を高め る ■ 物体間の関係性にはナレッジグ ラフを用い、その関係性はVisual Genome(VG)[1]より取得 ■ 任意の物体検出器に応用するこ とが可能 [1] R. Krishna, et.al. “visual genome: Connecting language and vision using crowdsourced dense image annotations” 2016. 4

5.

背景 目的 多数のクラス(1000以上) を含む物体検出器の精度を上げたい 問題点 教師データの数が少ないクラスや、 小さい物体が多いクラスに対しての情報が少ない 解決策 クラス間の関係性にも 目を向けよう! 5

6.

方針 ■ クラス間の関係性を明示的に保持しておき、検出に役立てる → Visual Genome(VG)から取得し、ナレッジグラフを用いて保持 ■ 保持されている関係性と、ベースとなるのネットワーク出力である 特徴マップを用いて新たな特徴量を獲得し、既存の特徴量と結合 →ベースとなるの物体検出器を拡張する形を取るので、任意の物 体検出器に応用が可能 6

7.

モデルアーキテクチャ(概要) 1. ベースモデルのクラス 分類結果を抜き出す 2. 蓄えられたクラス間の 関係性グラフ 5. ベースモデルの特徴量 と合わせ、最終的な Boxとクラスを得る 4. 新しい特徴量の獲得 3. 注目すべきクラスに重 み付けをするattention 7

8.

ナレッジグラフ ■ 本論文ではナレッジグラフを以下の無向グラフで定義する。 𝐺 = < 𝑁, ξ > 𝑁: 物体のクラスに対応するノードの集合 𝑒𝑖𝑗 ∊ ξ :クラス間の関係性を表すエッジ(𝑖, 𝑗 ∊ 𝑁 ) ξはクラス数をCするとC × Cの実数値行列であり、この行 列を通じて物体間の一般常識(例:人がバイクに乗る)や 物体そのものに関する一般常識(例:リンゴは赤い)等の 情報を付加する。 8

9.

Visual Genome ■ ナレッジグラフが蓄える情報は、Visual Genome(以下VG)というデータ セットを用いて獲得する。 • VGは物体検出用のデータセットで、 バンディングボックスの他に、画像 中の物体(左図の赤いノード)同士の 関係性(緑ノード)、および物体の性 質(青ノード)の情報を持っている。 R. Krishna, et.al. “visual genome: Connecting language and vision using crowdsourced dense image annotations” 2016. • クラス数も豊富で、本論文ではその うちの1000クラス、および3000ク ラスを用いて実験を行う(以下 𝑉𝐺1000 , 𝑉𝐺3000 )。 9

10.

ナレッジグラフの作成 ■ 本実験で用いるナレッジグラフは「クラス間の関係性」、「クラス間の 類似度」に基づく2種類ある。 「クラス間の関係性」 単純に対応する2クラスの関係の数を数え上げ、 それを規格化した値を𝑒𝑖𝑗 ∊ ξ の値とする。 <man, play, dog> <dog, sit on, man> <dog, by, man> … その数を𝑅𝑖𝑗 (= 𝑅𝑗𝑖 )とし 𝑒𝑖𝑗 = 数え上げる 𝑅𝑖𝑗 「クラス間の類似性」 各クラスに対応する性質を数え上げ、これを確率分 布とみなし、JSダイバージェンスでクラス間の類似 度を計算する。この値を𝑒𝑖𝑗 ∊ ξ とする。 𝑃𝑖 , 𝑃𝑗 を各クラスの性質の確率分布とすると 𝑒𝑖𝑗 = 𝑒𝑗𝑖 = 𝐽𝑆(𝑃𝑖 ||𝑃𝑗 )である。 なおJSダイバージェンスは対称関数なので、 ξ は対 称行列である。 σ𝐶𝑘=1 𝑅𝑖𝑘 σ𝐶𝑙=1 𝑅𝑗𝑙 ここでは関係性の数のみに注目し、種類は問わ ない。 10

11.

特徴量獲得の計算グラフ ここからは作成したグラフを用いた新 たな特徴量獲得の手順を紹介します。 左図が特徴量獲得に際する計算グラフ です。 この中でもパッと見て意味が分かりに くいと思われる • Global Reasoning中のM • Attentionのα について、次スライド以降で詳しく解 説します。 11

12.

Global Semantic Pool ■ 次は定義されたナレッジグラフの情報を効率良く伝搬させるのに相応し い特徴量を定める必要がある。 ■ 今回はベースモデルのクラス分類に用いられる最終層の重みMをそのま ま各クラスに対応する特徴量として用いる。 M∊ℝ 𝐶×𝐷 𝐶: クラス数 𝐷:ベースモデル最終層の特徴マップの次元数 ■ Mは全データセットを用いて学習されているのでノイズに強く頑健であ り、また高レベルのレイヤーの特徴量なので大域的な情報を含んでいる。 ■ 論文ではこれをGlobal Semantic Poolと呼んでいる。 12

13.

特徴量抽出 ■ ナレッジグラフとGlobal Semantic Pool、ベースモデルのクラス分類結果を 用いて新たな特徴量を抽出できる。 1. まず𝑝 ∊ ℝ𝐶 をベースモデルのクラス分類出力の結果とする(𝐶次元が 各クラスに対応し総和は1)。 2. 次にナレッジグラフの情報をGlobal Semantic Poolを通じて反映させ たものであるξ Mを𝑝にかける。 3. ξ Mの各行は各クラスに対応している為、 𝑝の確率がより高いクラ スに高い重み付けがなされる。 4. 最後に線形変換𝑊𝐺 ∊ ℝ𝐷×𝐸 を施して、 E次元の特徴ベクトルを得る。 𝐸 𝑝ξ M𝑊𝐺 ∊ ℝ ξ : ナレッジグラフ M : Global Semantic Pool 𝑝: ベースモデルのクラス分類出力 13

14.

Attention ■ 前スライドの定義だと、新たな特徴量は候補領域の確率のみに依存し、 画像全体の特徴を捉えられない。 ■ そこで画像全体の特徴量𝑧𝑠 を抽出し、Attention機構を構成する。 ■ 具体的には α = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 𝑧𝑠 𝑊𝑠 𝑀 ∊ ℝ𝐶 とAttentionを定義し、最終的な特徴量𝑓′を 𝑓 ′ = 𝑝(α ⊗ ξ M)𝑊𝐺 ∊ ℝ𝐸 と定義する。但し𝑊𝑠 は次元を揃えるための線形変換であり、 ⊗は要素ごとの乗算である。 14

15.

特徴量獲得のまとめ 数式の多い説明になってしまったの で、ここで特徴量獲得の全体像をま とめておく。 ナレッジグラフとGlobal Semantic Pool からなるGlobal reasoningと、画 像単位のAttentionを利用して、ベー スモデルのクラス分類出力𝑃から新 たな特徴量𝑓 ′が獲得される。 この獲得された𝑓 ′を元の特徴量𝑓と 合わせた特徴量[𝑓, 𝑓 ′]を最終的な検 出に用いる。 15

16.

実験 ■ データセット 本実験では、物体間の関係性を含むVGに加え、ADE、PASCAL VOC 2007、 MSCOCO 2017に対して実験を行った。 データセット クラス数 トレーニングデータ数 テストデータ数 𝑽𝑮𝟑𝟎𝟎𝟎 3000 87.9K 5K 𝑽𝑮𝟏𝟎𝟎𝟎 1000 87.9K 5K ADE 445 20.1K 1K PASCAL VOC 2007 20 10K 4.9K MSCOCO 2017 80 118K 5K 16

17.

詳細 ■ ADE、PASCAL VOC 2007、MSCOCO 2017に関しては物体間の関係性、属 性のデータが存在しないので、VGより得たナレッジグラフを用いた。 ■ ロバストなナレッジグラフを得るため、各クラス出現頻度上位200の関 係性及び属性のみを用いた。 ■ ベースモデルとしてFaster RCNN及びFaster RCNN with FPNを用いた。 ■ バックボーンはImageNet-PretrainedのResnet-101 ■ 特徴ベクトルは、ベースとなる特徴ベクトルが1024次元(D=1024)、新た な特徴ベクトルが256次元(E=256)とした。 17

18.

結果1(VG, ADE) 𝑉𝐺1000 、𝑉𝐺3000 、ADEについての実験結果が左 図である。 • Reasoning‐ RCNN𝑅 がFaster-RCNNベースの提 案手法。 • Reasoning‐ RCNNR W FPNがFaster-RCNN with FPNベースの提案手法の結果及びパラメータ 数である。 • ナレッジグラフは関係性ベースで作成。 • 両手法とも大きく性能が向上していることが 確認できる。 • また、よりパラメータ数の多いLight-head RCNNやCascade RCNNといったモデルに性能 で勝っている。 18

19.

結果2(PASCAL VOC, MS COCO) 左の表はPASCAL VOC及びMS COCOに対する結果 である。両データセットに対してはMask-RCNN ベースのモデルも実験に用いている。 • またここでは、関係性ベースのナレッジグラ フを用いた Reasoning‐ RCNN𝑅 に加え、クラ ス間の類似性ベースのナレッジグラフを用い たReasoning‐ RCNNA を用いた実験も行ってい る。 • 前スライドで示したデータセットの時同様、 性能の向上が確認できた。 • 関係性ベースのナレッジグラフの方が類似性 ベースのナレッジグラフよりも大きな精度の 向上を実現できていることが確かめられた。 19

20.

結果3(出力結果) 左図は、Faster-RCNNと提案手法 であるReasoning-RCNNの検出結果 を比較したものである。 • Reasoning-RCNNの方が細かい 物体までより多くの数検出でき ていることが確認できる。 (キッチンの複数のキャビネッ ト、サイドミラーに映った男や 帽子、カメラ等) • 細かい物体等の単体では検出が 困難な物体でも、周囲の関係性 を利用することで検出を可能と している。 20

21.

結果4(サンプル数との関係) 左グラフは、 𝑉𝐺1000 における各クラス のサンプル数(横軸)と、対案手法による 精度向上度合い(縦軸)を示したものであ る。 • 殆どのクラスで精度が向上し(0%より も大きい)、サンプル数が少ないクラ スでよりその効果が大きい事が確か められた。 • サンプル数が少ないクラスは、物体 そのものに関する情報が少ないので、 よりクラス間の関係に依存して精度 が向上するということである。 21

22.

結果5(Ablation studies) Ablation studyの結果が左の表である。 • ナレッジグラフ ナレッジグラフを省いたとき(ξを単位行列と する)最も性能が低下し、本提案手法において 最も重要な要素であることが確かめられた。 • Global semantic pool Global semantic poolを省いたとき(𝑀を単位行 列とする)ときも一定の性能低下がみられ、特 に小さな物体に対するRecallがより大きく低 下した。 • Attention Attention αの機構を省いたときや、一様にし たとき(実質的な意味合いは同じ)もある程 度の性能低下がみられた。 22

23.

結論 ■ クラス間の関係性に目を向けることで、様々な物体検出データセットに 対して精度の向上を実現した。 ■ Global Semantic PoolやAttentionによりロバスト性が向上 ■ 関係性のデータセットはVGのものしか存在しないが、他のデータセット に対しても有効であった(一般常識的なものが獲得できている?)。 ■ 提案するアーキテクチャの計算コストはあまり高くないので、パラメー タ数や推論時間がベースモデルからあまり増加しないのも高評価。 ■ Future workとしては、クラス間の関係性をセグメンテーション等他のタ スクにも応用することが挙げられる。 23

24.

個人的な感想1 ■ 発想自体は自然 もっと主流になるべきだと思う ■ それに対して、モデルアーキテクチャは工夫されていると感じた。 Global Semantic Pool辺りは自分では絶対思いつかないと思う ■ Visual Genomeは偉大 関係性を与えてくれる上、クラス数も豊富 やはりデータセットが無いとこの分野の研究は始まらない 24

25.

個人的な感想2 ■ 任意の物体検出器に応用できるのは強い、任意のナレッジグラフを 適応できる(関係性、類似性以外でも可能) ■ もう少し行って欲しい実験がある – 任意の物体検出器に応用できるとは書いてあるが、Faster-RCNN 系列をベースにした実験しか無い。 – せっかくクラス間の関係性ベースと類似性ベースの両ナレッジ グラフを提案したのだから、比較だけでなく併用した実験も 行って欲しい。 併用自体は独立に生成したそれぞれの特徴量と、ベースの特徴 量を合わせればいいだけなので、自然な拡張で行える。 25