[DL輪読会]Approximating CNNs with Bag-of-local-Features models works surprisingly well on ImageNet

1.

DEEP LEARNING JP [DL Papers] Approximating CNNs with Bag-of-local-Features Bag-of-local-Features models Approximating surprisingly well on ImageNet works surprisingly Tomoki Tanimura, Keio University http://deeplearning.jp/ 1

http://deeplearning.jp/

2.

書誌情報 ▪ ICLR2019 ▪ 著者: Wieland Brendel and Matthias Bethge ▪ 所属: Eberhard Karls University of Tubingen, Germany ▪ Bethge Lab: http://bethgelab.org/ ▪ 同じくICLR2019に投稿されたBethge Labからの論文

http://bethgelab.org/

3.

概要 ▪ BagNetを提案 ▪ 画像の局所的な特徴に基づいて画像分類を行う ▪ Bag-of-Features + DNN ▪ 予測精度を高いまま保ちつつ，結果の解釈が容易に行える ▪ 既存のSoTA DNN達 ▪ BoF ベースの古典的手法 vs DNN -> 精度的にはDNNの圧勝 ▪ 獲得している特徴量や分類の仕方はBoFベースの手法と変わらない ▪ 局所的な特徴をベースとして判断していることを実験的に示した

4.

BoF (Bag-of-Features) ▪ 画像の局所特徴量（SIFTやSURF等）を基にした特徴ベクトル ▪ 画像データセットから特徴ベクトルを抽出 ▪ 特徴ベクトルをクラスタリング ▪ クラスタ中心をVisual wordsとして定義 ▪ 分類対象の画像Aから特徴ベクトルを抽出 ▪ 特徴ベクトルをVisual wordsに対応づけ ▪ Visual wordsの出現頻度が画像AのBoF

5.

DNN ▪ 画像を非線形に変換していき特徴を抽出→そのままクラスの確率を推定 ▪ BackPropによって変換のパラメータを学習していく VGG

6.

BagNets ▪ BoFの局所特徴量に基づく分類とDNNを組み合わせた ▪ BagNetsの構造 ▪ 画像をq x qのパッチに分割 ▪ 各パッチからResBlockベースのモデルで特徴ベクトルを抽出 ▪ 特徴ベクトルを線形分類器でクラス分類 ▪ 全パッチにおけるクラスの予測結果を合計 ▪ もっとも多いクラス => 画像のクラス ▪ 画像パッチごとの寄与を見れる ▪ 解釈可能性の向上

7.

背景 ▪ DNNにおける解釈性の欠如 ▪ 入力値や中間層の特徴量に複雑な依存関係が存在するため，最終的な結果に対する要因を人間が解釈することは容易ではない ▪ 精度を保ったまま解釈性を向上させたい ▪ BoFの局所特徴を利用した線形分類をDNNに導入することによって，解釈性を向上させられる ▪ DNNの振る舞いの分析 ▪ BoFベースの手法とDNNsとの類似性を見ることで，DNNsの振る舞いに感して知見を得ることができるのではないか

8.

Experiment ▪ Accuracy & Runtime ▪ BagNetsの精度と実行速度について，DNNsと比較する ▪ Explaining Decisions ▪ BagNetsの分類結果の解釈 ▪ BagNetsを利用したDNNsの分析

9.

Accuracy & Runtime ▪ 精度比較 ▪ 17 x 17 pixels patch : 80.5% - AlexNetと同等 ▪ 33 x 33 pixels patch : 87.6% - VGG-16に匹敵 ▪ 実行速度比較 ▪ 画像サイズ : 224 x 224 x 3 ▪ BagNets : 155 images/s ▪ ResNet-50 : 570 images/s Patch size

10.

Explaining Decisions ▪ ヒートマップの可視化 ▪ 影響が大きい画像パッチの可視化 ▪ 誤分類された画像とヒートマップの可視化 ▪ BagNetsとDNNsの分類の仕方の比較

11.

Explaining Decisions ▪ BagNetsのヒートマップの可視化 ▪ 影響が大きい画像パッチの可視化 ▪ 誤分類された画像とヒートマップの可視化 ▪ BagNetsとDNNsの分類の仕方の比較

12.

BagNetsのヒートマップの可視化 ▪ パッチごとの分類結果を利用して，ヒートマップを作成 ▪ 画像のどの部分がpredictionの際に，影響を及ぼしているのか ▪ 特にオブジェクトの形に注目している ▪ ハロウィンのかぼちゃ: 目の周りを見ている ▪ 鹿: Backgroundには一切注目しておらず，鹿そのものを見ている ▪ 人間の知覚と近い箇所に注目している？

13.

Explaining Decisions ▪ BagNetsのヒートマップの可視化 ▪ 影響が大きい画像パッチの可視化 ▪ 誤分類された画像とヒートマップの可視化 ▪ BagNetsとDNNsの分類の仕方の比較

14.

重要な画像パッチの可視化 ▪ クラス決定に大きな影響を及ぼしている画像Patchを可視化 ▪ 「魚のクラスに指」，「phoneにキーボードのキー」など，意味的には不適切に見える ▪ データセットのバイアスでは？上段: 画像とパッチのクラスが同じ下段: 画像とパッチのクラスが違う

15.

Explaining Decisions ▪ BagNetsのヒートマップの可視化 ▪ 影響が大きい画像パッチの可視化 ▪ 誤分類された画像とヒートマップの可視化 ▪ BagNetsとDNNsの分類の仕方の比較

16.

誤分類された画像の分析 ▪ パッチだけから分類していることを考慮すると，合理的な分類結果 ▪ 明らかな間違いをしているというよりは，画像全体における物体の関係性を学習しないと正しく識別することが難しい画像が多い ▪ 例 ▪ 指ぬきとガスマスク（2列目） ▪ ミニスカートと本のジャケット（3列目）

17.

Explaining Decisions ▪ BagNetsのヒートマップの可視化 ▪ 影響が大きい画像パッチの可視化 ▪ 誤分類された画像とヒートマップの可視化 ▪ BagNetsとDNNsの分類の仕方の比較

18.