[DL輪読会]MUTAN: Multimodal Tucker Fusion for Visual Question Answering

>100 Views

December 22, 17

スライド概要

2017/12/22
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] “MUTAN: Multimodal Tucker Fusion for Visual Question Answering (ICCV 2017)” and Visual Question Answering Masashi Yokota, Nakayama Lab http://deeplearning.jp/ 1

2.

書誌情報 • 著者 Hedi Ben-Younes, Rèmi Cadène, Nicolas Thome, Matthieu Cord • ICCV 2017 • 概要 • タッカー分解を応用してbilinear modelを近似して、VQAのモデルパラ メータ数の削減と性能改善に成功。 • 選定理由 • VQA以外でも広く使えそうだったので。 2

3.

Visual Question Answering Model A. Banana Q. What is the mustache made of? • 画像と質問文を入力し、適切な回答を生成するタスク 3

4.

VQAの主な論点 1. 画像と質問文からどうやって特徴量抽出するか? 2. 画像特徴量と質問文特徴量をどう組み合わせて回答生成する か? 4

5.

VQAの主な論点 1. 画像と質問文からどうやって特徴量抽出するか? →主に画像へのAttentionをどうするかがメイン ex. Stacked Attention Network[Yang+ 2016] 2. 画像特徴量と質問文特徴量をどう組み合わせて回答生成する か? 5

6.

Stacked Attention Network [Yang+ CVPR 2016] 人間が質問文と画像を交互に見るように複数回Attentionをかける。複数回適用 することでAttentionをよりピンポイントにかけられるようになるらしい。 6

7.

Stacked Attention Network [Yang+ CVPR 2016] 人間が質問文と画像を交互に見るように複数回Attentionをかける。複数回適用 することでAttentionをよりピンポイントにかけられるようになるらしい。 7

8.

Co-attending Free-form Regions and Detections with Multi-modal Multiplicative Feature Embedding for Visual Question Answering [Lu+ AAAI2017] 物体検出により得られる物体領域候補は質問文に回答するのに有益だとい う仮説から、Free-form(通常のAttention)とDetection based(物体領域候補 8 を選ぶ)の2種類の方法でAttentionを行う。

9.

Co-attending Free-form Regions and Detections with Multi-modal Multiplicative Feature Embedding for Visual Question Answering [Lu+ AAAI2017] 物体領域候補を用いることで、画像全領域から探すよりも簡単に回答 に必要な画像領域が得られるので精度が上がる。 9

10.

VQAの主な論点 1. 画像と質問文からどうやって特徴量抽出するか? 2. 画像特徴量と質問文特徴量をどう組み合わせて回答生成する か? →先行研究から良い特徴量は得られるようになったが、それを 推論にどう役立てるかが問題! →今回のメインテーマ 10

11.

画像特徴量と質問文特徴量をどう組み合 わせて回答生成するか? メインテーマ 画像 モジュール 回答生成 モジュール What color of the surfboard? Answer White 質問文 モジュール 11

12.

回答生成モジュール A + ・Bilinear Model FC × FC FC A ・要素和 画像特徴量 A Bilinear ・要素積 ・concat A 質問文特徴量 左3つのconcat、要素積、要素和がVQAのモデルでは良く使われる。しかし、 著者いわくBilinear Modelを用いた方が良い結果が得られる事が知られてい 12 るらしい。

13.

Bilinear Modelとは ×i : 𝑖-モード積 • 上記のようにテンソルに対してベクトルを掛け合わせる • VQAの回答モジュール以外にもAttention Mapの重み計算の時 にもよく使われる。 13

14.

i-モード積 1-モード 2-モード 3-モード • テンソル内の各軸をモードという。 • 各モードで上図のようにファイバーに分けて、ファイバーとベ クトルを掛け合わせるのがモード積 14

15.

Bilinear Modelの問題点 ×i : 𝑖-モード積 • パラメータ数が大きくなりすぎてしまう • Ex) 𝑑𝑞 , 𝑑𝑣 , |Α|をそれぞれ2000すると =8 × 109 ➢モデルのパラメータ数が大きくなると上手く学習できなくなる (次元の呪い) 15

16.

[関連研究] Hadamard Product for LowRank Bilinear Pooling [Kim+ ICLR2017] • Bilinear Modelから得られるベクトルfのi番目の要素 • 重みW_iをU_iとV_iで分割することを考える • を行列 に置き換え、ベクトルfは次のように書ける ➢UとVを小さくすることでパラメータ数を削減できる。 16

17.

提案手法 17

18.

提案手法 テンソル をタッカー分解を応用して、よりパラ メータ数を削減する。 18

19.

Tucker分解とは 鹿島 久嗣 先生のスライドより www.geocities.co.jp/kashi_pong/relationalLearningTensors.pdf 大きなテンソルを小さなコアテンソルと3つの行列に分解する。 パラメータ数はコアテンソルの大きさに依存する。 19

20.

Multimodal Tucker Fusion(提案手法) • Tucker分解 • Multimodal Tucker Fusion ここを拡張する Multimodal Tucker Fusionでパラメータ数の削減はできるが、 パラメータ数を削減しすぎるとモデルの表現力も下がってしまう。 表現力が増えるようにパラメータ数を調整したい! 20

21.

Multimodal Tucker Fusion(提案手法) • 以下のようなベクトルzを考える • ベクトルzのk番目の要素は以下のように計算できる これを拡張する 21

22.

Multimodal Tucker Fusion(提案手法) • テンソル える を以下のようにR個の重みの和に拡張する事を考 : テンソル積(補足参照) • 以上よりベクトルzのk番目の要素は以下のように修正できる • 以上よりベクトルzは次のように計算できる 22

23.

Multimodal Tucker Fusion(提案手法) • ベクトルz • ベクトルzを使ってベクトルyは次のように計算できる メモ 23

24.

実験 • データセット:VQA v2の実画像データ • 実験内容 • • • • • 既存のbilinear modelの近似モデルとの比較 既存のVQAモデルとの比較 コアテンソルの大きさの影響 Rとt_0の影響 提案手法をAttentionにも応用した時の定性評価 24

25.

既存のBilinear Modelの近似モデルとの比較 • 既存手法よりもパラメータ数も性能面も良い • Mutan+MLBは詳しい記述なく良くわからない。 25

26.

既存のVQAモデルとの比較 • (n)はn個のモデルでアンサンブルを表す。 • 既存手法よりも性能良いかもしれない。(アンサンブルしてるので分 26 かりにくい)

27.

コアテンソルの大きさの影響 • R=1で実験 • Identityはコアテンソルを identityテンソルにしたもの • t=100くらいで頭打ちになる 27

28.

Rとt_0の影響 • Rとt_0の大きさを変えて、 スコアの変化を見た。 • 黄色い吹き出しは、パラ メータ数を示す。 • パラメータ数同じでもR の大きさとt_0の大きさ のバランスで性能が左右 される。 28

29.

提案手法をattentionに応用した時の定性評価 • 一度のAttentionで2つ のAttention Mapを生成 • 対のAttentionで良い具 合に情報を補助しあえて いる。→良い具合に Attentionできていそう。 29

30.

まとめと感想 • まとめ • Tucker分解を応用してBilinear Modelを近似 • パラメータ数を削減し、かつ精度面の向上にも成功 • 感想 • Bilinear Model自体はAttentionを使う時など、よく出てくるのでいろい ろな場面で応用できそう。 • 著者の書いた提案手法のコードで遊んでみた感じRとt_0の値は確かに性 能影響が出やすかった。 • それに加え実験では書かれてなかったが、t_v, t_q, t_oのパラメータも意 外と重要(t_vは大きめが良いとか)。 • デメリットをあえて言うならハイパーパラメータが増えて、かつそれが 性能に影響が出やすいのがやっかい。(特に他のタスクで応用した時) 30

31.

補足 31

32.

テンソル積 32