[DL輪読会]MUTAN: Multimodal Tucker Fusion for Visual Question Answering

>100 Views

December 22, 17

#deep learning #Deep Learning #Visual Question Answering #Bilinear Model #Multimodal Tucker Fusion #Machine Learning

スライド概要

2017/12/22
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 84.7K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 54.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 38.9K

【拡散モデル勉強会】拡散モデルのサンプラーまとめ

Deep Learning JP 33.4K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 32.1K

各ページのテキスト

DEEP LEARNING JP [DL Papers] “MUTAN: Multimodal Tucker Fusion for Visual Question Answering (ICCV 2017)” and Visual Question Answering Masashi Yokota, Nakayama Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • 著者 Hedi Ben-Younes, Rèmi Cadène, Nicolas Thome, Matthieu Cord • ICCV 2017 • 概要 • タッカー分解を応用してbilinear modelを近似して、VQAのモデルパラメータ数の削減と性能改善に成功。 • 選定理由 • VQA以外でも広く使えそうだったので。 2

Visual Question Answering Model A. Banana Q. What is the mustache made of? • 画像と質問文を入力し、適切な回答を生成するタスク 3

VQAの主な論点 1. 画像と質問文からどうやって特徴量抽出するか？ 2. 画像特徴量と質問文特徴量をどう組み合わせて回答生成するか？ 4

VQAの主な論点 1. 画像と質問文からどうやって特徴量抽出するか？ →主に画像へのAttentionをどうするかがメイン ex. Stacked Attention Network[Yang+ 2016] 2. 画像特徴量と質問文特徴量をどう組み合わせて回答生成するか？ 5

Stacked Attention Network [Yang+ CVPR 2016] 人間が質問文と画像を交互に見るように複数回Attentionをかける。複数回適用することでAttentionをよりピンポイントにかけられるようになるらしい。 6

Stacked Attention Network [Yang+ CVPR 2016] 人間が質問文と画像を交互に見るように複数回Attentionをかける。複数回適用することでAttentionをよりピンポイントにかけられるようになるらしい。 7

Co-attending Free-form Regions and Detections with Multi-modal Multiplicative Feature Embedding for Visual Question Answering [Lu+ AAAI2017] 物体検出により得られる物体領域候補は質問文に回答するのに有益だという仮説から、Free-form(通常のAttention)とDetection based(物体領域候補 8 を選ぶ)の2種類の方法でAttentionを行う。

Co-attending Free-form Regions and Detections with Multi-modal Multiplicative Feature Embedding for Visual Question Answering [Lu+ AAAI2017] 物体領域候補を用いることで、画像全領域から探すよりも簡単に回答に必要な画像領域が得られるので精度が上がる。 9

10.

VQAの主な論点 1. 画像と質問文からどうやって特徴量抽出するか？ 2. 画像特徴量と質問文特徴量をどう組み合わせて回答生成するか？ →先行研究から良い特徴量は得られるようになったが、それを推論にどう役立てるかが問題！ →今回のメインテーマ 10

11.

画像特徴量と質問文特徴量をどう組み合わせて回答生成するか？メインテーマ画像モジュール回答生成モジュール What color of the surfboard? Answer White 質問文モジュール 11

12.

回答生成モジュール A + ・Bilinear Model FC × FC FC A ・要素和画像特徴量 A Bilinear ・要素積・concat A 質問文特徴量左3つのconcat、要素積、要素和がVQAのモデルでは良く使われる。しかし、著者いわくBilinear Modelを用いた方が良い結果が得られる事が知られてい 12 るらしい。

13.

Bilinear Modelとは ×i : 𝑖-モード積 • 上記のようにテンソルに対してベクトルを掛け合わせる • VQAの回答モジュール以外にもAttention Mapの重み計算の時にもよく使われる。 13

14.

i-モード積 1-モード 2-モード 3-モード • テンソル内の各軸をモードという。 • 各モードで上図のようにファイバーに分けて、ファイバーとベクトルを掛け合わせるのがモード積 14

15.

Bilinear Modelの問題点 ×i : 𝑖-モード積 • パラメータ数が大きくなりすぎてしまう • Ex) 𝑑𝑞 , 𝑑𝑣 , |Α|をそれぞれ2000すると＝8 × 109 ➢モデルのパラメータ数が大きくなると上手く学習できなくなる (次元の呪い) 15

16.

[関連研究] Hadamard Product for LowRank Bilinear Pooling [Kim+ ICLR2017] • Bilinear Modelから得られるベクトルfのi番目の要素 • 重みW_iをU_iとV_iで分割することを考える • を行列に置き換え、ベクトルfは次のように書ける ➢UとVを小さくすることでパラメータ数を削減できる。 16

17.

提案手法 17

18.

提案手法テンソルをタッカー分解を応用して、よりパラメータ数を削減する。 18

19.

Tucker分解とは鹿島久嗣先生のスライドより www.geocities.co.jp/kashi_pong/relationalLearningTensors.pdf 大きなテンソルを小さなコアテンソルと3つの行列に分解する。パラメータ数はコアテンソルの大きさに依存する。 19

20.

Multimodal Tucker Fusion（提案手法） • Tucker分解 • Multimodal Tucker Fusion ここを拡張する Multimodal Tucker Fusionでパラメータ数の削減はできるが、パラメータ数を削減しすぎるとモデルの表現力も下がってしまう。表現力が増えるようにパラメータ数を調整したい！ 20

21.

Multimodal Tucker Fusion（提案手法） • 以下のようなベクトルzを考える • ベクトルzのk番目の要素は以下のように計算できるこれを拡張する 21

22.

Multimodal Tucker Fusion（提案手法） • テンソルえるを以下のようにR個の重みの和に拡張する事を考 : テンソル積(補足参照) • 以上よりベクトルzのk番目の要素は以下のように修正できる • 以上よりベクトルzは次のように計算できる 22

23.

Multimodal Tucker Fusion（提案手法） • ベクトルz • ベクトルzを使ってベクトルｙは次のように計算できるメモ 23

24.

実験 • データセット：VQA v2の実画像データ • 実験内容 • • • • • 既存のbilinear modelの近似モデルとの比較既存のVQAモデルとの比較コアテンソルの大きさの影響 Rとt_0の影響提案手法をAttentionにも応用した時の定性評価 24

25.

既存のBilinear Modelの近似モデルとの比較 • 既存手法よりもパラメータ数も性能面も良い • Mutan+MLBは詳しい記述なく良くわからない。 25

26.

既存のVQAモデルとの比較 • (n)はn個のモデルでアンサンブルを表す。 • 既存手法よりも性能良いかもしれない。(アンサンブルしてるので分 26 かりにくい)

27.

コアテンソルの大きさの影響 • R=1で実験 • Identityはコアテンソルを identityテンソルにしたもの • t=100くらいで頭打ちになる 27

28.

Rとt_0の影響 • Rとt_0の大きさを変えて、スコアの変化を見た。 • 黄色い吹き出しは、パラメータ数を示す。 • パラメータ数同じでもR の大きさとt_0の大きさのバランスで性能が左右される。 28

29.

提案手法をattentionに応用した時の定性評価 • 一度のAttentionで２つのAttention Mapを生成 • 対のAttentionで良い具合に情報を補助しあえている。→良い具合に Attentionできていそう。 29

30.

まとめと感想 • まとめ • Tucker分解を応用してBilinear Modelを近似 • パラメータ数を削減し、かつ精度面の向上にも成功 • 感想 • Bilinear Model自体はAttentionを使う時など、よく出てくるのでいろいろな場面で応用できそう。 • 著者の書いた提案手法のコードで遊んでみた感じRとt_0の値は確かに性能影響が出やすかった。 • それに加え実験では書かれてなかったが、t_v, t_q, t_oのパラメータも意外と重要(t_vは大きめが良いとか)。 • デメリットをあえて言うならハイパーパラメータが増えて、かつそれが性能に影響が出やすいのがやっかい。(特に他のタスクで応用した時) 30

31.

補足 31

32.

テンソル積 32