[DL輪読会]StyleNet: Generating Attractive Visual Captions with Styles

>100 Views

July 07, 17

スライド概要

2017/7/7
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

CVPR’17 StyleNet: Generating Attractive Visual Caption with Style Chuang Gan@IIIS, Tsinghua University Zhe Gan@Duke University Xiaodong He@Microsoft Research Redmond(MSRR) Jianfeng Gao@MSRR Li Deng@MSRR Yoshifumi Seki@Gunosy Inc. DeepLearning.jp 2017.07.07

2.

自己紹介 ● 関 喜史 Gunosy 共同創業者 データ分析部研究開発チーム (仮) 東大松尾研客員研究員 , 工学博士(2017年3月卒) ○ ○ ○ ● ● 研究テーマ: ニュース推薦システムのサービス応用について 関心領域 推薦システム , ユーザ行動分析 ○ ● 趣味 ○ アイドル、日本酒、将棋

3.

概要 ● 魅力的なキャプションを生成したい ○ ● LSTMのseq2seqのマルチタスクにインス パイアされている ○ ● ユーモア、ロマンティックという 転移学習感ある感じ ちなみにStyleNetというプロジェクトは他に もある…

4.

Show and Tell [Vinyals 15] 次に出る語の確率を出力する LSTM cell

5.

Show, Attend and Tell[Xu 15] ● ● Zの部分がattention要素 Eはembedding layer ○ ● 単語をベクトル化 h_tが系列的に伝搬していく Decoder

6.

Context vector[Xu 15] ● ● 画像ベクタの重み付け 画像のどの部分にどのぐらい注目するかという

7.

Stochastic Hard Attention[Xu 15] ● ● Sは画像の区分数の次元をもつone-hotな vector α_{t, i}の確率でその次元が1になる ○ ● 多項分布 zは、注目する区分の画像ベクタになる

8.

Stochastic Hard Attention[Xu 15] ● p(y|a)の対数尤度を最大化したい ○ ● ある画像aのときに、あるキャプション yを生成する確率 イェンセンの不等式で下界を定める ○ 下界が最大化できれば、 p(y|a)も最大化できるよね

9.

Stochastic Hard Attention[Xu 15] ● Wを直接求めるためにWで微分 ○ 第2項の微分を展開すると積の微分公式になる

10.

Stocatic Hard Attention[Xu 15] ● Sのサンプルを生成してモンテカルロ法で求める ○ ● Sはαに従う多項分布なのでそれに従って生成

11.

● モンテカルロ法による勾配の推定のバリアンスを減らしたい ○ ○ ○ ● ● [Ba 15][Mnish 14]とかで使われている手法 ■ 画像へのattention model ミニバッチごとにベースラインを更新していく λはハイパーパラメータでクロスバリデーションできめる ■ 何をクロスバリデーションするんだろう 多項分布のエントロピー項を導入 この式は強化学習に似ているらしい

12.

Deterministic “Soft” Attention[Xu 15] ● ● 結論からいうとHardのほうがよかったので、詳しくは述べない Hardは多項分布だったけど、期待値を考える ○ ○ 1点だけでなく、画像をひろく捉える (ゆるく、ひろく ) 機械翻訳でよく使われている

13.

Factored LSTM module ●

15.

Training Style Net ● 2つのタスクを学習する ○ ○ ● ● S(style specific factor)以外は1と2で共通にする Captionとimageのペアはinitial vectorをCNNの最終層に ○ ● captionとimageのPairを学習する 言語モデルとして学習する そうでないのはランダムノイズ 単語はEmbeddingしている。この重みも共有する

16.

Flicker Styled Caption Dataset ● Amazon Mechanical Turk使う ○ ● 最初はユーモラスなやつとロマンティックなやつ書けと直接言ってた ○ ○ ● 大変だったので聞いてほしい キャプションのクオリティをコントロールするのが難しい 画像に関係ないフレーズや語をたびたびアノテータはつける 次はあるキャプションをユーモラスに、ロマンティックに書き換えろという問題にした ○ ○ さらに、キャプションを書き換える例も示した それでうまくいった

17.

Quality Control ● Least ○ ○ ● QualityをチェックするReviewerをAMTで依頼 ○ ○ ● 500 HITS 90% accuracy 各キャプション、 3人のワーカーに、そのキャプションが任意の styleになっているかを評価させる 2人以上賛同したもののみ利用する Flicker Style 10K ○ ○ ○ ○ ○ Image: 10K 7K for training, 2K for validation, 1K for testing Training/Validation ■ ユーモラス、ロマンティックなキャプションが 1つずつある Testing ■ ユーモラス、ロマンティックなキャプションが 5つずつある Flicker 30Kのfactual captionもつかう ■ 5つずつある

18.

Experiment Settings ● ● ● 画像からResNet152の最終層の出力2048次元のベクトルを得て、300次元のベク トルに変換する 2回以上出現した語でvocabraryを作り、one-hot vectorにして、300次元に embeddingする BLUE, METEOR, ROUGE, CIDErで評価 ○ ● Caption生成で一般的なもの。要約にインスパイアされてる BaseLine ○ ○ ○ ○ NIC(show and tell) Flicker 10KのFactualだけを用いた CaptionBot: MSの商用サービス Multi-Task: multi-task LSTM Fine-tuned: 行列Sを考慮しない(すべてのパラメータが共有された状態 )で、Language Modelの学 習をする

19.

Implementation Detail(1) ● ● ● ● ● ● ● Theano Adamで学習 Batch size: captioningは64, language modelは96 Learning rateは0.0002と0.0005 LSTM cellとfactored matrixを512に すべてのパラメータは一様分布で初期化 One epochごとに、タスクを切り替える ○ ○ ● ● キャプション生成⇔言語モデルを Epochごとに繰り返してる ユーモアとロマンティックを組み合わせて trainingしてみたけど、よくならなかった 30 epochで収束 キャプションはbeam size5のビームサーチで生成

20.

Implementation Detail(2) ● ● ● ● ● Caption Bot以外はResNet152の最終層の出力で作り直し NICはbatch size 64で20 epochで停止 Caption BotはMicrosoft Computer Vision APIを利用 Fine-Tuned modelでは20 epochを学習率0.0002でimage captioningを行い、学 習室0.0005でlanguage modelを訓練。 MultiTask BaseはStyleNetと一緒な設定 ○ 30 epochで収束した

21.

Experiment Results

23.

Human Evaluation ● ● ● NIC, CaptionBot, StyleNet(Romantic/Humorous)で5つずつ生成 どれが一番”魅力的か”聞く 85%がStyleNetの結果を選んだ

24.

Video Captioning ● 3D-CNN[D.Tran+2015] ○ ● 1970 Youtube Clips ○ ○ ● ● 1M Dataset[A. Karpathy+2014] Each clip 40 captions 1,200 video training, 100 video validation, 670 video captioning その他は同じ設定で学習 Baseline ○ Captioning data使って学習した Standardモデル

25.

Video Captioning ● 人間による評価 ○ ○ ● BaseLineとStyleNetから3 つずつ生成 ビデオとキャプションをみせ てどれが魅力的か聞く 80%以上がStyleNetのほ うが魅力的だと回答

26.

結論 ● ● ● ● Factored LSTMを提案 End-to-endのframework StyleNetを提案 定量的、定性的アプローチによって有効性を確認した 今後、新たなデータも加えた形で、本データセットは公開する予定

27.

お気持ち ● ● ● ● データセットの作り方、LSTMのお気持ちに沿って作られている気がした こんなシンプルなのでいけちゃうのすごい 一方でキャプション生成のコアの部分はLSTM並べるのがまだSOTAなのかなと? 重みをFactorizeして共有しながら転移学習させるのは、いろんな領域で応用が効 きそう