132 Views
December 02, 20
スライド概要
2020/11/27
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Dense Captioning分野のまとめ Kento Doi, Matsuo Lab http://deeplearning.jp/ 1
発表内容 • Dense captioningの一連の研究について紹介します • Dense captioningとは? • 画像を自然言語により密に説明する技術 • 画像の局所領域と自然言語の対応づけ • ざっくり言うと物体検出+Image captioning 2 [Johnson+ CVPR’16]
関連研究①:イメージキャプショニング • 画像の情報を自然言語により説明する • NNで画像特徴抽出器と言語モデルを繋ぎend2endで学習 • 画像特徴抽出:CNN • 言語モデル:RNN (LSTMがよく用いられる) • attention機構を用いて効果的に画像特徴を抽出する手法等が発展 • 研究の歴史や全体像は牛久先生の資料や書籍が詳しい • 画像キャプションの自動生成 (https://www.slideshare.net/YoshitakaUshiku/ss-57148161) [Vinyals+ CVPR’15] 3 [Xu+ ICML’15]
関連研究②:物体検出 • 画像中の物体を矩形で検出 • Faster R-CNNやYOLOが代表的な研究 • 精度向上や高速化のためのネットワーク構造等が発展 [Ren+ NIPS’15] 4
関連研究②:物体検出 (Faster R-CNN) • Faster R-CNNはイメージキャプショニングの研究によく用いられる • 物体検出結果をアテンションとして使用 [Anderson+ CVPR’18] [Yao+ ECCV’18] • Dense captioning [Johnson+ CVPR’16] • Faster R-CNNは二段構えのネットワーク 1. Region Proposal Network (RPN) で候補領域を抽出 2. 後段のネットワーク (RoI Head) でカテゴリの予測bboxのrefineを行う [Anderson+ CVPR’18] [Ren+ NIPS’15] Faster R-CNNのアーキテクチャ 5 物体検出結果をアテンションとして利用したイメージキャプショニング
Dense captioning • Dense captioningは画像説明文生成と物体検出を組み合わせた技術 1. Faster R-CNNのRPNで候補領域を抽出 2. 各候補領域の特徴からRNNでキャプションを生成 • 以下の研究を紹介します 1. Dense captioningタスクを提案した研究 [Johnson+ CVPR’16] 2. Dense captioningの性能向上のための研究 [Yang+ CVPR’17] [Yin+ CVPR’19] 3. Dense captioningから派生した新たなタスクの提案 [Kim+ CVPR’19] 6
1. DenseCap: Fully Convolutional Localization Networks for Dense Captioning 7
1. Dense captioningタスクの提案 • 書誌情報 • タイトル: DenseCap: Fully Convolutional Localization Networks for Dense Captioning • 著者 : J. Johnson, A. Karpathy, Li Fei-Fei • CVPR 2015 • 概要 • Dense captioningのタスクをはじめて提案 • Fully Convolutional Localization Network (FCLN) で実現 • FCLNは以下のモジュールを繋げたネットワーク 1. CNN: 画像特徴抽出 2. dense localization layer : キャプション領域の抽出 3. RNN : 言語モデル (キャプション生成) 8
1. 提案手法 • 3つのモジュールからなるモデルを提案 1. CNN : 画像特徴抽出を行う。VGG16を使用。 2. Localization Layer : キャプション生成の候補領域を抽出。 3. RNN : 言語モデル。LSTMを使用。 [Johnson+ CVPR’16] 9
1. 提案手法 : Localization Layer • キャプション生成の候補領域を生成 • 各領域は矩形で表現される (B x 4 のテンソル) • 候補領域に対応する特徴 (B x C x X x Y) を、CNNで抽出した特徴 マップから切り出す [Johnson+ CVPR’16] 10
1. 提案手法 : Localization Layer Faster R-CNNのRegion Proposal Network (RPN) & RoI Poolingと実質同じ • RPN : 特徴マップの各ピクセルに異なるサイズ、アスペクト比を持つanchor box を割り当て、各anchorのconfidenceと物体領域へのoffsetを予測 • RoI Pooling : サンプルされた候補領域に対応する領域をCNNの特徴マップから切 り出し一定のサイズに整形する • 実装上はMask R-CNNで提案されたRoIAlignと同じことをしてると思います Faster R-CNNのRPN [Ren+ NIPS’15] Mask R-CNNのRoI Align [Ren+ NIPS’15] 11
1. 提案手法 : キャプション生成部 • Fully Convolutional Localization Layerにより抽出した候補領域の特 徴をMLPに通してからLSTMでキャプション生成を行う • 通常の言語モデルと同様に、一語ずつ出力していく [Johnson+ CVPR’16] 12
1. 提案手法 : Loss function • 教師データとして、矩形領域とその説明文が与えられる • ロス関数は検出のロスとキャプション生成のロス • 検出のロス • confidenceに対しては、ロジスティックロス • 矩形のoffsetに対しては、L1ロス • キャプション生成のロス • 各単語に対するクロスエントロピーロス 13
1. 実験 : データセット • Dataset : Visual Genome dataset [Krishna+ 2016] • 矩形領域と説明文、シーングラフなどが画像に付属 • 前処理 • • • • • 出現頻度が少ない画像を<unknown>とした “there is”や”this seems to be”等の語句を削除 長すぎる文は無視 アノテーション数が少なすぎる/多すぎる画像は無視 重なりが大きいboxはマージ 14 [Krishna+ 2016]
1. 実験 : Dense captioning 評価指標 • Average Precision (AP)スコアによる評価 • APとは? … 予測結果を信頼度順に並べ順に計算したprecisionの平均 (下図) • 矩形領域のスコア (IoU) とキャプション生成のスコア (METEOR) でそれぞれ 閾値を定め、両方を上回った場合を正解として計算 • IoU … 正解の矩形と予測した矩形の重なり度合いを表すスコア • METEOR … 正解のキャプションと予測したキャプションとの合致度合いを表すスコア [転載元] ReNomドキュメントページ https://www.renom.jp/packages/renomimg3/re nom_img/45_point_of_model_comparison.html 15
1. 実験 : Dense captioning 実験結果 • 以下の4つを比較 • Full image RNN : 画像全体のキャプション生成を行う通常のモデル • Region RNN : 元の画像からcropした矩形領域からキャプションを生成 • FCLN on EB : Localization layerの代わりにEdgeBoxes [Lawrence+ ECCV’14] という輪郭画像から候補領域を抽出する手法を使用 • FCLN : 提案手法 [Johnson+ CVPR’16] 16
1. 実験 : Dense captioning 実験結果 • 1つの画像中の様々な領域の説明文を生成可能 [Johnson+ CVPR’16] 17
1. 実験 : Image retrieval • 詳細は割愛するが言語を用いた画像検索も行うことができる 18 [Johnson+ CVPR’16]
1. 実験 : Image retrieval • 詳細は割愛するが言語を用いた画像検索も行うことができる [Johnson+ CVPR’16] 19
1. DenseCapまとめ • Dense captioningというタスクを提案 • 画像の局所領域の検出とキャプション生成を同時に行う • キャプションの領域を検出するLocalization layerを持つネットワーク を提案 • 候補領域を抽出し、それぞれでキャプション生成を行う • Visual Genome datasetを用いた実験で有効性を確認 • Dense captioning と image retrievalの両方のタスクに活用可能 20
2. Dense captioningの性能向上に関する研究 21
2. はじめに • Dense captioningの性能向上を目的とした研究を2件紹介します • L. Yang et al. Dense Captioning with Joint Inference and Visual Context. CVPR, 2017. • G. Yin et al. Context and Attribute Grounded Dense Captioning. CVPR, 2019. • どちらも、対象となる領域の周囲のコンテキストも考慮したキャプション生成を 行う手法 [Yin+ CVPR’19] [Yang+ CVPR’17] 22
2.1 Dense Captioning with Joint Inference and Visual Context • 概要 • Dense captioningのモデルの2つ問題を指摘 1. 物体の矩形領域が重なりが大きく、抽出したboxが複数の物体を囲ってしま うこと 2. 矩形領域の周囲の情報も活用しないと、正確なキャプション生成が難しい場 合がある • それぞれの問題に対し、以下の手法を提案 1. 文の生成と同時に矩形領域をrefine 2. 矩形領域の周囲の情報もキャプション生成に活用するモデルの設計 • 提案手法によりDenseCapの性能を73%の向上させた 23
2.1 提案手法の効果 • (a) : 単語の生成と同時に矩形を修正することで、文の内容と合致した矩形を予測 • (b) : コンテキストを考慮することにより、PCの形をした建物を正確に説明でき た [Yang+ CVPR’17] 24
2.1 提案手法 • 詳細は割愛するが、以下のフレームワークを提案 • コンテキスト情報として画像全体の特徴 (オレンジの四角) もLSTMに入力 • LSTMによりキャプションと矩形の同時推定 [Yang+ CVPR’17] 25
2.2 Context and Attribute Grounded Dense Captioning • 概要 • コンテキスト情報がないと、キャプションが不正確になる場合がある (a) • Yangらの研究のように、画像全体の特徴をコンテキストとして入力するので は不十分 (b) • 特に、小さい物体は無視されやすい • 対象の領域の周囲の領域を見ることでより正確なキャプションを生成 (c) [Yin+ CVPR’19] 26
2.2 提案手法 • 新しく2つのモジュールを提案 • Contextual Feature Extractor … コンテクストの情報を抽出 • Attribute Grounded Caption Generator … キャプション生成のロスに加えて 単語のattributeのロスを補助的に使うモジュール [Yin+ CVPR’19] 27
2.2 Contextual Feature Extractor • 対象の矩形領域の周囲の矩形領域の情報を集約するモジュール 1. 全矩形領域のうち、target領域に距離が近い矩形をk個サンプル (IoUで近さ を定義) 2. target領域の特徴との類似度による重み付け和でk個の領域の特徴を集約 [Yin+ CVPR’19] 28
2.2 Attribute Grounded Caption Generator • キャプション生成ネットワーク 1. 複数のスケールの特徴を階層的に統合する構造 2. キャプション生成のロスに加えて単語のattributeのロスで学習 • attribute lossは語順を気にしない、マルチラベル分類のロスとして計算 [Yin+ CVPR’19] 29
2.2 実験結果 • Visual Genome datasetで既存手法との比較を行った ➢全スコアで勝利 & 定性評価でも既存手法に対する優位性が見られた 30 [Yin+ CVPR’19]
2.2 まとめ • Dense captioningの性能向上のためには、対象領域のコンテキストの 情報を有効活用する必要がある • 最新の研究では、画像認識部分と言語モデルの両方が高度化していた • 一人で同じような研究をするのは大変そう… 31
3. Dense captioningの派生タスク 32
3. Dense Relational Captioning: Triple-Stream Networks for RelationshipBased Captioning • 概要 • D. Kim et al. Dense Relational Captioning: Triple-Stream Networks for Relationship-Based Captioning. CVPR, 2019. • Dense captioningのタスクを発展させ、2つの矩形領域の関係性を記述するタ スクを提案 • Dense captioningとRelationship Detectionの融合 • 応用例として、Caption graphという画像 表現も提案している 33 [Kim+ CVPR‘19]
3. 提案手法 • 2つの矩形領域とその共通部分の特徴からキャプションを生成 • 2つの物体は主体(subject)、客体(object)の関係 • 文の単語の予測と単語の品詞予測のマルチタスクで学習 • 入力画像が主体と客体であり、予め関係性がわかっているので、その情報を活かすため の工夫 34 [Kim+ CVPR‘19]
3. 実験結果 • Visual Genome datasetで実験 • 2つの矩形の関係性を記述する文が生成されていることがわかる • 画像中の任意の領域のペアに対して文を生成できる [Kim+ CVPR‘19] 35
3. アプリケーション例 : Caption graph • Caption graphという画像表現を応用例として提案 • Scene graphの拡張 • Scene graphについては https://www.slideshare.net/DeepLearningJP2016/dlgraphrcnn-for-scene-graph-generation 等を参照 [Kim+ CVPR‘19] 36
3. まとめ • Dense captioningの派生タスクであるdense relational captioning を提案 • 2つの物体領域とその共通部分の特徴から関係性を説明する文を生成 • こちらの研究に関しても、画像認識部分・言語モデルの両者が高度化 しているという印象を受けた 37
全体まとめ • Dense captioningと呼ばれる、イメージキャプショニングの研究の一 分野を紹介した • 主に以下の3つの研究を紹介 1. Dense captioningというタスクを提案した研究 2. Dense captioningの性能を向上させる手法を提案した研究 3. 派生タスクであるDense relational captioningを提案した研究 • 感想 • V&Lは両分野の技術にキャッチアップする必要があり大変だと感じた • 今後も新たな問題設定の派生タスクが出てくるのではと予想しています • 実装がTorchやcaffeの場合が多いのが難点 38
参考文献 • J. Johnson et al. DenseCap: Fully Convolutional Localization Networks for Dense Captioning. CVPR, 2016. • O. Vinyals et al. Show and Tell: A Neural Image Caption Generator. CVPR, 2015. • K. Xu et al. Show, Attend and Tell: Neural Image Caption Generation with Visual Attention. ICML, 2015. • S. Ren et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. NIPS, 2015. • P. Anderson et al. Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering. CVPR, 2018. • T. Yao et al. Exploring Visual Relationship for Image Captioning. ECCV, 2018. • R. Krishna et al. Visual genome: Connecting language and vision using crowdsourced dense image annotations. 2016. • L. Yang et al. Dense Captioning with Joint Inference and Visual Context. CVPR, 2017. • G. Yin et al. Context and Attribute Grounded Dense Captioning. CVPR, 2019. • D-J Kim et al. Dense Relational Captioning: Triple-Stream Networks for Relationship-Based Captioning. CVPR, 2019. 39