[DL輪読会]Multi-Modal and Multi-Domain Embedding Learning for Fashion Retrieval and Analysis

156 Views

December 07, 18

#deep learning #Deep Learning #Fashion Analysis #Data Representation #Multi-Domain #Multi-Modal

スライド概要

2018/12/7
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.1K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.2K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Multi-Modal and Multi-Domain Embedding Learning for Fashion Retrieval and Analysis Ryosuke Goto, ZOZO Research http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • 著者: Xiaoling Gu, Yongkang Wong, Lidan Shou, Pai Peng, Gang Chen, Mohan S. Kankanhalli • IEEE Transactions on Multimedia – 18 October 2018 • URL: https://ieeexplore.ieee.org/document/8496862 – Supplementary materialあり 2

https://ieeexplore.ieee.org/document/8496862

研究の目的 • ファッションに関する画像とテキストのデータ分析を行いたい • ファッションに関するMulti-Domainデータを同じ空間に埋込みたい 3

やったこと • Multi-domainかつMulti-modalなデータセットの表現学習のためのアーキテクチャとしてQuintuplet ranking lossと Cross-view similarity ranking lossの二段階の学習を提案 • 正準相関分析系の手法に比べ、提案手法が優れていることを示す • 様々なパターンで検証することで、各ステップの精度への貢献を明らかにした • ファッショントレンドに関するケーススタディを実施 4

データセット Street Photos ・背景やポーズがバラバラ・タグはユーザーが付与するためノイズが多い Runway Photos ・背景はステージ・プロによる撮影・シーズンやデザイナーのタグ Product Images ・背景は白抜き・カテゴリのタグがほとんど 5

提案モデル (全体) ・Multi-Domainの学習と Multi-Modalの学習の二段階に分ける 6

提案モデル (Step 1) • Quintuplet-based ranking loss – 同一ドメインでは通常のTriplet loss – 異種ドメインはマージンをより大きくとる 7

提案モデル (Step 2) • Cross-view similarity ranking loss – 画像とテキストの関係を学習 – アンカーに画像とテキストのどちらを取るかにより重み付け 8

定量評価（Image-To-Image Retrieval） • 評価指標: – Mean Average Precision (MAP) – Normalized Discounted Cumulative Gain (NDCG) – F1-Measure • 比較対象 – – – – – Canonical Correlation Analysis (CCA) Deep Canonical Correlation Analysis (DCCA) Deep Canonical Correlated Autoencoder (DCCAE) 上記３つを、step1後のモデルで得た特徴を使って計算したもの(Quin_) 上記３つを、pre-trained VGG16の特徴で計算したもの(VGG_) 9

10.

定量評価（Image-To-Image Retrieval） 10

11.

定量評価（Image-To-Text Retrieval） 11

12.

定量評価（Text-To-Image Retrieval） 12

13.

定性評価（Street Photos） 13

14.

定性評価（Runway Photos） 14

15.

定性評価（Product Images） 15

16.

Ablation Study 1 ・Image-To-Image検索におけるStep2の効果全ての画像ドメインにおいて、MAPの向上が見られる・Step1とStep2の影響力 Step2のみだと著しく性能が低下。Step1が重要 Step1はStep2の良い初期値を与えていると考えられる・Step1とStep2のJoint学習は可能か？ Joint_Step1_Step2は提案手法に比べて性能が低い二種類のsimilarityの学習でトレードオフが起きて悪影響 16

17.

Ablation Study 2 ・Step2のcross-view tripletの効果 Step1_Step2_Textの効果が大きい Step2のテキストをアンカーにしたTriplet Lossが重要・Step1をQuintupletで学習する必要があるのか？ Triplet_Step2やQuadruplet_Step2よりも性能が高い・ドメイン毎にモデルを作るのではダメか？ Quintupletとほぼ同等。ただし、ドメイン毎のモデルは検索対象が同一ドメインになるため問題がとても簡単 17

18.

ケーススタディ・ChanelのRunwayデータを今回のモデルで得た表現でクラスタリング・パーツ毎のアイテムや色に応じて分類ができている 18

19.

まとめ • Multi-domainかつMulti-modalなデータセットの表現学習のためのアーキテクチャとしてQuintuplet ranking lossと Cross-view similarity ranking lossの二段階の学習を提案 • 正準相関分析系の手法に比べ、提案手法が優れていることを示す • 様々なパターンで検証することで、各ステップの精度への貢献を明らかにした • ファッショントレンドに関するケーススタディを実施 19

20.

ケーススタディ 20

21.

ケーススタディ 21