[DL輪読会]POG: Personalized Outfit Generation for Fashion Recommendation at Alibaba iFashion

248 Views

May 24, 19

#deep learning #Alibaba iFashion #Personalized Outfit Generation #Fashion Recommendation #Encoder-Decoder #Web Service Deployment

スライド概要

2019/05/24
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 85.4K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.5K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 55K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 39.5K

【拡散モデル勉強会】拡散モデルのサンプラーまとめ

Deep Learning JP 33.9K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 33.1K

各ページのテキスト

POG: Personalized Outfit Generation for Fashion Recommendation at Alibaba iFashion Ryosuke Goto (ZOZO Research)

書誌情報 ● 著者: Wen Chen, Pipei Huang, Jiaming Xu, Xin Guo, Cheng Guo, Fei Sun, Chao Li, Andreas Pfadler, Huan Zhao, Binqiang Zhao ● 所属: Alibaba Group ● 選定理由 ○ ○ Transformerをコーディネート生成と推薦タスクにうまく活用している点 Webサービスとしてデプロイして活用している実績

概要 ● ● ● ● 調和のとれたファッションコーディネートを個人の嗜好に合わせて生成する Encoder-Decoder，POGを提案 Fill in the blank，Compatibility Predictionのタスクにおいて，過去の研究と比較して高い性能を示した． webサービスとしてデプロイし，協調フィルタリングと比べ， CTRが70%向上することを示した． 100万を超えるコーディネート，その関連商品，ユーザーのクリックアクションを含むデータセットを構築した（https://github.com/wenyuer/P0G）

https://github.com/wenyuer/P0G

背景 ● 中国のアリババグループが運営する ECサイトタオバオには AIによるコーディネート提案機能がある． ○ 商品をより魅力的に見せるために，コーディネートとして提案する ○ 商品の組み合わせとして見せることで，追加の商品購入を狙う ○ クオリティの高い商品の組み合わせを個人の趣味・趣向に合わせて提案することがビジネスと直結 https://hackernoon.com/finding-the-perfect-outfit-with-alibabas-dida-ai-assistant-71ba7c9e8cfa

https://hackernoon.com/finding-the-perfect-outfit-with-alibabas-dida-ai-assistant-71ba7c9e8cfa

過去のOutfit Generationの研究 ● メトリックによる Outfitの学習 ○ コーディネートや同時購入のデータからペアをサンプルして，距離を近づけるように学習 ○ ペアに注目し，全体を一度に考慮できない問題 Song et al. 2018

過去のOutfit Generationの研究 ● LSTMによるモデリング ○ CNNによってembedした商品をLSTMに入力 ○ 商品カテゴリによる入力順序の固定 ○ 入力順序固定にはどんな意味がある？ Han et al. 2017 Nakamura & Goto 2018

提案手法: FOM (Fashion Outfit Model) ・マクスした商品を当てる Fill in the blankを学習する・インプットには，画像，タイトル，協調フィルタリングによる関係を embedした特徴を合わせて使う・Transformer部分はMulti-head self-attentionとPosition-wise Feed-forwardを利用・入力の順序は関係ないので position embeddingは使わない

提案手法: FOM (Fashion Outfit Model) ・マスクした商品と，対象コーデ以外からサンプルした商品 3つの中から，マクスした商品を当てる・このタスクを解くことで， Compatibilityを評価できるモデルを得ることができる

提案手法: POG (Personalized Outfit Generation) ・POGはPer NetworkとGen Networkの二つのネットワークで構成される・encoder（Per Network）のインプットはユーザーの商品クリックのデータを利用・decoder（Gen Network）にはユーザーがクリックしたコーディネートを予測させる・Gen Networkの初期値はFOMの重みを利用

10.

定量評価（FOM） Fill in the blank（FITB） 4つの商品からコーディネートの組み合わせに適した商品を選ぶタスク Compatibility Prediction (CP) 本当のコーディネートか，ランダムにアイテムを集めた偽物のコーディネートかを当てるタスク異なる入力モダリティのうち，商品タイトルの情報は FITB, CPを解くのに重要であることがわかる．画像と CFの特徴を加えると性能が微増する． CFの特徴はセマンティクスが含まれないので単体ではワークしないらしい．過去のLSTMを使った研究では商品カテゴリにより入力を固定していた（ Ordered）.LSTM系のモデルは順序固定の方がパフォーマンスが良い一方で， FOMは順序に依存しない．

11.

定量評価（POG）生成方法 + 提供方法別にオンラインでテストした結果 POG, POG+FOM ユーザーの商品クリックを受けて，パーソナライズしたコーデ生成結果を返す．もっとも高い CTRとなったのはPOG+FOM （Genの初期化にpre-trained FOMを利用） F-LSTM+CF, Bi-LSTM+CF, Gen+CF コーデ生成結果を協調フィルタリングで推薦する . Gen, Bi-LSTM, F-LSTMの順にCTRが高いように見える F-LSTM+RR, Bi-LSTM+RR, Gen+RR コーデ生成結果をランダムに表示させる．性能が悪い．

12.

まとめと感想 ● 調和のとれた Outfitを個人の趣味に合わせて生成する Encoder-Decoder，POGを提案 ○ Per Networkで個人の趣味の情報を抽出し，自然な形で Outfit Generationに活かしている ○ FITBやCPのタスクでLSTM系のモデルを大きく上回る結果 ○ オンラインテストでも他のモデルを大きく上回る高い CTR ● 感想 ○ ○ webサービスの内側の人しかアクセスできないユーザーのクリック情報を含んだ大規模コーディネートデータセットを提供しているため， webサービスを持っていなくても，レコメンドの性能を測れるようになったのが大きいと思います．このような優れたデータセットの提供を， ZOZOが最初にやれなかったのが悔しいです．