145 Views
May 24, 19
スライド概要
2019/05/24
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
POG: Personalized Outfit Generation for Fashion Recommendation at Alibaba iFashion Ryosuke Goto (ZOZO Research)
書誌情報 ● 著者: Wen Chen, Pipei Huang, Jiaming Xu, Xin Guo, Cheng Guo, Fei Sun, Chao Li, Andreas Pfadler, Huan Zhao, Binqiang Zhao ● 所属: Alibaba Group ● 選定理由 ○ ○ Transformerをコーディネート生成と推薦タスクにうまく活用している点 Webサービスとしてデプロイして活用している実績
概要 ● ● ● ● 調和のとれたファッションコーディネートを個人の嗜好に合わせて生成する Encoder-Decoder,POGを提案 Fill in the blank,Compatibility Predictionのタスクにおいて,過去の研究と比較して高い性能を示した. webサービスとしてデプロイし,協調フィルタリングと比べ, CTRが70%向上することを示した. 100万を超えるコーディネート,その関連商品,ユーザーのクリックアクションを含むデータセットを構築した (https://github.com/wenyuer/P0G)
背景 ● 中国のアリババグループが運営する ECサイト タオバオには AIによるコーディネート提案機能がある. ○ 商品をより魅力的に見せるために,コーディネートとして提案する ○ 商品の組み合わせとして見せることで,追加の商品購入を狙う ○ クオリティの高い商品の組み合わせを個人の趣味・趣向に合わせて提案することがビジネスと直結 https://hackernoon.com/finding-the-perfect-outfit-with-alibabas-dida-ai-assistant-71ba7c9e8cfa
過去のOutfit Generationの研究 ● メトリックによる Outfitの学習 ○ コーディネートや同時購入のデータからペアをサンプルして,距離を近づけるように学習 ○ ペアに注目し,全体を一度に考慮できない問題 Song et al. 2018
過去のOutfit Generationの研究 ● LSTMによるモデリング ○ CNNによってembedした商品をLSTMに入力 ○ 商品カテゴリによる入力順序の固定 ○ 入力順序固定にはどんな意味がある? Han et al. 2017 Nakamura & Goto 2018
提案手法: FOM (Fashion Outfit Model) ・マクスした商品を当てる Fill in the blankを学習する ・インプットには,画像,タイトル,協調フィルタリングによる関係を embedした特徴を合わせて使う ・Transformer部分はMulti-head self-attentionとPosition-wise Feed-forwardを利用 ・入力の順序は関係ないので position embeddingは使わない
提案手法: FOM (Fashion Outfit Model) ・マスクした商品と,対象コーデ以外からサンプルした商品 3つの中から,マクスした商品を当てる ・このタスクを解くことで, Compatibilityを評価できるモデルを得ることができる
提案手法: POG (Personalized Outfit Generation) ・POGはPer NetworkとGen Networkの二つのネットワークで構成される ・encoder(Per Network)のインプットはユーザーの商品クリックのデータを利用 ・decoder(Gen Network)にはユーザーがクリックしたコーディネートを予測させる ・Gen Networkの初期値はFOMの重みを利用
定量評価(FOM) Fill in the blank(FITB) 4つの商品からコーディネートの組み合わせに適した商 品を選ぶタスク Compatibility Prediction (CP) 本当のコーディネートか,ランダムにアイテムを集めた 偽物のコーディネートかを当てるタスク 異なる入力モダリティのうち,商品タイトルの情報は FITB, CPを解くのに重要であることがわかる.画像と CFの特徴を加えると性能が微増する. CFの特徴はセ マンティクスが含まれないので単体ではワークしないら しい. 過去のLSTMを使った研究では商品カテゴリにより入力 を固定していた( Ordered).LSTM系のモデルは順序固 定の方がパフォーマンスが良い一方で, FOMは順序に 依存しない.
定量評価(POG) 生成方法 + 提供方法別にオンラインでテストした結果 POG, POG+FOM ユーザーの商品クリックを受けて,パーソナライズしたコーデ 生成結果を返す.もっとも高い CTRとなったのはPOG+FOM (Genの初期化にpre-trained FOMを利用) F-LSTM+CF, Bi-LSTM+CF, Gen+CF コーデ生成結果を協調フィルタリングで推薦する . Gen, Bi-LSTM, F-LSTMの順にCTRが高いように見える F-LSTM+RR, Bi-LSTM+RR, Gen+RR コーデ生成結果をランダムに表示させる. 性能が悪い.
まとめと感想 ● 調和のとれた Outfitを個人の趣味に合わせて生成する Encoder-Decoder,POGを提案 ○ Per Networkで個人の趣味の情報を抽出し,自然な形で Outfit Generationに活かしている ○ FITBやCPのタスクでLSTM系のモデルを大きく上回る結果 ○ オンラインテストでも他のモデルを大きく上回る高い CTR ● 感想 ○ ○ webサービスの内側の人しかアクセスできないユーザーのクリック情報を含んだ大規模コーディ ネートデータセットを提供しているため, webサービスを持っていなくても,レコメンドの性能を測れる ようになったのが大きいと思います. このような優れたデータセットの提供を, ZOZOが最初にやれなかったのが悔しいです.