>100 Views
November 09, 18
スライド概要
2018/11/09
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] ECOMMERCEGAN: A GENERATIVE ADVERSARIAL NETWORK FOR E-COMMERCE (ICLR 2018) Akitoshi Kimura, Yoshida Lab, Graduate School of Mathematical Sciences http://deeplearning.jp/ 1
書誌情報 • タイトル: “ECOMMERCEGAN: A GENERATIVE ADVERSARIAL NETWORK FOR E-COMMERCE” • 著者: Ashutosh Kumar (インド理科大学院), Arijit Biswas & Subhajit Sanyal (Amazon India Machine Learning) • 学会: ICLR 2018 • インターン中に行った研究 2
概要 • e-commerce の注文に対して GAN を提案 • 貢献 – 注文 (顧客情報、商品、価格、日付) の密で低次元な表現の考案 – ecommerceGAN (ecGAN) を尤もらしい注文を生成するように学習 – ecommerce-conditional-GAN (ec2GAN) を特定の商品を含む注文 を生成するように学習 • e-commerce に GAN を適用したのは初 3
注文の表現 • 顧客情報 – 似たような購入履歴を持つ顧客を意味空間で近くなるように Discriminative Multi-task Recurrent Neural Network (RNN) で学 習、 128 次元ベクトル、各特徴量は [-1, 1] に入る • 商品 – 似たような商品が表現空間で近くなるように タイトルと説明を word2vec で学習、IDFで調整、128 次元ベクト ル • 価格 – 対数を取って、[-1, 1] に収まるように正規化 • 日付 4
顧客情報の学習 • LSTM + 分類器 を学習 – イテレーションのたびにランダムに分類タスクを一つ選ぶ 5
商品の埋め込み • word2vec モデルをタイトルと説明文で学習 (1億4300万商 品) – 140 万語のボキャブラリーとそのベクトル表現を獲得 • inverse document frequency (IDF) で調整 – タイトル中のすべての語について、対応する IDF 重みをかけて足 す – 表現が、タイトル中のすべての語の total IDF score で正規化され る • 似た商品は表現空間において互いに近くなるように学習 6
ec2GAN (および ecGAN) 概念図 7
ec2GAN の適用手順 8
ecGAN の定性分析 • t-SNE • 特徴相関 • ランダムフォレストの葉におけるデータ分布 9
t-SNE 10
特徴相関 • 注文は 264 次元の特徴量ベクトルであらわされる • 𝑓1 , 𝑓2 , 𝑓3 をランダムに選び、 𝑓1 と 𝑓2 、𝑓1 と 𝑓3 の相関を計 算 • 大小関係を比較し、実データと生成データで一致していれば 合意 • 100K 個の組み合わせで合意した割合を計算 -> 77% – ベースラインは 50% • よく似た注文が生成できている 11
ランダムフォレストの葉におけるデータ分布 • 100 万件ずつの実注文と、生成された注文を混ぜる(クラス 1) • 順序をランダムに変更し 200 万件のデータセット生成(クラ ス2) • 最大深さ 5 の木 100 本のランダムフォレスト(葉はそれぞれ 32) • 各葉ノードにおける実注文の割合 計算し、平均を取る • よく混ざっていれば 0.5 に近づく 12
ec2GAN の定性分析 • 顧客情報、価格、季節需要の特徴づけ – Relative Similarity Measure (RSM) • 分布の比較 • Conditional Variational Autoencoders (C-VAE) と比較 13
Relative Similarity Measure (RSM) • 実注文と生成された注文の相対的類似度を測る • 以下の特徴をもつものに対して傾向スコアを計算 – 顧客 • 性別(男、女) • 期間(5 年以上、2 年以上 5 年未満) • 購入量(多い、平均的) – 価格 – 季節需要(夏、冬) • それぞれの傾向スコアの大小関係が一致する割合: RSM – ベースラインは 50% 14
傾向スコア計算(女性の例) • 性別(購入量、、、)などを予測する分類器を学習 • 商品 𝑝𝑖 を一年以内に購入した顧客 𝐶𝑖 を分類器に入れる – 女性と判定された割合を ground-truth 傾向スコア とする • 商品 𝑝𝑖 を購入した生成された顧客 𝐶෩𝑖 を分類器に入れる – 女性と判定された割合を generated orders based 傾向スコアとす る 15
顧客情報の特徴づけ 16
価格の特徴づけ • 下記の score は higher price に対するもの • C-VAE の方がよい score – 同じ商品で価格はあまり変動しないため? 17
季節需要の特徴づけ 18
ec2GAN の分布の比較 19