120 Views
January 14, 22
スライド概要
2022/01/07
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP “Meta-Learning for Online Update of Recommender Systems. (AAAI 2022)” [DL Papers] Yoshifumi Seki http://deeplearning.jp/
書誌情報 ● 投稿先 ○ AAAI2022 ● 投稿者 ○ 韓国科学技術大学と Naver ○ 1stはPhDの学生 ○ COVID-19のDLを使った予測で AAAI2022, KDD2020に1stで通してい る ● 選定理由 ○ ニュース推薦のデータセットが含まれて いる ○ 直近のメタ学習による推薦システムのト レンドのキャッチアップのため
概要 ● ● ● ● ユーザの関心やコンテンツの変化に対応するために推薦システムではオンライン の更新が重要 更新の戦略として、インタラクションの履歴に対する重み付けと、パラメータのメタ学 習による更新があるが、両方を行っている例はない。 この研究ではその2つを同時に行うGNNベースのメタ学習手法を提案する。 大きく精度の向上を実現した。
Research Question i) どのように新しいインタラクションというタスクへの重要性を記述するか ii) どのようにタスクに対するパラメータの役割を特定するか iii) どのようにインタラクションとパラメータに対する最適な学習率をそれらの関係性に基 づくいて決定するか
MeLON (Meta Learning for ONline recommender update)
提案手法の位置付け
Preliminary: パラメータ更新の一般化 θ: 推薦システムのパラメータ L: 損失関数, η: 学習率, Bt: ミニバッチのデータ n: |Bt| ● 学習率の行列Wとして一般化する ○ ● ● Wはパラメータ数 M * データ数nの行列 通常のオンライン学習では全て同じ値が入っている パフォーマンスは以下で評価できる
Importance Weighting φ^I: インタラクションごとのスコアを返す関数 W^I: 一般化した行列 ● importance weightingはインタラクションごとに学習率を調整する ○ ○ ● 論文中ではφ^Iが損失とか言ってるけど、一般化すると違うので、、、 W^Iをφ^Iを値に持つと言ってるけどこれも ηが考慮できないので、、、 既存手法 ○ ○ eALS (He et al. 2016): ヒューリスティックに決定する (多分Lossの比とか) MWNet (Shu et al. 2019): 外部のメタモデルを維持するように学習する (?)
Meta Optimization φ^P: パラメータの状況に応じて学習率を変えたいとい う気持ち、パラメータ数の次元を持つ(こともできる) W^P: 一般化した ● ● 学習率のところをパラメータの関数化している
提案手法 ● ● φ^{2D}: インタラクション、パラメータ両方に学習率を変える関数
提案手法の概念図
Step1: Representing User Item Interaction ● ● ● ● 過去のインタラクション情報からインタラクションをembedする アイテムとユーザの2部グラフで過去のインタラクションを表現 Graph Attention Networkで埋め込み
Step2: Representing Parameter Role ● ● 予測結果に与える影響の大きさをパラメータのRoleと(大雑把に)定義する 3つの情報が使える ○ ○ ○ ● パラメータの値 パラメータの損失:どれだけインタラクションに対して学習できてないかを示す パラメータの勾配:損失に対してどれだけアクションが必要かを示す MLPを使って学習する
Step3: Adapting Learning Rate 学習率を埋め込み表現から求める パラメータを更新する
実際の学習プロセス
より詳細な概念図
アルゴリズム
評価データセット Adressa: ニュース Amazon: 商品レビュー Yelp: 場所のレビュー
比較手法 推薦アルゴリズム ● ● Bayesian Personalized Ranking (BPR) Neural Collaborative Filtering (NCF) 更新戦略 ● ● Default (普通のmini batch) importance weighting ○ ○ ● eALS MWNet Meta Optimization ○ ○ ○ MetaSGD S2Meta SML
評価指標 ● ● Hit Rate (HR) NDCG 1つの実際にinteractionしたアイテムと、99個のランダムなアイテムをスコア付けしてラ ンキングにして評価
結果概要 ● ● 全体として提案手法が著しく程度向上している NCFは全体で向上 ○ HR@5で見るとAdressaが29.9%, Amazonが10.9%, Yelpが18.2% ● BPRではYelpのみeALSが最大 ● ● Adressaはニュースで変化が早いのでMeta Optimizationで強い Yelpは変化がゆっくりなのでimportance weightingが強い
● 学習率重みの可視化 ○ ● 上と右のバーは平均化したもの ○ ● 細かく違うことがわかる 違うところが多いので、提案手法は より適切に最適化できていると考え られる AdressaとYelpの違いは先ほど あったimportance weighting, meta optimizationの違いと一致 する
● ● バッチが進むによるパ フォーマンスの変化 全体として安定して高い ○ ● そもそもデータセットに時系 列制ある?
● 片方だけの最適化をやるようにした版 ○ ● 平均化して学習率として使った⇦本当に比較になってる? 精度はimportance weightingやmeta optimizationの比較手法に近くなってる
● ● 計算速度は他のものと比較して少し長いものの誤差 一方でNvidia Taitan RTXを使っているけどこれを実サービスで使えると言っていい ものか、実際eALSの20倍遅いわけで、、、
まとめ ● ● Importance WeightingとMeta Optimizationの合わせ技で、オンライン学習におい て過去のものと比較し大きな精度改善を実現している 比較実験において、2つ合わせて学習することで様々なデータセットの特性に対応 できる 所感 ● ● ● testがどんどんデータが追加されていく感じの時系列な設定ではないので、これを そのまま実サービスレベルで信用できるかは疑問 早い言っているが本当に早いのか、、、? とはいえ、シンプルなアイデアでしっかり結果を出しているのはすごい