743 Views
May 28, 24
スライド概要
徳武 悠, 岡本 一志: 大規模言語モデルを用いた推薦システムにおけるセレンディピティ判断の検討, 第38回人工知能学会全国大会, 2024.5, 静岡県浜松市.
Data Science Research Group, The University of Electro-Communications
大規模言語モデルを用いた推薦システムにおける セレンディピティ判断の検討 徳武 悠,岡本 一志 電気通信大学 大学院情報理工学研究科 情報学専攻 2024.05.28 2024年度 人工知能学会全国大会 1 / 29
目次 序論 セレンディピティ指向推薦システム・研究課題 提案手法 タスク定義・プロンプト 実験設定 データセット・ベースライン手法 結果と考察 人間の評価との一致度・ベースライン手法との比較
目次 序論 セレンディピティ指向推薦システム・研究課題 提案手法 タスク定義・プロンプト 実験設定 データセット・ベースライン手法 結果と考察 人間の評価との一致度・ベースライン手法との比較
はじめに 情報推薦システム 多数のアイテムの中からユーザの嗜好に合ったアイテムを提案し意思決定を支援 システムの有用性を測定する主な指標として推薦精度を使用 過剰専門化 ユーザの嗜好に過剰し,似たようなアイテムを推薦し続ける 原因:推薦精度の過度な追求 問題 自分の好みから逸脱したアイテムの探索を躊躇 ユーザ満足度の低下 ↓ セレンディピティに着目した推薦システムが提案 2024.05.28 2024年度 人工知能学会全国大会 4 / 29
セレンディピティ指向推薦システム セレンディピティ:偶然によって思いがけず価値あるものを発見する能力 推薦システムにおけるセレンディピティや評価指標に統一された定義は存在しないが 長期間・様々なドメインで研究 システム 先行研究では構成要素(例:関連性・ 意外性)の組み合わせとして捉える 主なアルゴリズム 行列分解 [Zheng+, 2015] 深層学習 [Zhang+, 2021] リランキング [Kotkov+, 2020] オフライン評価指標 [Adamopoulos+, 2014] Ser(Ru) = (Ru - Eu) ∩ USEFULu / |Ru| [Zuva+, 2017] Unserendipityu = Σu∈U 1 / |U||Hu| Σh∈Hu Σi∈Ru cos(i, h) / |Ru| 2024.05.28 2024年度 人工知能学会全国大会 5 / 29
研究課題 ユーザの推薦されたアイテムに対するセレンディピティを評価することは困難 推薦精度 閲覧・購入・評価等のフィードバックが与えられる セレンディピティ フィードバックは観測できない 理想:推薦結果に対するユーザスタディによる評価 [Kotkov+, 2018][Fu+, 2023] 人的コストが高い 実施する環境によって回答が変化する恐れ → 人間の代替となる自動評価手法が必要 2024.05.28 2024年度 人工知能学会全国大会 6 / 29
研究課題 アイデア 大規模言語モデル(LLM)を用いてセレンディピティを評価 幅広いタスクで高い性能を示す 人間に近い応答を実現できると期待 メリット 共通した評価フレームワークとして利用可能 推薦結果を多くの人が評価可能 2024.05.28 2024年度 人工知能学会全国大会 7 / 29
リサーチクエスチョン LLMを推薦結果のセレンディピティ評価に利用する前に,その応用可能性を検証 ↓ 1. LLMベースのセレンディピティ評価は,人間の評価とどの程度一致しているのか? 2. LLMはベースライン手法と比較して,どの程度優れているのか? 本研究 LLMを用いた推薦アイテムのセレンディピティ評価法を提案 セレンディピティの定義を与えることなく推論 LLMに与える情報を変化させることで異なるタイプのプロンプトを設計 人間による評価を含むベンチマークデータセットを用いて性能を評価 2024.05.28 2024年度 人工知能学会全国大会 8 / 29
先行研究 - LLMを用いた推薦システム Huaらの分類 [Hua+, 2023] タイプ 使用例 先行研究 LLM as RS LLM自身を推薦システムとする ChatGPT [Liu+, 2023] LLM in RS 特徴量抽出器 KAR [Xi+, 2023] RS in LLM 推薦エージェント Agent4Rec [Zhang+, 2023] 精度以外の指標 [Carraro+, 2024]:推薦結果の多様性を向上させるためにLLMを用いたリランキング手法を提案 セレンディピティ推薦でLLMを用いた手法は存在しない → 本研究の取り組み自体が新規性を持つ 2024.05.28 2024年度 人工知能学会全国大会 9 / 29
目次 序論 セレンディピティ指向推薦システム・研究課題 提案手法 タスク定義・プロンプト 実験設定 データセット・ベースライン手法 結果と考察 人間の評価との一致度・ベースライン手法との比較
タスク定義 目的:ユーザuの評価履歴 Iu と推薦アイテムiを与え,iがセレンディピティか否かを判断 目的関数f 1. 出力が2値(提案手法) f(Iu, i) = { 1 if i is serendipitous for u, 0 otherwise } (1) 2. 出力が連続値(ベースライン手法) f(Iu, i) = s, s ∈ [0, 1] (2) 式(2)の場合は,閾値を設定して2値化 本タスクでは推薦リスト全体ではなく,個々のアイテムに対して評価を行う 2024.05.28 2024年度 人工知能学会全国大会 11 / 29
提案手法 - フレームワーク fにLLMを用いた fLLM を提案 推薦アイテム i 評価履歴 Iu アイテム属性 fLLM Yes / No (波線は本タスクでは対象外) 2024.05.28 2024年度 人工知能学会全国大会 12 / 29
提案手法 - プロンプト
後述するデータセットから正例と負例を1件ずつ
サンプリングし,few-shotによる推論
LLMの知識と推論能力を検証するため,
「セレンディピティ」の定義は与えない
評価履歴 Iu と推薦アイテム i の情報
アイテム名
ユーザが付与した評価値(i は予測値)
ジャンル
Please judge whether 'recommended_movie' is serendipitous or not
given 'user_rated_movies'.
## Background
* You use a movie rating platform and have rated some movies.
* Now the movie is recommended based on your rating history from
the platform.
* You are given the {title, rating, genres} of the recommended movie
and rated movies.
* The rating history is comma-separated and sorted from oldest to
newest.
## Output Format
* You should answer just 'Yes' or 'No' after the 'is_serendipitous: '
prefix.
* Generate only the requested output, don't include any other
language before or after the requested output.
## Examples
### Example 1
user_rated_movies: {user_rated_movies_example1}
recommended_movie: {recommended_movie_example1}
is_serendipitous: Yes
### Example 2
user_rated_movies: {user_rated_movies_example2}
recommended_movie: {recommended_movie_example2}
is_serendipitous: No
## Response
user_rated_movies: {user_rated_movies}
recommended_movie: {recommended_movie}
is_serendipitous:
2024.05.28
2024年度 人工知能学会全国大会
13 / 29
提案手法 - プロンプト 様々な種類の情報を組み合わせることで,異なるタイプのプロンプトを設計 タイプ アイテム名 評価値 ジャンル 具体例 implicit ○ × × "Gosford Park, War Dogs, ..." explicit ○ ○ × "(Gosford Park, 3.0), ..." implicit with genres ○ × ○ "(Gosford Park, [Comedy, Drama], ..." explicit with genres ○ ○ ○ "(Gosford Park, 3.0, [Comedy, Drama], ..." プロンプトには評価履歴の直近n件のアイテムの情報を与える(実験では n = 10) 2024.05.28 2024年度 人工知能学会全国大会 14 / 29
目次 序論 セレンディピティ指向推薦システム・研究課題 提案手法 タスク定義・プロンプト 実験設定 データセット・ベースライン手法 結果と考察 人間の評価との一致度・ベースライン手法との比較
評価実験 2値分類タスクの性能評価 目的:提案手法の分類性能を確認し,ベースライン手法と比較 手法:データセット内のユーザのセレンディピティに関する評価から正解ラベルを 作成し,予測結果との精度を評価 実験設定 LLM GPT-3.5 (gpt-3.5-turbo-0613) Llama2-13B-Chat データセット Serendipity-2018*1:ユーザスタディを実施した 唯一利用可能なデータセット(ドメイン:映画) #users #items #feedbacks 481 104,661 2,150 *1: Serendipity-2018 Dataset [Kotkov+, 2018] https://grouplens.org/datasets/serendipity-2018/ 2024.05.28 2024年度 人工知能学会全国大会 16 / 29
データセット No 説明(和訳) Q1 この映画について初めて聞いたのは、MovieLensが推薦してくれたときです。 Q2 MovieLensがこの映画を見る決め手になりました。 Q3 初めてこの映画を見る前に楽しみにしていました。 Q4 これは私が自分では見つけられないタイプの映画です。MovieLensのような推薦システムが必要です。 Q5 この映画は通常見る映画と異なります(スタイル、ジャンル、テーマなど)。 Q6 MovieLensがこの映画を推薦してくれたことに驚きました。 Q7 この映画を見てよかったです。 Q8 この映画を見て自分の好みが広がりました。今ではより幅広い種類の映画に興味があります。 各質問は5段階で評価(1:強くそう思わない~5:強くそう思う) 前処理:ユーザがアイテムをセレンディピティと判断したかを示す2値ラベルを作成 正例:277件 負例:1,873件 2024.05.28 2024年度 人工知能学会全国大会 17 / 29
ベースライン手法 Serendipity-Oriented Greedy (SOG) [Kotkov+, 2020] を用いる 特異値分解(SVD)で得られた推薦リストをリランキング 推薦リスト内のアイテムにスコアを付与し,貪欲に選択 scoreuiB = αrel · r̂ui + αdiv · diviB + αprof · profui + αunpop · unpopi スコア名 概要 score SOGのリランキングスコア (r̂ui はSVDによる予測評価値) profui ユーザの閲覧履歴 Iu とアイテム i のコンテキスト非類似度 unpopi 訓練データにおけるアイテム i の不人気度 2024.05.28 2024年度 人工知能学会全国大会 18 / 29
ベースライン手法 各スコアから識別器 fscore, fprof, funpop を作成 (f ∈ [0, 1]) diviB:推薦リスト B とアイテム i のコンテキスト非類似度 本タスクでは B が定義できないため,diviB = 0 として fscore を算出 fscore(Iu, i) = 0.9 · r̂ui + 0.7 · profui + 0.7 · unpopi fprof(Iu, i) = profui funpop(Iu, i) = unpopi パラメータ α* は元論文に基づき設定 閾値を設定し,2値化。上位q% (5 ≤ q ≤ 95) のアイテムを正例とする 2024.05.28 2024年度 人工知能学会全国大会 19 / 29
評価指標 正解ラベルの不均衡を考慮し,Macro-F1スコアを用いる Accuracy : TP + TN / TP + TN + FP + FN F1-score : TP / 2TP + FP + FN + TN / 2TN + FP + FN g:正解ラベル, g ∈ {0, 1} TP:真陽性数 (f = 1 ∧ g = 1), TN:真陰性数 (f = 0 ∧ g = 0), FP:偽陽性数 (f = 1 ∧ g = 0), FN:偽陰性数 (f = 0 ∧ g = 1) 2024.05.28 2024年度 人工知能学会全国大会 20 / 29
目次 序論 セレンディピティ指向推薦システム・研究課題 提案手法 タスク定義・プロンプト 実験設定 データセット・ベースライン手法 結果と考察 人間の評価との一致度・ベースライン手法との比較
RQ1:人間の評価との一致度【1】 LLM Llama2-13B-Chat GPT-3.5 正解ラベルの不均衡が部分的に影響しているが,人間の評価との一致度は低い 2024.05.28 2024年度 人工知能学会全国大会 22 / 29
RQ1:人間の評価との一致度【2】 (a) implicit (b) explicit (c) implicit w/ genres (d) explicit w/ genres Confusion Matrix - Llama2-13B-Chat (a) implicit (b) explicit (c) implicit w/ genres (d) explicit w/ genres Confusion Matrix - GPT-3.5 LLMの出力はpositive (TP + FP) またはnegative (TN + FN) に偏る 2024.05.28 2024年度 人工知能学会全国大会 23 / 29
RQ1:人間の評価との一致度【2】 (a) implicit (b) explicit (c) implicit w/ genres (d) explicit w/ genres Confusion Matrix - Llama2-13B-Chat (a) implicit (b) explicit (c) implicit w/ genres (d) explicit w/ genres Confusion Matrix - GPT-3.5 ジャンル情報を明示的に含めることで,性能向上 2024.05.28 2024年度 人工知能学会全国大会 24 / 29
RQ2:ベースライン手法との比較 GPT-3.5 (implicit w/ genres) Llama2-13B-Chat (implicit w/ genres) GPT-3.5 (explicit w/ genres) SOG (prof) GPT-3.5 (implicit) SOG (score) GPT-3.5 (explicit) Llama2-13B-Chat (implicit) SOG (unpop) 運用環境では,SOGスコアの適切な閾値を決定することは困難(図:最大値) → 同等以上の性能を示したLLMベースの評価は重要 2024.05.28 2024年度 人工知能学会全国大会 25 / 29
RQ2:ベースライン手法との比較 GPT-3.5 (implicit w/ genres) Llama2-13B-Chat (implicit w/ genres) GPT-3.5 (explicit w/ genres) SOG (prof) GPT-3.5 (implicit) SOG (score) GPT-3.5 (explicit) Llama2-13B-Chat (implicit) SOG (unpop) LLMと同様にアイテムのコンテキストを考慮する prof がF1-score最良 2024.05.28 2024年度 人工知能学会全国大会 26 / 29
おわりに 本研究のまとめ LLMを用いたセレンディピティ評価法を提案 人間との一致度は低い(RQ1)が,ベースライン手法と同等以上の性能を示した(RQ2) 今後の展望 プロンプト改良による性能向上 LLMを推薦エージェントとして用いるシミュレーション実験の実施 2024.05.28 2024年度 人工知能学会全国大会 27 / 29
参考文献【1】 [Zheng+, 2015] Q. Zheng, C.-K. Chan, H. H. S. Ip: An Unexpectedness-Augmented Utility Model for Making Serendipitous Recommendation, Proc. of the 15th Int. Conf. on Data Min., pp.216-230, 2015. [Ziarani+, 2021] R. J. Ziarani, R. Ravanmehr: Deep Neural Network Approach for a Serendipity-oriented Recommendation System, Expert Systs. Appls., vol.185, pp.115660, 2021. [Kotkov+, 2020] D. Kotkov, J. Veijalainen, S. Wang: How Does Serendipity Affect Diversity in Recommender Systems? A Serendipity-Oriented Greedy Algorithm, Computing, vol.102, pp.393-411, 2020. [Adamopoulos+, 2014] P. Adamopoulos and A. Tuzhilin: On Unexpectedness in Recommender Systems: Or How to Better Expect the Unexpected, ACM Trans. on Intell. Syst. and Tech. Technol., vol.5, no.4, 2014. [Zuva+, 2017] K. Zuva and T. Zuva: Diversity and Serendipity in Recommender Systems, Proc. of the Int. COnf. on Big Data and Internet of Thing, pp. 120-124, 2017. [Kotkov+, 2018] D. Kotkov, S. Wang and J. Veijalainen: Investigating serendipity in recommender systems based on real user feedback, Proc. of the 33rd Annu. ACM Symp. on Appl. Comput., pp.1341-1350, 2018. [Fu+, 2023] Z. Fu, X. Niu, and L. Yu: Wisdom of Crowds and Fine-Grained Learning for Serendipity Recommendations, Proc. of the 2023 ACM SIGIR Int. Conf. on Theory of Inf. Retr., pp. 739-748, 2023. 2024.05.28 2024年度 人工知能学会全国大会 28 / 29
参考文献【2】 [Hua+, 2023] W. Hua, L. Li, S. Xu, L. Chen, and Y. Zhang: Tutorial on Large Language Models for Recommendation, Proc. of the 17th ACM Conf. on Recomm. Syst., pp.1281-1283, 2023. [Liu+, 2023] J. Liu, C. Liu, P. Zhou, R. Lv, K. Zhou and Y. Zhang: Is ChatGPT a Good Recommender? A Preliminary Study, arXiv preprint, arXiv:2304.10149, 2023. [Xi+, 2023] Y. Xi, W. Liu, J. Lin, X. Cai, H. Zhu, J. Zhu, B. Chen, R. Tang, W. Zhang, R. Zhang and Y. Yu: Towards Open- World Recommendation with Knowledge Augmentation from Large Language Models, arXiv preprint, arXiv:2306:10933, 2023. [Zhang+, 2023] A. Zhang, L. Sheng, Y. Chen, H. Li, Y. Deng, X. Wang, T.-S. Chua: On Generative Agents in Recommendation, arXiv preprint, arXiv:2310.10108, 2023. [Carraro+, 2024] D. Carraro and D. Bridge: Enhancing Recommendation Diversity by Re-ranking with Large Language Models, arXiv preprint, arXiv:2401.11506, 2024. 2024.05.28 2024年度 人工知能学会全国大会 29 / 29