大規模言語モデルを用いた推薦システムにおけるセレンディピティ判断の検討

大規模言語モデルを用いた推薦システムにおけるセレンディピティ判断の検討徳武悠，岡本一志電気通信大学大学院情報理工学研究科情報学専攻 2024.05.28 2024年度人工知能学会全国大会 1 / 29

目次序論セレンディピティ指向推薦システム・研究課題提案手法タスク定義・プロンプト実験設定データセット・ベースライン手法結果と考察人間の評価との一致度・ベースライン手法との比較

はじめに情報推薦システム多数のアイテムの中からユーザの嗜好に合ったアイテムを提案し意思決定を支援システムの有用性を測定する主な指標として推薦精度を使用過剰専門化ユーザの嗜好に過剰し，似たようなアイテムを推薦し続ける原因：推薦精度の過度な追求問題自分の好みから逸脱したアイテムの探索を躊躇ユーザ満足度の低下 ↓ セレンディピティに着目した推薦システムが提案 2024.05.28 2024年度人工知能学会全国大会 4 / 29

5.

セレンディピティ指向推薦システムセレンディピティ：偶然によって思いがけず価値あるものを発見する能力推薦システムにおけるセレンディピティや評価指標に統一された定義は存在しないが長期間・様々なドメインで研究システム先行研究では構成要素（例：関連性・意外性）の組み合わせとして捉える主なアルゴリズム行列分解 [Zheng+, 2015] 深層学習 [Zhang+, 2021] リランキング [Kotkov+, 2020] オフライン評価指標 [Adamopoulos+, 2014] Ser(Ru) = (Ru - Eu) ∩ USEFULu / |Ru| [Zuva+, 2017] Unserendipityu = Σu∈U 1 / |U||Hu| Σh∈Hu Σi∈Ru cos(i, h) / |Ru| 2024.05.28 2024年度人工知能学会全国大会 5 / 29

6.

研究課題ユーザの推薦されたアイテムに対するセレンディピティを評価することは困難推薦精度閲覧・購入・評価等のフィードバックが与えられるセレンディピティフィードバックは観測できない理想：推薦結果に対するユーザスタディによる評価 [Kotkov+, 2018][Fu+, 2023] 人的コストが高い実施する環境によって回答が変化する恐れ → 人間の代替となる自動評価手法が必要 2024.05.28 2024年度人工知能学会全国大会 6 / 29

7.

研究課題アイデア大規模言語モデル（LLM）を用いてセレンディピティを評価幅広いタスクで高い性能を示す人間に近い応答を実現できると期待メリット共通した評価フレームワークとして利用可能推薦結果を多くの人が評価可能 2024.05.28 2024年度人工知能学会全国大会 7 / 29

8.

リサーチクエスチョン LLMを推薦結果のセレンディピティ評価に利用する前に，その応用可能性を検証 ↓ 1. LLMベースのセレンディピティ評価は，人間の評価とどの程度一致しているのか？ 2. LLMはベースライン手法と比較して，どの程度優れているのか？本研究 LLMを用いた推薦アイテムのセレンディピティ評価法を提案セレンディピティの定義を与えることなく推論 LLMに与える情報を変化させることで異なるタイプのプロンプトを設計人間による評価を含むベンチマークデータセットを用いて性能を評価 2024.05.28 2024年度人工知能学会全国大会 8 / 29

9.

先行研究 - LLMを用いた推薦システム Huaらの分類 [Hua+, 2023] タイプ使用例先行研究 LLM as RS LLM自身を推薦システムとする ChatGPT [Liu+, 2023] LLM in RS 特徴量抽出器 KAR [Xi+, 2023] RS in LLM 推薦エージェント Agent4Rec [Zhang+, 2023] 精度以外の指標 [Carraro+, 2024]：推薦結果の多様性を向上させるためにLLMを用いたリランキング手法を提案セレンディピティ推薦でLLMを用いた手法は存在しない → 本研究の取り組み自体が新規性を持つ 2024.05.28 2024年度人工知能学会全国大会 9 / 29

10.

目次序論セレンディピティ指向推薦システム・研究課題提案手法タスク定義・プロンプト実験設定データセット・ベースライン手法結果と考察人間の評価との一致度・ベースライン手法との比較

11.

タスク定義目的：ユーザuの評価履歴 Iu と推薦アイテムiを与え，iがセレンディピティか否かを判断目的関数f 1. 出力が2値（提案手法） f(Iu, i) = { 1 if i is serendipitous for u, 0 otherwise } (1) 2. 出力が連続値（ベースライン手法） f(Iu, i) = s, s ∈ [0, 1] (2) 式(2)の場合は，閾値を設定して2値化本タスクでは推薦リスト全体ではなく，個々のアイテムに対して評価を行う 2024.05.28 2024年度人工知能学会全国大会 11 / 29

12.

提案手法 - フレームワーク fにLLMを用いた fLLM を提案推薦アイテム i 評価履歴 Iu アイテム属性 fLLM Yes / No (波線は本タスクでは対象外) 2024.05.28 2024年度人工知能学会全国大会 12 / 29

13.

[beta]

提案手法 - プロンプト
後述するデータセットから正例と負例を1件ずつ
サンプリングし，few-shotによる推論
LLMの知識と推論能力を検証するため，
「セレンディピティ」の定義は与えない
評価履歴 Iu と推薦アイテム i の情報
アイテム名
ユーザが付与した評価値（i は予測値）
ジャンル
Please judge whether 'recommended_movie' is serendipitous or not
given 'user_rated_movies'.
## Background
* You use a movie rating platform and have rated some movies.
* Now the movie is recommended based on your rating history from
the platform.
* You are given the {title, rating, genres} of the recommended movie
and rated movies.
* The rating history is comma-separated and sorted from oldest to
newest.
## Output Format
* You should answer just 'Yes' or 'No' after the 'is_serendipitous: '
prefix.
* Generate only the requested output, don't include any other
language before or after the requested output.
## Examples
### Example 1
user_rated_movies: {user_rated_movies_example1}
recommended_movie: {recommended_movie_example1}
is_serendipitous: Yes
### Example 2
user_rated_movies: {user_rated_movies_example2}
recommended_movie: {recommended_movie_example2}
is_serendipitous: No
## Response
user_rated_movies: {user_rated_movies}
recommended_movie: {recommended_movie}
is_serendipitous:
2024.05.28
2024年度 人工知能学会全国大会
13 / 29

14.

提案手法 - プロンプト様々な種類の情報を組み合わせることで，異なるタイプのプロンプトを設計タイプアイテム名評価値ジャンル具体例 implicit ○ × × "Gosford Park, War Dogs, ..." explicit ○ ○ × "(Gosford Park, 3.0), ..." implicit with genres ○ × ○ "(Gosford Park, [Comedy, Drama], ..." explicit with genres ○ ○ ○ "(Gosford Park, 3.0, [Comedy, Drama], ..." プロンプトには評価履歴の直近n件のアイテムの情報を与える（実験では n = 10） 2024.05.28 2024年度人工知能学会全国大会 14 / 29

15.

目次序論セレンディピティ指向推薦システム・研究課題提案手法タスク定義・プロンプト実験設定データセット・ベースライン手法結果と考察人間の評価との一致度・ベースライン手法との比較

16.

評価実験 2値分類タスクの性能評価目的：提案手法の分類性能を確認し，ベースライン手法と比較手法：データセット内のユーザのセレンディピティに関する評価から正解ラベルを作成し，予測結果との精度を評価実験設定 LLM GPT-3.5 (gpt-3.5-turbo-0613) Llama2-13B-Chat データセット Serendipity-2018*1：ユーザスタディを実施した唯一利用可能なデータセット（ドメイン：映画） #users #items #feedbacks 481 104,661 2,150 *1: Serendipity-2018 Dataset [Kotkov+, 2018] https://grouplens.org/datasets/serendipity-2018/ 2024.05.28 2024年度人工知能学会全国大会 16 / 29

17.

データセット No 説明（和訳） Q1 この映画について初めて聞いたのは、MovieLensが推薦してくれたときです。 Q2 MovieLensがこの映画を見る決め手になりました。 Q3 初めてこの映画を見る前に楽しみにしていました。 Q4 これは私が自分では見つけられないタイプの映画です。MovieLensのような推薦システムが必要です。 Q5 この映画は通常見る映画と異なります（スタイル、ジャンル、テーマなど）。 Q6 MovieLensがこの映画を推薦してくれたことに驚きました。 Q7 この映画を見てよかったです。 Q8 この映画を見て自分の好みが広がりました。今ではより幅広い種類の映画に興味があります。各質問は5段階で評価（1：強くそう思わない～5：強くそう思う）前処理：ユーザがアイテムをセレンディピティと判断したかを示す2値ラベルを作成正例：277件負例：1,873件 2024.05.28 2024年度人工知能学会全国大会 17 / 29

18.

ベースライン手法 Serendipity-Oriented Greedy (SOG) [Kotkov+, 2020] を用いる特異値分解（SVD）で得られた推薦リストをリランキング推薦リスト内のアイテムにスコアを付与し，貪欲に選択 scoreuiB = αrel · r̂ui + αdiv · diviB + αprof · profui + αunpop · unpopi スコア名概要 score SOGのリランキングスコア (r̂ui はSVDによる予測評価値) profui ユーザの閲覧履歴 Iu とアイテム i のコンテキスト非類似度 unpopi 訓練データにおけるアイテム i の不人気度 2024.05.28 2024年度人工知能学会全国大会 18 / 29

19.

ベースライン手法各スコアから識別器 fscore, fprof, funpop を作成 (f ∈ [0, 1]) diviB：推薦リスト B とアイテム i のコンテキスト非類似度本タスクでは B が定義できないため，diviB = 0 として fscore を算出 fscore(Iu, i) = 0.9 · r̂ui + 0.7 · profui + 0.7 · unpopi fprof(Iu, i) = profui funpop(Iu, i) = unpopi パラメータ α* は元論文に基づき設定閾値を設定し，2値化。上位q% (5 ≤ q ≤ 95) のアイテムを正例とする 2024.05.28 2024年度人工知能学会全国大会 19 / 29

20.

評価指標正解ラベルの不均衡を考慮し，Macro-F1スコアを用いる Accuracy : TP + TN / TP + TN + FP + FN F1-score : TP / 2TP + FP + FN + TN / 2TN + FP + FN g：正解ラベル, g ∈ {0, 1} TP：真陽性数 (f = 1 ∧ g = 1), TN：真陰性数 (f = 0 ∧ g = 0), FP：偽陽性数 (f = 1 ∧ g = 0), FN：偽陰性数 (f = 0 ∧ g = 1) 2024.05.28 2024年度人工知能学会全国大会 20 / 29

21.

目次序論セレンディピティ指向推薦システム・研究課題提案手法タスク定義・プロンプト実験設定データセット・ベースライン手法結果と考察人間の評価との一致度・ベースライン手法との比較

22.

RQ1：人間の評価との一致度【1】 LLM Llama2-13B-Chat GPT-3.5 正解ラベルの不均衡が部分的に影響しているが，人間の評価との一致度は低い 2024.05.28 2024年度人工知能学会全国大会 22 / 29

23.

RQ1：人間の評価との一致度【2】 (a) implicit (b) explicit (c) implicit w/ genres (d) explicit w/ genres Confusion Matrix - Llama2-13B-Chat (a) implicit (b) explicit (c) implicit w/ genres (d) explicit w/ genres Confusion Matrix - GPT-3.5 LLMの出力はpositive (TP + FP) またはnegative (TN + FN) に偏る 2024.05.28 2024年度人工知能学会全国大会 23 / 29

24.

RQ1：人間の評価との一致度【2】 (a) implicit (b) explicit (c) implicit w/ genres (d) explicit w/ genres Confusion Matrix - Llama2-13B-Chat (a) implicit (b) explicit (c) implicit w/ genres (d) explicit w/ genres Confusion Matrix - GPT-3.5 ジャンル情報を明示的に含めることで，性能向上 2024.05.28 2024年度人工知能学会全国大会 24 / 29

25.

RQ2：ベースライン手法との比較 GPT-3.5 (implicit w/ genres) Llama2-13B-Chat (implicit w/ genres) GPT-3.5 (explicit w/ genres) SOG (prof) GPT-3.5 (implicit) SOG (score) GPT-3.5 (explicit) Llama2-13B-Chat (implicit) SOG (unpop) 運用環境では，SOGスコアの適切な閾値を決定することは困難（図：最大値） → 同等以上の性能を示したLLMベースの評価は重要 2024.05.28 2024年度人工知能学会全国大会 25 / 29

26.

RQ2：ベースライン手法との比較 GPT-3.5 (implicit w/ genres) Llama2-13B-Chat (implicit w/ genres) GPT-3.5 (explicit w/ genres) SOG (prof) GPT-3.5 (implicit) SOG (score) GPT-3.5 (explicit) Llama2-13B-Chat (implicit) SOG (unpop) LLMと同様にアイテムのコンテキストを考慮する prof がF1-score最良 2024.05.28 2024年度人工知能学会全国大会 26 / 29

27.

おわりに本研究のまとめ LLMを用いたセレンディピティ評価法を提案人間との一致度は低い（RQ1）が，ベースライン手法と同等以上の性能を示した（RQ2）今後の展望プロンプト改良による性能向上 LLMを推薦エージェントとして用いるシミュレーション実験の実施 2024.05.28 2024年度人工知能学会全国大会 27 / 29

28.

参考文献【1】 [Zheng+, 2015] Q. Zheng, C.-K. Chan, H. H. S. Ip: An Unexpectedness-Augmented Utility Model for Making Serendipitous Recommendation, Proc. of the 15th Int. Conf. on Data Min., pp.216-230, 2015. [Ziarani+, 2021] R. J. Ziarani, R. Ravanmehr: Deep Neural Network Approach for a Serendipity-oriented Recommendation System, Expert Systs. Appls., vol.185, pp.115660, 2021. [Kotkov+, 2020] D. Kotkov, J. Veijalainen, S. Wang: How Does Serendipity Affect Diversity in Recommender Systems? A Serendipity-Oriented Greedy Algorithm, Computing, vol.102, pp.393-411, 2020. [Adamopoulos+, 2014] P. Adamopoulos and A. Tuzhilin: On Unexpectedness in Recommender Systems: Or How to Better Expect the Unexpected, ACM Trans. on Intell. Syst. and Tech. Technol., vol.5, no.4, 2014. [Zuva+, 2017] K. Zuva and T. Zuva: Diversity and Serendipity in Recommender Systems, Proc. of the Int. COnf. on Big Data and Internet of Thing, pp. 120-124, 2017. [Kotkov+, 2018] D. Kotkov, S. Wang and J. Veijalainen: Investigating serendipity in recommender systems based on real user feedback, Proc. of the 33rd Annu. ACM Symp. on Appl. Comput., pp.1341-1350, 2018. [Fu+, 2023] Z. Fu, X. Niu, and L. Yu: Wisdom of Crowds and Fine-Grained Learning for Serendipity Recommendations, Proc. of the 2023 ACM SIGIR Int. Conf. on Theory of Inf. Retr., pp. 739-748, 2023. 2024.05.28 2024年度人工知能学会全国大会 28 / 29

29.

参考文献【2】 [Hua+, 2023] W. Hua, L. Li, S. Xu, L. Chen, and Y. Zhang: Tutorial on Large Language Models for Recommendation, Proc. of the 17th ACM Conf. on Recomm. Syst., pp.1281-1283, 2023. [Liu+, 2023] J. Liu, C. Liu, P. Zhou, R. Lv, K. Zhou and Y. Zhang: Is ChatGPT a Good Recommender? A Preliminary Study, arXiv preprint, arXiv:2304.10149, 2023. [Xi+, 2023] Y. Xi, W. Liu, J. Lin, X. Cai, H. Zhu, J. Zhu, B. Chen, R. Tang, W. Zhang, R. Zhang and Y. Yu: Towards Open- World Recommendation with Knowledge Augmentation from Large Language Models, arXiv preprint, arXiv:2306:10933, 2023. [Zhang+, 2023] A. Zhang, L. Sheng, Y. Chen, H. Li, Y. Deng, X. Wang, T.-S. Chua: On Generative Agents in Recommendation, arXiv preprint, arXiv:2310.10108, 2023. [Carraro+, 2024] D. Carraro and D. Bridge: Enhancing Recommendation Diversity by Re-ranking with Large Language Models, arXiv preprint, arXiv:2401.11506, 2024. 2024.05.28 2024年度人工知能学会全国大会 29 / 29

大規模言語モデルを用いた推薦システムにおけるセレンディピティ判断の検討

Okamoto Lab. (The Univ. of Electro-Communications)

関連スライド

Is it really complementary? Revisiting behavior-based labels for complementary recommendation

アスペクトに着目した読者に影響を与える映画レビューの分析

深層学習を用いた物件外観画像による築年代推定法の検討

Evaluation of session segmentation methods using behavior and text embeddings

大規模言語モデルを用いた料理レシピの曖昧表現補完

大規模言語モデルによる商品利用シナリオの生成と評価

各ページのテキスト