10.9K Views
May 18, 23
スライド概要
LLM meetup tokyo2
化学・材料・データ・AI・ロボット
研究室にある >数万件の文献を Embed計算して ChatBotに 載せたい話 東京工業大学 物質理工学院 助教 畠山 歓 Twitter: @kanhatakeyama
LLMチャットボットの動作 吾輩は猫であるをEmbedするのに必要なコスト 350k文字 ≒ 350k tokens Ada v2の場合、350 x $0.0004 = $0.14 ≒ 20円 (払えなくはない値段設定。ただし、60回/minの制約が遅い)
I am a catに近い文章を探してみる Vicuna-13 OpenAI (Ada v2) OpenAIの方が当然良いが、ローカルLLMも健闘している印象
言語の越境はやっぱり難しいので、DeepLで質問を英語に翻訳して、英語論文を検索しています
言語の越境はやっぱり難しいので、DeepLで質問を英語に翻訳して、英語論文を検索しています
悩み事:検索精度が微妙 • データ件数が増えると、欲しい文献に辿り着きにくくなる • 特に固有名詞、人名など • 例:「XXYY先生の研究業績について纏めて」 →「その人の名前がヒットしない」 • 今後どうするか • OpenAIのEmbed APIで試してみる • 改善せず。 • 全文検索と併用する • しかしチューニングが面倒そう • 2023/5/20追記: 試行錯誤の過程をNoteに纏めました