LINE API リファレンスの RAG を作ってみた

1.6K Views

March 07, 25

#RAG #LINE API #自然言語処理 #情報検索 #Webスクレイピング

スライド概要

nodananodanado

@8061678

スライド一覧

エンジニア @ユニークビジョン株式会社

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

猫でも分かるUnreal Engineの学び方 - 超初心者向け編 - 2023 v1.0

ue4 ue5 ue-beginner

エピックゲームズジャパン 1.7M

Unreal Engine5 Lumenの仕組みと肝心なところ

ue5 ue-rendering ue-lumen

エピックゲームズジャパン 1.4M

UE5レンダリングフロー総おさらい(2024) 基礎編！[CEDEC+KYUSHU 2024]

ue5 unreal engine ue-rendering

エピックゲームズジャパン 1.2M

Meta XR SDK(V66-74)でQuestアプリを開発

spatial anchor unity quest pro shaperecognizeractivatestate oculus integration transformfeaturestateprovider building blocks transformrecognizeractivestate ovrsemanticclassification jointdeltaprovider ovrscenemanager jointvelocityactivestate オクルージョン sequenceactivestate scene manager ambisonic depth api metaxraudiosource playerlocomotor meta xr sdk quest3 ovrplayercontroller マルチモーダル meta haptics studio direct touch ui meta xr haptics sdk ovrspatialanchor ovrtrackedkeyboard hapticclipplayer fingerfeaturestateprovider hapticclip ワイドモーションモード wmm mruk mr utility kit voice sdk jointrotationactivestate meta horizon os ui set asw application spacewarp ovr metrics tool unityscene manager colocation discovery コロケーション mx ink passthrough camera api hand tracking microgestures webcamtexturemanager passthroughcamerautils cameraviewermanager hand pose selector recorder

あうぜん 1.2M

猫でも分かる UE5.0, 5.1 におけるアニメーションの新機能について【CEDEC+KYUSHU 2022】

ue5 cedec+kyushu ue-animation ue-optimize ue-bp ue-physics ue-sequencer

エピックゲームズジャパン 1M

最新の6.0で学ぶ！初めてのひとのためのSpring Security

java spring security

tada 1M

各ページのテキスト

LINE API リファレンスの RAG を作ってみた野⽥

⾃⼰紹介野⽥（@nodananodanado） ● ユニークビジョン株式会社でエンジニアをしています ● 昨年まで LINE を活⽤したキャンペーン構築システム「Beluga キャンペーン for LINE」の開発エンジニアをしていました！ ● 趣味は将棋です 👉

動機 ● 弊社ではわからないこと、知りたいこと、を雑に投げると誰かが回答してくれる Slack チャンネルが存在します ● プロダクトについての質問だけではなく、関連する LINE の API の仕様についての質問が投げられることもあります ○ Messaging API や LINE ログイン API についての質問が多いです

Slack チャンネルの様⼦

⾃動化したい！ ● Slack の返信だと即時性がない😢 ● なんとか⾃動化できないか？ ● 今話題の Deep Research なら検索もしてくれるし良さそう！😁

Deep Research では答えられない質問がありました😢 正しくは 5000 ⽂字！

なぜ答えられないか？ ● 答えられない要因を 2 つ推測しました 1. 参照している情報の中に古い情報が混ざっている 2. 動的な DOM 操作後の HTML を取得できていない

1. 参照している情報の中に古い情報が混ざっている ● Deep Research では LLM が参照した情報源が提供されます ● 先ほどの例では 2018 年の Qiita 記事が情報源になっていました ● 調べてみるとテキストメッセージの最⼤⽂字数は 2020 年 5 ⽉に変更されており、古い情報を参照していることがわかりました↓

2. 動的な DOM 操作後の HTML を取得できていない ● テキストメッセージの最⼤⽂字数についての記述は Messaging API リファレンス > テキストメッセージにある ● https://developers.line.biz/ja/reference/messaging-api/#text-message に直接アクセスして取得できる HTML にはその情報が含まれない ● JavaScript が動的に DOM 操作を⾏っている

https://developers.line.biz/ja/reference/messaging-api/#text-message

10.

考えたこと ● 答えられない要因（再掲） 1. 参照している情報の中に古い情報が混ざっている 2. 動的な DOM 操作後の HTML を取得できていない ● 1. 最新のリファレンスに 2. 適切な前処理をした RAG を作成すれば良いのではないか？ ● Retrieval Augmented Generation ○ 検索拡張⽣成

11.

（Naiveな）RAG のアーキテクチャユーザー⽂書ベクトル DB アプリケーション LLM

12.

（Naiveな）RAG のアーキテクチャユーザー ①事前準備ベクトル化⽂書ベクトル DB アプリケーション LLM

13.

（Naiveな）RAG のアーキテクチャ ②検索ユーザー ①質問 ②検索⽂書ベクトル DB アプリケーション LLM

14.

（Naiveな）RAG のアーキテクチャ ②検索ユーザー ①質問 ②検索 ③検索結果⽂書ベクトル DB アプリケーション ④質問 + 検索結果 LLM

15.

（Naiveな）RAG のアーキテクチャ ②検索ユーザー ①質問⽂書ベクトル DB ⑥回答 ②検索 ⑤回答 ③検索結果 ④質問 + 検索結果アプリケーション LLM

16.

今回の対象は Messaging API リファレンス！ユーザー Messaging API リファレンス⽂書ベクトル DB アプリケーション LLM

17.

前処理の⼯夫 ① JavaScript による DOM 操作後の HTML を取得 ② <head> やサイドバーなどの要素を削除ユーザー ③ HTML を Markdown 化 ④ Markdown の⾒出しごとに重複を削除ベクトル化⽂書ベクトル DB アプリケーション LLM

18.

各種モデル‧ベクトルDB ‧埋め込みモデルとして text-embedding-3-small ユーザー ‧ベクトルDBとして FAISS ⽣成モデルとしてをそれぞれ利⽤しました GPT-4o を利⽤しました ①質問ベクトル化⽂書ベクトル DB ⑥回答 ②検索 ⑤回答 ③検索結果 ④質問 + 検索結果アプリケーション LLM

19.

（Naiveな）RAG のアーキテクチャ ②検索 ①事前準備 ①質問ベクトル化⽂書ユーザーベクトル DB ⑥回答 ②検索 ⑤回答 ③検索結果 ④質問 + 検索結果アプリケーション LLM

20.

上⼿くいくのでしょうか...？

21.

結果 ● 無事、正しく答えてくれる RAG ができました！ ○ 前処理の⼯夫をしなかった場合上⼿くいきませんでした ��

22.

いろいろな質問に答えられます ��

23.

感想 ● LINE の公式リファレンスは信頼できる唯⼀の情報源！ ● RAG を作る上では前処理がとても⼤事！ ● この実装だとリファレンスが更新されるたびにドキュメントの取得と前処理をする必要があるため、実⽤化は⾒送りました😢 ○ （リファレンスの検索性が⾼くなるととても嬉しいな...）

24.

ご清聴ありがとうございました！