20250324_RAGの基礎から実践運用まで：AWS BedrockとLangfuseで実現する構築・監視・評価（後編）

CONFIDENTIAL RAGの基礎から実践運用まで AWS BedrockとLangfuseで実現する構築・監視・評価（後編） CDLE福岡 2025.03.24 瓦祐希 @kawara_y ©Fusic Co., Ltd. 0

はじめに自己紹介株式会社 Fusic 事業本部先進技術部門機械学習チーム瓦祐希 Yuki Kawara • 博士（情報科学） • • • • @kawara_y 2024 Japan AWS Jr. Champions 甲賀忍者検定初級ビール検定三級スパルタンレースによく出没している ©Fusic Co., Ltd. 1

3.

目次 CONTENTS 1. 検索拡張生成（RAG）とは 2. RAGを簡単にAWSで作成する 3. RAGをもっとチューニングする 4. Langfuse で監視する 5. Langfuse で評価を管理する @kawara_y ©Fusic Co., Ltd. 2

4.

目次 CONTENTS 1. 検索拡張生成（RAG）とは 2. RAGを簡単にAWSで作成する 3. RAGをもっとチューニングする 4. Langfuse で監視する 5. Langfuse で評価を管理する @kawara_y ©Fusic Co., Ltd. 3

5.

前編では KB による RAG の構築を行いました。後編では構築した RAG の運用について話します。 ©Fusic Co., Ltd. 4

6.

4 Langfuse で監視する ©Fusic Co., Ltd. 5

7.

LLM を使ったアプリ開発のつらいポイント開発時のデバッグが大変特にエージェントのように複数回入出力を繰り返すアプリでは、LLM の出力に依存して動作する部分もあり、挙動が追いづらい。ユーザーがどう使用しているのかが分からない実際のログを見ないと（読まないと）ユーザがどのような入力をしているのかが把握できない。生成したテキストの品質が分からない定量的な評価が難しく、ユーザーの役に立っているかが確認しづらい。 ©Fusic Co., Ltd. 6

8.

LLM アプリケーションの運用（LLMOps）とは • LLMOps ⊂ FMOps（基盤モデルの運用） • ざっくり言うとテキスト系のモデルを使ったアプリケーションの DevOps （LLM に特化した MLOps だととらえても間違いではない、はず） FMOps/LLMOps：生成系 AI の運用と MLOps との違いより引用 ©Fusic Co., Ltd. 7

https://aws.amazon.com/jp/blogs/news/fmops-llmops-operationalize-generative-ai-and-differences-with-mlops/

9.

LLMOps で実現したい（できる）ことデータの管理 • 開発時や運用時のプロンプトのバージョン管理 • 正解データ（入出力）の作成や管理アプリケーションの監視 • アプリケーションのメトリクス（回数、時間、コストなど）の記録 • LLM の入出力を含めた、一連の履歴（＝トレース）の記録テキストの評価 • 入出力のテキストに対する人間／LLM による評価の記録 ©Fusic Co., Ltd. 8

10.

LLMOps を実現するツール LangSmith (https://www.langchain.com/langsmith) … LangChain 系ツールの一つ。LangChain との連携が容易にできるが、他のライブラリとの連携も可能。（一応）セルフホストも出来る。 LangTrace (https://www.langtrace.ai/) … OpenTelemetry を活用したトレースができる。VectorDB との連携も簡単に行える。 Langfuse (https://langfuse.com/) … SaaS や OSS としても公開されており、セルフホストが可能。 ©Fusic Co., Ltd. 9

11.

LLMOps を実現するツール LangSmith (https://www.langchain.com/langsmith) … LangChain 系ツールの一つ。LangChain との連携が容易にできるが、他のライブラリとの連携も可能。（一応）セルフホストも出来る。 LangTrace (https://www.langtrace.ai/) … OpenTelemetry を活用したトレースができる。VectorDB との連携も簡単に行える。 Langfuse (https://langfuse.com/) … SaaS や OSS としても公開されており、セルフホストが可能。使いたい機能、環境でどれが適しているかは変わりますが、今日は個人的にハマっている Langfuse を紹介します。 ©Fusic Co., Ltd. 10

12.

Langfuse って？オープンソースの LLM エンジニアリングプラットフォーム Langfuse ホームページのトップ ©Fusic Co., Ltd. 11

https://langfuse.com/

13.

Langfuse って？オープンソースの LLM エンジニアリングプラットフォーム入出力に対して評価を行える機能プロンプトを管理できる機能入出力のやりとりを記録できる機能ファインチューニングや評価のためのデータセットを管理できる機能一つの画面で複数の LLM を試せる機能かかった時間や料金などを記録できる機能 Langfuse ホームページのトップ ©Fusic Co., Ltd. 12

https://langfuse.com/

14.

Langfuse って？オープンソースの LLM エンジニアリングプラットフォーム今日はこの辺りに触れます。入出力に対して評価を行える機能プロンプトを管理できる機能入出力のやりとりを記録できる機能ファインチューニングや評価のためのデータセットを管理できる機能一つの画面で複数の LLM を試せる機能かかった時間や料金などを記録できる機能 Langfuse ホームページのトップ ©Fusic Co., Ltd. 13

https://langfuse.com/

15.

Langfuse って？オープンソースの LLM エンジニアリングプラットフォーム Python や TS の SDK が用意されていたり、 LangChain, LangGraph, LlamaIndex と連携出来たり、 AWS や Google Cloud のようなベンダー、 Dify のようなローコードツールとの連携も出来る今使っている開発ツールに簡単に組み込むことが可能 Langfuse ホームページのトップ ©Fusic Co., Ltd. 14

https://langfuse.com/

16.

LLM を使ったアプリ開発のつらいポイント開発時のデバッグが大変特にエージェントのように複数回入出力を繰り返すアプリでは、LLM の出力に依存して動作する部分もあり、挙動が追いづらい。ユーザーがどう使用しているのかが分からない実際のログを見ないと（読まないと）ユーザがどのような入力をしているのかが把握できない。生成したテキストの品質が分からない定量的な評価が難しく、ユーザーの役に立っているかが確認しづらい。全部 Langfuse を使って解決できる ©Fusic Co., Ltd. 15

17.

Langfuse で記録してみる • observe デコレータを付けるだけで入出力を記録してくれる。 ©Fusic Co., Ltd. 16

18.

Langfuse で記録してみる • observe デコレータを付けるだけで入出力を記録してくれる。 ©Fusic Co., Ltd. 17

19.

Langfuse で記録してみる • observe デコレータを付けるだけで入出力を記録してくれる。 • メタデータの紐づけが可能 ©Fusic Co., Ltd. 18

20.

Langfuse で記録してみる • observe デコレータを付けるだけで入出力を記録してくれる。 • メタデータの紐づけが可能 ©Fusic Co., Ltd. 19

21.

Knowledge Bases と Langfuse の連携 • Knowledge Bases の retrieve_and_generate を叩くと、AWS 側で検索、生成まで行ってくれるので便利な反面、トレースの記録がちょっと微妙 → Langfuse 側に記録出来るのは、叩く側での処理なので、よしなにやってくれるサービスと連携する場合は工夫する必要がある • 今までのスライドは Langfuse の基本的な使い方を説明するために retrieve_and_generate を使っていたが、KB を Langfuse と絡める場合には LangChain を使う方が便利 ©Fusic Co., Ltd. 20

22.

Knowledge の Langfuse に投げる • observe デコレータを付けるだけで入出力を記録してくれる。 • メタデータの紐づけが可能 • LangChain のモジュールを使うことで、検索から生成までのトレースを記録することが出来る。（裏側では retrieve API を叩いて、その結果をもとに生成している） ©Fusic Co., Ltd. 21

23.

Knowledge の Langfuse に投げる • observe デコレータを付けるだけで入出力を記録してくれる。 • メタデータの紐づけが可能 • LangChain のモジュールを使うことで、検索から生成までのトレースを記録することが出来る。（裏側では retrieve API を叩いて、その結果をもとに生成している） • LangChain 系と連携する場合は CallbackHandler を使うと楽 ©Fusic Co., Ltd. 22

24.

Knowledge の Langfuse に投げる • observe デコレータを付けるだけで入出力を記録してくれる。 • メタデータの紐づけが可能 • LangChain のモジュールを使うことで、検索から生成までのトレースを記録することが出来る。（裏側では retrieve API を叩いて、その結果をもとに生成している） • LangChain 系と連携する場合は CallbackHandler を使うと楽 ©Fusic Co., Ltd. 23

25.

Knowledge の Langfuse に投げる • observe デコレータを付けるだけで入出力を記録してくれる。 • メタデータの紐づけが可能 • LangChain のモジュールを使うことで、検索から生成までのトレースを記録することが出来る。（裏側では retrieve API を叩いて、その結果をもとに生成している） • LangChain 系と連携する場合は CallbackHandler を使うと楽 ©Fusic Co., Ltd. 24

26.

5 Langfuse で評価を管理する ©Fusic Co., Ltd. 25

27.

4 章では Langfuse で監視をしました（特に LLM アプリケーションの入出力の記録） 5 章では入出力の評価をします ©Fusic Co., Ltd. 26

28.

Langfuse によるスコア管理外部で評価したスコアを Langfuse に登録 Langfuse 上で評価入出力のペア入出力のペア外部のシステム 4 点！ 4 点！ ©Fusic Co., Ltd. 27

29.

Langfuse によるスコア管理外部で評価したスコアを Langfuse に登録 Langfuse 上で評価入出力のペア入出力のペア外部のシステム 4 点！ 4 点！ ©Fusic Co., Ltd. 28

30.

RAGAS について • LLM のアプリケーションの評価を行うためのライブラリ • “RAG”AS とあるように、RAG アプリケーションの評価を行うための関数が豊富に用意されており、他にもツールを使用するエージェントの評価などもできるようになっている RAGAS に用意されている RAG 用の指標評価指標何を測定できるか Context Precision 関連するドキュメントがより高い順位にランク付けされているか Context Recall 関連するドキュメントがどの程度検索できているか Context Entities Recall エンティティ（地名、人名、年代など）がどの程度検索できているか Noise Sensitivity ドキュメントからテキストを生成した際にどの程度間違いが起きるか Response Relevancy 生成したテキストが入力テキストに対してどの程度適切であるか Faithfulness 関連ドキュメントに基づいた生成が出来ているか Multimodal Faithfulness 画像とテキストに基づいた生成が出来ているか Multimodal Relevance 生成したテキストが入力テキストと画像に対してどの程度適切であるか ©Fusic Co., Ltd. 29

31.

RAGAS を用いた評価 • AspectCritic では自然言語で記述した観点で二クラス分類をすることが可能（右のコードでは要約が正確かどうか） • BLUE や ROUGE のように以前からよく使用されていたような評価方法や、LLMas-a-judge での評価を数行で実装できる • 基本的には SingleTurnSample にデータを突っ込んで評価の関数に渡すだけ → 評価データの形式を統一して扱える https://docs.ragas.io/en/stable/getstarted/evals/ よりコードを引用 ©Fusic Co., Ltd. 30

https://docs.ragas.io/en/stable/getstarted/evals/

32.

RAGAS を用いた評価 • AspectCritic では自然言語で記述した観点で二クラス分類をすることが可能（右のコードでは要約が正確かどうか） • BLUE や ROUGE のように以前からよく使用されていたような評価方法や、LLMas-a-judge での評価を数行で実装できる • 基本的には SingleTurnSample にデータを突っ込んで評価の関数に渡すだけ → 評価データの形式を統一して扱える https://docs.ragas.io/en/stable/getstarted/evals/ よりコードを引用 ©Fusic Co., Ltd. 31

https://docs.ragas.io/en/stable/getstarted/evals/

33.

RAGAS を用いた評価 • AspectCritic では自然言語で記述した観点で二クラス分類をすることが可能（右のコードでは要約が正確かどうか） • BLUE や ROUGE のように以前からよく使用されていたような評価方法や、LLMas-a-judge での評価を数行で実装できる • 基本的には SingleTurnSample にデータを突っ込んで評価の関数に渡すだけ → 評価データの形式を統一して扱える https://docs.ragas.io/en/stable/getstarted/evals/ よりコードを引用 ©Fusic Co., Ltd. 32

https://docs.ragas.io/en/stable/getstarted/evals/

34.

Langfuse のデータセットを RAGAS で評価する例 • Langfuse 上で管理しているデータセットを取ってきて評価 • 取ってきたデータに対して RAGAS で評価し、そのスコアを Langfuse に登録することが出来る • データセット名に空白が入ると取ってこれない（現在の仕様っぽい？） ©Fusic Co., Ltd. 33

35.

Langfuse のデータセットを RAGAS で評価する例 • Langfuse 上で管理しているデータセットを取ってきて評価 • 取ってきたデータに対して RAGAS で評価し、そのスコアを Langfuse に登録することが出来る • データセット名に空白が入ると取ってこれない（現在の仕様っぽい？） ©Fusic Co., Ltd. 34

36.

Langfuse のデータセットを RAGAS で評価する例 • Langfuse 上で管理しているデータセットを取ってきて評価 • 取ってきたデータに対して RAGAS で評価し、そのスコアを Langfuse に登録することが出来る • データセット名に空白が入ると取ってこれない（現在の仕様っぽい？） ©Fusic Co., Ltd. 35

37.

Langfuse によるスコア管理外部で評価したスコアを Langfuse に登録 Langfuse 上で評価入出力のペア入出力のペア外部のシステム 4 点！ 4 点！ ©Fusic Co., Ltd. 36

38.

Langfuse 上での評価（人手編） • 設定の “Scores / Evaluations” からスコアの設定ができる（設定自体は消せないので慎重に） ©Fusic Co., Ltd. 37

39.

Langfuse 上での評価（人手編） • 設定の “Scores / Evaluations” からスコアの設定ができる（設定自体は消せないので慎重に） • スコアのタイプは三種類用意されている（NUMERIC／CATEGORICAL／BOOLEAN） ©Fusic Co., Ltd. 38

40.

Langfuse 上での評価（人手編） • Langfuse 上での人手評価のタイミングは二種類 • トレースを開いてその場で評価 • キューに入れて後で評価 ©Fusic Co., Ltd. 39

41.

Langfuse 上での評価（人手編） • Langfuse 上での人手評価のタイミングは二種類 • トレースを開いてその場で評価 • キューに入れて後で評価トレースの一つを選択し “Annotate” を押す ©Fusic Co., Ltd. 40

42.

43.

44.

45.

Langfuse 上での評価（人手編） • Langfuse 上での人手評価のタイミングは二種類 • トレースを開いてその場で評価 • キューに入れて後で評価キューを開いて “Process queue” で評価を開始 ©Fusic Co., Ltd. 44

46.

Langfuse 上での評価（人手編） • Langfuse 上での人手評価のタイミングは二種類 • トレースを開いてその場で評価 • キューに入れて後で評価追加されたトレース結果に対してスコアを付与することで評価できる ©Fusic Co., Ltd. 45

47.

Langfuse 上での評価（LLM-as-a-judge 編） • Langfuse 上から LLM に投げてスコアを記録することも出来る。設定から API Key を登録することで OpenAI や Anthropic の API を叩くことが可能 https://langfuse.com/docs/scores/model-based-evals より引用 ©Fusic Co., Ltd. 46

https://langfuse.com/docs/scores/model-based-evals

48.

49.

Langfuse 上での評価（LLM-as-a-judge 編） • Langfuse 上から LLM に投げてスコアを記録することも出来る。 Langfuse で用意されている評価用のプロンプトが使用できる（もちろん自分で定義することも可能）プロンプト内で変数も使用可能 ©Fusic Co., Ltd. 48

50.

51.

Langfuse 上での評価（LLM-as-a-judge 編） • Langfuse 上から LLM に投げてスコアを記録することも出来る。プロンプト内の変数に対して何を割り当てるかの設定データセットのアイテムをそのまま変数に割り当てたり、 JsonPath を使ってアイテムの一部分を割り当てたりできる ©Fusic Co., Ltd. 50

52.

Langfuse 上での評価（LLM-as-a-judge 編） • Langfuse 上から LLM に投げてスコアを記録することも出来る。データセットやトレースをどの程度評価するかの割合本番運用時には全部を評価するとコストがかかるので実際のリクエストのいくつかをサンプリングして評価することが一般的 ©Fusic Co., Ltd. 51

53.

Langfuse 上での評価（LLM-as-a-judge 編） • プロンプトを改良してよりよくなったかを測定してみるプロンプトの画面の右上の “Experiment” から、プロンプトをデータセットに適用した出力の評価を実行できる ©Fusic Co., Ltd. 52

54.

55.

Langfuse 上での評価（LLM-as-a-judge 編） • プロンプトを改良してよりよくなったかを測定してみる • 評価が終了すると Evaluator で確認できる。 • 実行結果は自動でトレースに記録されるので、より詳細な分析も可能。 ©Fusic Co., Ltd. 54

56.

Langfuse 上での評価（LLM-as-a-judge 編） • プロンプトを改良してよりよくなったかを測定してみる • 評価が終了すると Evaluator で確認できる。 • 実行結果は自動でトレースに記録されるので、より詳細な分析も可能。 ©Fusic Co., Ltd. 55

57.

Langfuse 上での評価（LLM-as-a-judge 編） • プロンプトを改良してよりよくなったかを測定してみる • 評価が終了すると Evaluator で確認できる。 • 実行結果は自動でトレースに記録されるので、より詳細な分析も可能。 ©Fusic Co., Ltd. 56

58.

59.

後編のまとめ Point 01 Langfuse を使うことでアプリケーションの開発、運用（LLMOps）を簡単に行うことが出来る。 Point 02 このスライドでは Langfuse を使って入出力の履歴の保存や評価を行う方法について話した。 Point 03 Langfuse 上で評価が出来るので、キューにデータを入れてアノテーターに割り当てるというような運用も可能。 @kawara_y ©Fusic Co., Ltd. 58

60.

https://recruit.fusic.co.jp/

20250324_RAGの基礎から実践運用まで：AWS BedrockとLangfuseで実現する構築・監視・評価（後編）

Yuki Kawara

関連スライド

LM Studio + VSCode でローカル LLM にコードを書かせてみる

20250312_LLM-Meetup-Fukuoka

20250313_AsiaQuest×Fusic勉強会

猫でも分かるUnreal Engineの学び方 - 超初心者向け編 - 2023 v1.0

Unreal Engine5 Lumenの仕組みと肝心なところ

Meta XR SDK(V66-74)でQuestアプリを開発

各ページのテキスト