LLMはぎなた読みを生成できるのか？

5.3K Views

August 23, 24

#LLM #自然言語処理 #ぎなた読み #promptfoo #AI評価

スライド概要

【JDLA後援】 DL/ML CAMP　by株式会社松尾研究所にて発表

https://connpass.com/event/327400/

(株)松尾研究所

@MatsuoInstitute

スライド一覧

株式会社松尾研究所のスライドを共有します

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

KaggleMasterになるまでを振り返る

(株)松尾研究所 13.2K

AIエージェントの精度を担保・改善する仕組みエージェントハーネスとは

(株)松尾研究所 3.1K

猫でも分かるUnreal Engineの学び方 - 超初心者向け編 - 2023 v1.0

ue4 ue5 ue-beginner

エピックゲームズジャパン 1.7M

Unreal Engine5 Lumenの仕組みと肝心なところ

ue5 ue-rendering ue-lumen

エピックゲームズジャパン 1.5M

UE5レンダリングフロー総おさらい(2024) 基礎編！[CEDEC+KYUSHU 2024]

ue5 unreal engine ue-rendering

エピックゲームズジャパン 1.3M

Meta XR SDK(V66-74)でQuestアプリを開発

spatial anchor unity quest pro shaperecognizeractivatestate oculus integration transformfeaturestateprovider building blocks transformrecognizeractivestate ovrsemanticclassification jointdeltaprovider ovrscenemanager jointvelocityactivestate オクルージョン sequenceactivestate scene manager ambisonic depth api metaxraudiosource playerlocomotor meta xr sdk quest3 ovrplayercontroller マルチモーダル meta haptics studio direct touch ui meta xr haptics sdk ovrspatialanchor ovrtrackedkeyboard hapticclipplayer fingerfeaturestateprovider hapticclip ワイドモーションモード wmm mruk mr utility kit voice sdk jointrotationactivestate meta horizon os ui set asw application spacewarp ovr metrics tool unityscene manager colocation discovery コロケーション mx ink passthrough camera api hand tracking microgestures webcamtexturemanager passthroughcamerautils cameraviewermanager hand pose selector recorder

あうぜん 1.2M

各ページのテキスト

DL/ML CAMP by 株式会社松尾研究所 LLMはぎなた読みを生成できるのか？ - promptfooを用いた生成 AIテストシニアデータサイエンティスト長谷航記 ©MATSUO INSTITUTE, INC.

自己紹介職務経歴 2015~2020：日系メーカーにて機械学習の研究開発 2020~2024：日経メーカーにて機械学習の研究開発 2021~ ：ビジネスマン向けDS教育ベンチャー 2024~ ：松尾研究所にてAI技術開発松尾研究所での業務長谷航記松尾研究所シニアデータサイエンティスト入社2024年4月1日生成AIを活用したプロダクト開発、業務変革趣味仕事、Kaggle(chome0910🥈x1)、車・バイク ©MATSUO INSTITUTE, INC. 2

みなさん、ぎなた読みって知っていますか？ ©MATSUO INSTITUTE, INC. 3

ぎなた読みとは精選版日本国語大辞典より(引用) ぎなた-よみ【名詞】 ( 「弁慶が、なぎなたを持って」と句切るべきところを「弁慶がな、ぎなたを持って」と誤って句切りを付けて読んだという昔話から ) 文の句切りを間違えて読むこと。 → 同じ読み方でも区切り方を変えると違った意味になる例) ねえちゃんとふろはいった？弊社Slackでの一幕 ©MATSUO INSTITUTE, INC. 4

https://kotobank.jp/word/ぎなた読み-475047#:~:text=ぎなた‐よみ【ぎなた,弁慶読み。

クイズです！以下のひらがなに対し、2通りの解釈を考えてください。すずきさんじゅうななさい ©MATSUO INSTITUTE, INC. 5

クイズです！以下のひらがなに対し、2通りの解釈を考えてください。すずきさんじゅうななさい ● 鈴木さん17歳 ● 鈴木37歳 ©MATSUO INSTITUTE, INC. 6

クイズです！以下のひらがなに対し、2通りの解釈を考えてください。きょうじゅうにみたい ©MATSUO INSTITUTE, INC. 7

クイズです！以下のひらがなに対し、2通りの解釈を考えてください。きょうじゅうにみたい ● 今日中に見たい ● 教授ウニみたい ©MATSUO INSTITUTE, INC. 8

ここで疑問が湧き上がります LLMはぎなた読みを生成できるの？ ©MATSUO INSTITUTE, INC. 9

10.

LLMの出力メカニズムとぎなた読み生成イメージ東京 LLMの出力メカニズム日本これまでの入出力を加味して次の単語の生起確率を予測し文章を生成している LLMによるぎなた読みの生成イメージプロンプトと最初の解釈(尤もらしい変換案)から別の解釈を文頭から順番に予測し、条件を満たす回答を生成する結構難しいのでは？ ©MATSUO INSTITUTE, INC. 京都の LLM 首都は東京入力出力プロンプト例「以下のぎなた読みの解釈を 2通り適切に変換して答えよ：すずきさんじゅうななさい」ぎなた読みが成立する条件 ● 意味が異なること ● 読み方は同じであること 10

11.

ぎなた読みを LLMが生成できるのかの検証ひらがなの短文が与えられた時に2通りの解釈を生成できるかを検証入力：プロンプト +ひらがな出力：2通りの変換結果すずきさんじゅうななさい ● 鈴木さん17歳 ● 鈴木37歳 ©MATSUO INSTITUTE, INC. 11

12.

LLMの評価ツール promptfoo 複数のプロンプト、LLM、テストケースを組み合わせた自動実験が可能なLLM評価管理のためのライブラリプロンプト LLMモデル (RAG) テスト特徴 ● 多様なLLMで同時検証可能 ○ API, Local LLM ● 多様な評価方法 ○ 一致、含有、LLM as a judge ● GUIによる評価結果の確認 (localhostで安心) https://www.promptfoo.dev/ ©MATSUO INSTITUTE, INC. 12

https://www.promptfoo.dev/

13.

14.

promptfooによるLLM評価の流れ：プロンプトの作成 ● prompts.txtに以下の内容を記載 ○ 今回はzero-shotのプロンプトを作成以下に、ぎなた読みが可能なひらがなの短文が入力されます。この文を2通りに解釈し、それぞれ適切な漢字やカタカナに変換して出力してください。出力形式は以下の通りです： * 解釈1: [解釈1の変換後の文章] * 解釈2: [解釈2の変換後の文章] 注意事項: - 余計なスペースや記号を追加せず、簡潔に出力してください。 - 変換後の文章は入力されたひらがなと同じ読み方になるようにしてください。 - 変換は一般的に使われる表現で行ってください。入力文（ひらがな）: {{input}} ©MATSUO INSTITUTE, INC. 14

15.

promptfooによるLLM評価の流れ：モデルの選定 ● promptfooconfig.yamlのprovidersの部分に比較するモデルを記載 ○ 今回はOpenAI, Anthropic, Vertex AIの松竹梅モデルを検証 ■ vertex:gemini-ultraは都合により除外使えるモデルや環境変数の設定等は以下を参照 https://www.promptfoo.dev/docs/providers/ ©MATSUO INSTITUTE, INC. 15

https://www.promptfoo.dev/docs/providers/

16.

promptfooによるLLM評価の流れ：評価データの作成 ● promptfooconfig.yamlか別ファイルに切り出してどう評価するかを記載 ○ 用意した2つの変換後の文章が両方含まれている場合を正解と定義評価データの作成 ● ネットから取得した29件のぎなた読み promptfooでの評価の定義 ● vars：プロンプト内の入力変数のデータ ● assert：評価の定義 ○ type：評価タイプ ○ value：正解の値いろいろな評価方法や定義の仕方に関しては以下を参照 https://www.promptfoo.dev/docs/configuration/expected-outputs/ ©MATSUO INSTITUTE, INC. 16

https://www.promptfoo.dev/docs/configuration/expected-outputs/

17.

18.

promptfooによる評価の実行 ● 評価の実行(*)：npx promptfoo eval ● GUIによる結果の確認(*)：npx promptfoo view (*) project内にpromptfooをインストールした場合コンソールでも以下の出力を確認可能 ©MATSUO INSTITUTE, INC. 18

19.

20.

結果 🥇 GPT-4o (11/29) 🥈 Claude 3.5 sonnet (6/29) 🥉 Claude 3 Opus, Gemini 1.5 pro (3/29) 出力結果の印象 ● GPT-4oはかなり正しい結果を出力できており、変換のバリエーションを許すとより点数が上がる ● 元の文章と違う文章を生成する場合も結構ある ○ 鈴木27歳 ● 2つの解釈で全く同じ文章を出力するケースも ©MATSUO INSTITUTE, INC. 20

21.

まとめ ● zero-shotでぎなた読み生成はなかなか難しい ○ few-shotや出力の見直し等を入れるとどうなるか？ ● promptfooは複数のLLMの出力テストに最適 ○ promptを変えた場合の比較も可能 ○ キャッシュ機能もあるので余計なコストも削減可能ありがとうございました！ ©MATSUO INSTITUTE, INC. 21

22.