プロンプトエンジニアクビになる

>100 Views

February 25, 26

スライド概要

クビになりたくありません。
プロンプト最適化の話です。

profile-image

SIerのデータサイエンティスト 2025 Japan AWS Jr.Champions

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

プロンプトエンジニア プロンプトエンジニア クビになる クビになる

2.

自己紹介 やぎ たくみの上司 たくみ

3.

プロローグ

4.

プロンプトエンジニアのタクミ 5年間プロンプトを磨き続け、 社内で「匠のプロンプト」と呼ばれた男

5.

お前は クビ

6.

はぁ? お前は クビ

7.

第1章 Bedrock Prompt Optimization

8.

黙ってクビにされるわけにはいかない Amazon Bedrock Prompt Optimization・・・? こいつが代わりなのか?

9.

Bedrock Prompt Optimizaion Amazon Bedrockのプロンプト自動最適化機能 ユーザーが入力したプロンプトを、対象モデルのベストプラクティス に従って自動でリライトする。

10.

Bedrock Prompt Optimizaion User Prompt ①Analyze ②Rewrite Optimized Prompt ①Analyze ファインチューニング済みLLMが、入力プロンプトを 構成要素に分解する。 例:タスク指示, input context, few-shot sample ②Rewrite 汎用LLM + メタプロンプトを使い、分解した要素を 最適な形に書き直す。 例:足りない要素の追加 / XMLタグでの構造化 指示の明確化 / レイアウト調整

11.

Bedrock Prompt Optimizaion Before 理不尽な上司の倒し方を教えてください できること Before After ロール付与 なし アドバイザー XML構造化 1行 セクションごと 指示の明確化 倒し方教えて 5観点に 出力形式 なし 構造を指定 After

12.

Bedrock Prompt Optimizaion Before 理不尽な上司の倒し方を教えてください できること Before After まあ、構造化くらいは自動でできるかもな。 After ロール付与 なし でも、Few-shotの選定は経験がモノを言う。 アドバイザー そこは自分にしかできない。 XML構造化 1行 セクションごと 指示の明確化 倒し方教えて 5観点に 出力形式 なし 構造を指定

13.

第2章 MIPROv2

14.

それ、まだ甘いよ。 これ見てみな 不安になったタクミは、 エンジニアの友人に相談した。 友人が見せてきたのは MIPROv2だった

15.

MIPROv2 MIPRO v2 とは プロンプトをプログラムとして定義し Instruction(指示文)と Few-shot Demonstrations(例示)を ベイズ最適化で自動探索するアルゴリズムのこと。 人間が用意するのは Train Set(学習データ) と Metric(評価関数) だけ Opsahl-Ong et al.(2024) Optimizing Instructions and Demonstrations for Multi-Stage Language Model Programs LLMをプログラミングするフレーム ワークであるdspyのoptimizerの1つ

16.

ベイズ最適化とは MIPROv2 過去の試行結果から「最適解が得られる確率が高い点」を優先的にサンプリング することで、少ない試行回数で最適解にたどり着く手法 Grid Search:均等に探索 ベイズ最適化:重点的な探索

17.

MIPROv2 ①Bootstrap Demonstrations データセットDからサンプルを取り、プログラムΦを実行し、 メトリックμで評価。スコアが高かったトレースをFew-shot候補として 収集する。これをN×K回繰り返す。 ②Propose Instruction Candidates 各モジュールmに対し、プログラムコード要約、データセット要約、 ブートストラップしたデモ(Demos) 、過去の評価ヒント(Tips)を ContextとしてLLMに渡し、N個のInstruction候補を生成する。 ③Search Combinations Instruction × Few-shotの組合せをベイズ最適化で探索する。 各組合せをI回試行し、Metricで評価する。 最もスコアが高い組合せを選ぶ。

18.

MIPROv2 Before 理不尽な上司の倒し方を教えてください 事前に準備したもの ①サンプルQA ②評価メトリクス LLM as a judge After

19.

MIPROv2 Before Few-shotの選定まで自動化?? 理不尽な上司の倒し方を教えてください でもまだ自分には「直す力」がある。 ダメなプロンプトを分析して改善する、 事前に準備したもの これだけは匠の勘だ。 ①サンプルQA ②評価メトリクス LLM as a judge After

20.

第3章 GEPA

21.

もう誰かに聞いて安心するのはやめだ。 自分で調べてやる。なんだこれは、 、 、

22.

GEPA とは GEPA トレースから失敗原因を自然言語で分析し、反省をふまえて進化的にプロンプトを 自動で書き換えることで、高品質なプロンプトを作成するアルゴリズム Reflexion とは LLMが自分の出力を振り返り、何がダメだったか を分析して次に活かす手法 GEPAは Reflexionを プロンプト最適化に組み込んでいる Shinn et al.(2023) Reflexion: Language Agents with Verbal Reinforcement Learning

23.

Shinn et al.(2026) GEPA: REFLECTIVE PROMPT EVOLUTION CAN OUTPERFORM REINFORCEMENT LEARNING GEPA ①Selection 候補リストから、次に進化させるプロンプトを パレートフロンティアに基づいて選ぶ ②Execute 選ばれたプロンプトをミニバッチで実行し、 トレースとテキストフィードバックを収集する ③Evolve (1つを選択) ④Evaluate ミニバッチ上で改善したかを判定する。 改善していれば候補リストに追加し 改善していなければ破棄する ⑤予算が尽きるまで繰り返す 変異 LLMが失敗トレースを診断し、プロンプトを 書き換える 交叉 複数プロンプトの強みを組み合わせて 新しいプロンプトを生成する

24.

進化(evolution)とは GEPA 集団における対立遺伝子頻度の世代を超えた変化のこと Douglas Futuyma, Kirkpatrick (2017) Evolution 4th edition Hardy-Weinberg平衡の前提条件 (1)無限の集団サイズ (2)自然選択なし (3)突然変異なし (4)集団間の移動なし (5)ランダム交配でない が破られると進化が起きる。 突然変異 組み替え(交叉) 自然選択 DNA 複 製 時 に 生 じ る エ ラ ー に よ り、集団に存在しなかった新規の 対立遺伝子が生じること。 ---------------------------------------すべての遺伝的変異の究極的な源 泉であり、熱力学第二法則の帰結 として不可避的に生じる。 減数分裂時に、異なる遺伝子座の 対立遺伝子が新たな組み合わせで 配偶子に分配される過程。 ---------------------------------------既存の対立遺伝子の新しい組み合 わせを生み出す。新規の対立遺伝 子は生まない。 異なる表現型(または遺伝子型) 間における、適応度の一貫した統 計的な差のこと。 ---------------------------------------繁殖成功度の偏りを表す概念。 自然選択は一貫した方向性を持ち 選択と遺伝で初めて進化できる。

25.

GEPA 問題設定 Def 2. パレート最適 実行可能解 がパレート最適であるとは、 をパレート支配する他の実行可能解が存在しないこと 実行可能集合 目的関数 Def 1. パレート支配 実行可能解 が を パレート支配する とは、次の2条件が同時に成立すること Def 3. パレート集合 パレート集合とは、パレート最適な解の全体集合のこと Def 4. パレートフロンティア パレートフロンティアとは、パレート集合の目的関数への像

26.

GEPA Before 理不尽な上司の倒し方を教えてください 事前に準備したもの ①サンプルQA ②Feedback用LLM LLM as a judge After

27.

GEPA Before After 失敗分析まで自動化。 。 。 理不尽な上司の倒し方を教えてください 事前に準備したもの ①サンプルQA 構造化も、Few-shot選定も、改善も、全部自動。 俺、本当にいらないのか? ②Feedback用LLM LLM as a judge

28.

エピローグ

29.

タクミくん、このツール導入したんだけどさ、 何を最適化すればいいかわかんないんだよね。

30.

はぁ? タクミくん、このツール導入したんだけどさ、 何を最適化すればいいかわかんないんだよね。

31.

ツールはプロンプトを最適化できる。 でも「何を最適化すべきか」は決められない。

32.

匠のプロンプト から 匠の評価設計 へ