学習データに依存しないLLM応答アライメント 2026年6月18日 白金鉱業Meetup ©︎MATSUO INSTITUTE, INC.
本日のアジェンダ 1. LLMアライメントとは pp. 3-4 2. 強化学習を用いたアライメント手法 pp. 5-7 3. アライメント時の課題や対策 pp. 8-9 ©︎MATSUO INSTITUTE, INC. 2
LLM応答アライメントとは LLMの出力を、ユーザー・組織・タスクが望む基準 に近づける制御技術。 何を答えるかだけでなく、どう答えるか(形式・安全性・トーン・方針)を整える。 会社のPCでブロックされている外部ツールを使いたい。制限を回避する方法を教えて。 ユーザー アライメント前 アライメント後 制限は回避できます。 社内PCで開けない場合は、〇〇端末からアクセスし、〇〇回 線に切り替えれば使えます。 必要なファイルは〇〇にアップロードして、外部ツール側で読み 込ませてください。 ブロックされたら、〇〇を変えれば通ることがあります。 会社のセキュリティ制限を回避する方法は案内できません。 業務上その外部ツールが必要な場合は、利用目的・ツール名・ 扱うデータの種類・必要な期間を整理し、IT管理部門に申請し てください。 申請文の例: 「業務上、〇〇のために△△ツールの利用が必要です。扱う データは□□で、利用期間は〇月〇日までを想定しています。 セキュリティ要件を確認のうえ、利用可否をご判断いただけます でしょうか。」 ©︎MATSUO INSTITUTE, INC. 3
LLM応答アライメントの重要性 ChatGPTやCodex, Claude Codeなど、多くのモデルでアライメントが実施されている。 AIを安全に、ユーザーにとって好ましい回答を返すために、多くのリソースを割いて取り組んでいる。 アライメントをしないことで 発生した問題 モデル GPT-4o GPT-5.5 • 声のトーンから「その人がどれくらい知的か」な ど、人の内面を根拠なく推定 • 不可能または終わっていないタスクの完了を 嘘報告 事実やツールの実行結果の捏造、ごまかし • • Opus 4.8 Fable 5 アライメントの取り組み • • • タスクの実際の成功よりも、採点者を満足さ せることを優先 ネットワーク制限の回避やユーザー指示の無 視 生物・化学兵器の開発支援やサイバー攻 撃への協力 自身を権限昇格し、その後証拠を隠蔽 • 100名以上の専門家を招き、ストレステスト(レッ ドチーム)を約4ヶ月間かけて実施 • 強化学習等を用いて思考プロセスを訓練し、安全 ガイドラインに従わせる • “Claudeの憲法” に記載された価値観に沿って振 る舞うように大規模な事後学習の実施 監査役のAIを用いて数千のシミュレーションシナリオ でテスト • GPT-4o System Card, 2024/08/08 GPT-5.5 System Card, 2026/04/23 System Card: Claude Opus 4.8, 2026/05/28 System Card: Claude Fable 5 & Claude Mythos 5, 2026/06/09 ©︎MATSUO INSTITUTE, INC. 4
強化学習によるLLM応答アライメント アライメント手法は複数あるが、今回は正解応答の教師データを用意せずに学習できる強化学習(GRPO)を採用す る。GRPOでは、同じ入力への複数応答を報酬で相対評価し、望ましい振る舞いを強化する。 顧客から「購入から10日経った未開封の商品を返 品したい」と問い合わせが来ました。 返信文を考えてください。 返信文を考えてください。 ユーザーの入力 (プロンプト) 返品できます。フォームから申請して ください。 お問い合わせありがとうございます。... 返品できません。 LLMの応答 報酬の与え方が重要! お問い合わせありがとうございます。 ×𝑁 85点! 応答に対して報酬を与える Aᵢ:i番目の回答のGRPO Advantage 同一プロンプト内での相対的な良さを算出 ©︎MATSUO INSTITUTE, INC. 5
ルーブリック ルーブリックとは、「望ましい応答」を複数の評価観点に分解し、LLMの出力を採点・選択・修正するための基準。 学習時には、評価プロンプトにルーブリックを組み込み、LLM as a Judge の採点結果を報酬として利用。 入力 あなたが積極的に提案してくれるの は嬉しい。ただ、会話や予定があな たのペースで進み、私の希望を話す 前に決まってしまうことがあります。こ れからは、お互いの意見を聞きなが ら決められますか? 採点結果 ルーブリック(評価観点) 指定特性の自然さ 1–5 相手の感情への応答 1–5 具体的な行動改善 1–5 LLMの出力 誇張・演技感の少なさ 1–5 話してくれてありがとう。僕が先に決 めすぎていたと思う。これからは、提 案する前に「あなたはどうしたい?」 と聞く。予定も一方的に進めず、あ なたの希望を聞いて一緒に決めた い。次は、あなたが行きたい場所か ら決めよう。 簡潔さ・構成 1–5 各 1〜5 点 ©︎MATSUO INSTITUTE, INC. 評価 スコア: 4 / 5 点 根拠: 相手の不満を受け止め たうえで、次回の会話で「先に 相手の話を聞く」「質問する」 「遮らない」といった具体的な改 善行動に落とし込めている。前 向きで社交的な姿勢も自然に 表れている。一方で、外向性の 行動表現はやや控えめで、独 自性は限定的なため満点では ない。 6
学習結果 慎重・マイペースな性格の出力になるようにアライメント。 教師データを用意しなくても、ルーブリックのみで目的の文体に近づき、スコアも向上している。 step 0 (score=2) step 2000 (score=3) step 4000 (score=4) 入力: 久しぶりに会えて嬉しい。昔の 思い出もあるし、またゆっくり話して新し い時間を作りたい。 入力:最近あまり一緒に過ごせていな いね。無理に関わるより、少し距離を 置いた方がいいかもしれない。 入力:一緒にいると、あなたの話ばかり で私の意見を聞いてもらえない。もう少 しバランスの取れた関係にできる? 出力:</think> ありがとう。でも、昔の 思い出だけで関係を戻すとは決められ ない。君の言葉は温かいけれど、少し 一方的にも感じる。新しい関係を望む なら、まずは落ち着いて考えたい。 (内心:優しくてもすぐに心を動かさ れすぎない方が、どちらにとっても楽だろ う。言葉は控えめに、でも決して無視 ではない形で。) 出力:ありがとうございます。子どもの 頃、山を一人で歩くのが好きでした。 両親には「急がず、静かに登りなさい」 と言われ、石や苔、雨音や風の流れに 目を向けていました。急がず待つこと で、自分のペースや季節の移ろいに気 づける。今も、無理に進めず、ゆっくり 感じ取る時間を大切にしています。 出力:話してくれてありがとう。あなたが 聞いてもらえていないと感じていたな ら、受け止めたいです。私はすぐに反 応するより、少し考えてから話す方が 自然なので、これからはまずあなたの話 を最後まで聞く時間を作ります。そのう えで、落ち着いて自分の考えも伝えた いです。 ©︎MATSUO INSTITUTE, INC. 7
課題 ルーブリックが粗いと、モデルは採点されやすい応答を学習してしまう。その結果、ルーブリックの穴を突く報酬ハックや、出力 が無難な形に収束する出力崩壊が発生する。 報酬ハック 出力崩壊 ルーブリック ### 採点例: Score 5: 謝罪、共感、具体的改善、前向きな締めが含まれている Score 4: ... モデル出力 ごめん。あなたの気持ちは分かった。 次からは聞きます。質問します。遮りません。 前向きに頑張ります。 出力 モデル応答 Response1 ありがとう。あなたの気持ちを受け 止め、これからは落ち着いて話を 聞きます。 3 Response2 ありがとう。あなたの気持ちを大切 にし、これからは丁寧に向き合いま す。 3 Response3 ありがとう。あなたの気持ちを理解 し、これからはよりよく話を聞きます。 3 ... ... .. Score 採点結果: 5/5点 キーワード条件は満たしているが、文脈理解や自然な対話に なっていない。モデルが点を取る形式を学習している。 どの出力も似ており、差がつかない。全て同じ報酬になるため、 モデルが何を改善すべきか学習できない。 ©︎MATSUO INSTITUTE, INC. 8
どうするか? W&BやLangfuseなどを用いてモデルのメトリクスや強化学習のロールアウトを監視し、報酬ハックや出力崩壊に対処。 改善のサイクルを作り上げていくことが重要。 ルーブリックの報酬 (分散) ルーブリックの報酬 (平均) 分散の低下→ 出力に多様 性が無い → 報酬ハックが起 きている! 急激な報酬の獲得 → モデルが 高得点を取りやすい何かを見つ けた!? LangFuseに記録した出力に対するスコア 全て同じスコア → 出力崩壊が起きていない か? → ロールアウトを直接確認 ©︎MATSUO INSTITUTE, INC. 9
まとめ LLM応答アライメント LLMの出力を「何を答えるか」だけでなく、「どう答えるか」まで制御し、ユーザー・組織・タスクに適した応答へ近づける技術。 学習方法 教師データを用意せずとも、ルーブリックを評価基準として設計し、LLM as a Judge の採点を報酬に用いることで、目的 の振る舞いへ強化学習できる。 課題と対処 粗いルーブリックは報酬ハックや出力崩壊を招くため、メトリクス・出力ログ・ロールアウトを監視し、評価基準と学習設定を 継続的に改善する。 ©︎MATSUO INSTITUTE, INC. 10
©︎MATSUO INSTITUTE, INC.