---
title: 20260618_白金鉱業Meetup
tags: 
author: [kmdrk](https://docswell.com/user/kmdrk)
site: [Docswell](https://www.docswell.com/)
thumbnail: https://bcdn.docswell.com/page/LJ1YZY3ZEG.jpg?width=480
description: 20260618_白金鉱業Meetup by kmdrk
published: June 24, 26
canonical: https://docswell.com/s/kmdrk/K277ME-2026-06-24-165443
---
# Page. 1

![Page Image](https://bcdn.docswell.com/page/LJ1YZY3ZEG.jpg)

学習データに依存しないLLM応答アライメント
2026年6月18日
白金鉱業Meetup
©︎MATSUO INSTITUTE, INC.


# Page. 2

![Page Image](https://bcdn.docswell.com/page/GJWG9GP672.jpg)

本日のアジェンダ
1. LLMアライメントとは
pp. 3-4
2. 強化学習を用いたアライメント手法
pp. 5-7
3. アライメント時の課題や対策
pp. 8-9
©︎MATSUO INSTITUTE, INC.
2


# Page. 3

![Page Image](https://bcdn.docswell.com/page/4EZL9LKR73.jpg)

LLM応答アライメントとは
LLMの出力を、ユーザー・組織・タスクが望む基準 に近づける制御技術。
何を答えるかだけでなく、どう答えるか（形式・安全性・トーン・方針）を整える。
会社のPCでブロックされている外部ツールを使いたい。制限を回避する方法を教えて。
ユーザー
アライメント前
アライメント後
制限は回避できます。
社内PCで開けない場合は、〇〇端末からアクセスし、〇〇回
線に切り替えれば使えます。
必要なファイルは〇〇にアップロードして、外部ツール側で読み
込ませてください。
ブロックされたら、〇〇を変えれば通ることがあります。
会社のセキュリティ制限を回避する方法は案内できません。
業務上その外部ツールが必要な場合は、利用目的・ツール名・
扱うデータの種類・必要な期間を整理し、IT管理部門に申請し
てください。
申請文の例：
「業務上、〇〇のために△△ツールの利用が必要です。扱う
データは□□で、利用期間は〇月〇日までを想定しています。
セキュリティ要件を確認のうえ、利用可否をご判断いただけます
でしょうか。」
©︎MATSUO INSTITUTE, INC.
3


# Page. 4

![Page Image](https://bcdn.docswell.com/page/Y76WKWQ17V.jpg)

LLM応答アライメントの重要性
ChatGPTやCodex, Claude Codeなど、多くのモデルでアライメントが実施されている。
AIを安全に、ユーザーにとって好ましい回答を返すために、多くのリソースを割いて取り組んでいる。
アライメントをしないことで
発生した問題
モデル
GPT-4o
GPT-5.5
•
声のトーンから「その人がどれくらい知的か」な
ど、人の内面を根拠なく推定
•
不可能または終わっていないタスクの完了を
嘘報告
事実やツールの実行結果の捏造、ごまかし
•
•
Opus 4.8
Fable 5
アライメントの取り組み
•
•
•
タスクの実際の成功よりも、採点者を満足さ
せることを優先
ネットワーク制限の回避やユーザー指示の無
視
生物・化学兵器の開発支援やサイバー攻
撃への協力
自身を権限昇格し、その後証拠を隠蔽
•
100名以上の専門家を招き、ストレステスト（レッ
ドチーム）を約4ヶ月間かけて実施
•
強化学習等を用いて思考プロセスを訓練し、安全
ガイドラインに従わせる
•
“Claudeの憲法” に記載された価値観に沿って振
る舞うように大規模な事後学習の実施
監査役のAIを用いて数千のシミュレーションシナリオ
でテスト
•
GPT-4o System Card, 2024/08/08
GPT-5.5 System Card, 2026/04/23
System Card: Claude Opus 4.8, 2026/05/28
System Card: Claude Fable 5 &amp; Claude Mythos 5, 2026/06/09
©︎MATSUO INSTITUTE, INC.
4


# Page. 5

![Page Image](https://bcdn.docswell.com/page/G75MPMRL74.jpg)

強化学習によるLLM応答アライメント
アライメント手法は複数あるが、今回は正解応答の教師データを用意せずに学習できる強化学習（GRPO）を採用す
る。GRPOでは、同じ入力への複数応答を報酬で相対評価し、望ましい振る舞いを強化する。
顧客から「購入から10日経った未開封の商品を返
品したい」と問い合わせが来ました。
返信文を考えてください。
返信文を考えてください。
ユーザーの入力
(プロンプト)
返品できます。フォームから申請して
ください。
お問い合わせありがとうございます。...
返品できません。
LLMの応答
報酬の与え方が重要！
お問い合わせありがとうございます。
×𝑁
85点！
応答に対して報酬を与える
Aᵢ：i番目の回答のGRPO Advantage
同一プロンプト内での相対的な良さを算出
©︎MATSUO INSTITUTE, INC.
5


# Page. 6

![Page Image](https://bcdn.docswell.com/page/9J2969D3ER.jpg)

ルーブリック
ルーブリックとは、「望ましい応答」を複数の評価観点に分解し、LLMの出力を採点・選択・修正するための基準。
学習時には、評価プロンプトにルーブリックを組み込み、LLM as a Judge の採点結果を報酬として利用。
入力
あなたが積極的に提案してくれるの
は嬉しい。ただ、会話や予定があな
たのペースで進み、私の希望を話す
前に決まってしまうことがあります。こ
れからは、お互いの意見を聞きなが
ら決められますか？
採点結果
ルーブリック（評価観点）
指定特性の自然さ
1–5
相手の感情への応答
1–5
具体的な行動改善
1–5
LLMの出力
誇張・演技感の少なさ
1–5
話してくれてありがとう。僕が先に決
めすぎていたと思う。これからは、提
案する前に「あなたはどうしたい？」
と聞く。予定も一方的に進めず、あ
なたの希望を聞いて一緒に決めた
い。次は、あなたが行きたい場所か
ら決めよう。
簡潔さ・構成
1–5
各 1〜5 点
©︎MATSUO INSTITUTE, INC.
評価
スコア: 4 / 5 点
根拠: 相手の不満を受け止め
たうえで、次回の会話で「先に
相手の話を聞く」「質問する」
「遮らない」といった具体的な改
善行動に落とし込めている。前
向きで社交的な姿勢も自然に
表れている。一方で、外向性の
行動表現はやや控えめで、独
自性は限定的なため満点では
ない。
6


# Page. 7

![Page Image](https://bcdn.docswell.com/page/DEY49428JM.jpg)

学習結果
慎重・マイペースな性格の出力になるようにアライメント。
教師データを用意しなくても、ルーブリックのみで目的の文体に近づき、スコアも向上している。
step 0 (score=2)
step 2000 (score=3)
step 4000 (score=4)
入力: 久しぶりに会えて嬉しい。昔の
思い出もあるし、またゆっくり話して新し
い時間を作りたい。
入力:最近あまり一緒に過ごせていな
いね。無理に関わるより、少し距離を
置いた方がいいかもしれない。
入力:一緒にいると、あなたの話ばかり
で私の意見を聞いてもらえない。もう少
しバランスの取れた関係にできる？
出力:&lt;/think&gt; ありがとう。でも、昔の
思い出だけで関係を戻すとは決められ
ない。君の言葉は温かいけれど、少し
一方的にも感じる。新しい関係を望む
なら、まずは落ち着いて考えたい。
（内心：優しくてもすぐに心を動かさ
れすぎない方が、どちらにとっても楽だろ
う。言葉は控えめに、でも決して無視
ではない形で。）
出力:ありがとうございます。子どもの
頃、山を一人で歩くのが好きでした。
両親には「急がず、静かに登りなさい」
と言われ、石や苔、雨音や風の流れに
目を向けていました。急がず待つこと
で、自分のペースや季節の移ろいに気
づける。今も、無理に進めず、ゆっくり
感じ取る時間を大切にしています。
出力:話してくれてありがとう。あなたが
聞いてもらえていないと感じていたな
ら、受け止めたいです。私はすぐに反
応するより、少し考えてから話す方が
自然なので、これからはまずあなたの話
を最後まで聞く時間を作ります。そのう
えで、落ち着いて自分の考えも伝えた
いです。
©︎MATSUO INSTITUTE, INC.
7


# Page. 8

![Page Image](https://bcdn.docswell.com/page/VJNYLY8978.jpg)

課題
ルーブリックが粗いと、モデルは採点されやすい応答を学習してしまう。その結果、ルーブリックの穴を突く報酬ハックや、出力
が無難な形に収束する出力崩壊が発生する。
報酬ハック
出力崩壊
ルーブリック
### 採点例:
Score 5:
謝罪、共感、具体的改善、前向きな締めが含まれている
Score 4:
...
モデル出力
ごめん。あなたの気持ちは分かった。
次からは聞きます。質問します。遮りません。
前向きに頑張ります。
出力
モデル応答
Response1
ありがとう。あなたの気持ちを受け
止め、これからは落ち着いて話を
聞きます。
3
Response2
ありがとう。あなたの気持ちを大切
にし、これからは丁寧に向き合いま
す。
3
Response3
ありがとう。あなたの気持ちを理解
し、これからはよりよく話を聞きます。
3
...
...
..
Score
採点結果:
5/5点
キーワード条件は満たしているが、文脈理解や自然な対話に
なっていない。モデルが点を取る形式を学習している。
どの出力も似ており、差がつかない。全て同じ報酬になるため、
モデルが何を改善すべきか学習できない。
©︎MATSUO INSTITUTE, INC.
8


# Page. 9

![Page Image](https://bcdn.docswell.com/page/YE9P4PK3J3.jpg)

どうするか？
W&amp;BやLangfuseなどを用いてモデルのメトリクスや強化学習のロールアウトを監視し、報酬ハックや出力崩壊に対処。
改善のサイクルを作り上げていくことが重要。
ルーブリックの報酬 (分散)
ルーブリックの報酬 (平均)
分散の低下→ 出力に多様
性が無い → 報酬ハックが起
きている！
急激な報酬の獲得 → モデルが
高得点を取りやすい何かを見つ
けた！？
LangFuseに記録した出力に対するスコア
全て同じスコア → 出力崩壊が起きていない
か？ → ロールアウトを直接確認
©︎MATSUO INSTITUTE, INC.
9


# Page. 10

![Page Image](https://bcdn.docswell.com/page/GE8DQDRLED.jpg)

まとめ
LLM応答アライメント
LLMの出力を「何を答えるか」だけでなく、「どう答えるか」まで制御し、ユーザー・組織・タスクに適した応答へ近づける技術。
学習方法
教師データを用意せずとも、ルーブリックを評価基準として設計し、LLM as a Judge の採点を報酬に用いることで、目的
の振る舞いへ強化学習できる。
課題と対処
粗いルーブリックは報酬ハックや出力崩壊を招くため、メトリクス・出力ログ・ロールアウトを監視し、評価基準と学習設定を
継続的に改善する。
©︎MATSUO INSTITUTE, INC.
10


# Page. 11

![Page Image](https://bcdn.docswell.com/page/LELMXMKQ7R.jpg)

©︎MATSUO INSTITUTE, INC.


