20260618_白金鉱業Meetup

184 Views

June 24, 26

#LLM #アライメント #強化学習 #GRPO #ルーブリック

スライド概要

kmdrk

@kmdrk

スライド一覧

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

学振特別研究員になるために～2025年度申請版

学振 dc1 dc2 jsps pd

大上雅史 840.7K

ZAZA株式会社_会社紹介

ZAZA株式会社 510.4K

StampFlyで学ぶマルチコプタ制御

伊藤恒平 389.5K

研究に使える便利なフリーソフト ImageJ

imagej 放射線技師

片山豊 370.7K

東京大学 3Dスキャン勉強会 - フォトグラメトリ」

フォトグラメトリ vr 3dデジタルアーカイブ

龍 lilea 318K

大規模言語モデルに追加学習で専門知識を教える試み (2023, arXiv:2312.03360)

Kan Hatakeyama 315.7K

各ページのテキスト

LLM応答アライメントとは LLMの出力を、ユーザー・組織・タスクが望む基準に近づける制御技術。何を答えるかだけでなく、どう答えるか（形式・安全性・トーン・方針）を整える。会社のPCでブロックされている外部ツールを使いたい。制限を回避する方法を教えて。ユーザーアライメント前アライメント後制限は回避できます。社内PCで開けない場合は、〇〇端末からアクセスし、〇〇回線に切り替えれば使えます。必要なファイルは〇〇にアップロードして、外部ツール側で読み込ませてください。ブロックされたら、〇〇を変えれば通ることがあります。会社のセキュリティ制限を回避する方法は案内できません。業務上その外部ツールが必要な場合は、利用目的・ツール名・扱うデータの種類・必要な期間を整理し、IT管理部門に申請してください。申請文の例：「業務上、〇〇のために△△ツールの利用が必要です。扱うデータは□□で、利用期間は〇月〇日までを想定しています。セキュリティ要件を確認のうえ、利用可否をご判断いただけますでしょうか。」 ©︎MATSUO INSTITUTE, INC. 3

LLM応答アライメントの重要性 ChatGPTやCodex, Claude Codeなど、多くのモデルでアライメントが実施されている。 AIを安全に、ユーザーにとって好ましい回答を返すために、多くのリソースを割いて取り組んでいる。アライメントをしないことで発生した問題モデル GPT-4o GPT-5.5 • 声のトーンから「その人がどれくらい知的か」など、人の内面を根拠なく推定 • 不可能または終わっていないタスクの完了を嘘報告事実やツールの実行結果の捏造、ごまかし • • Opus 4.8 Fable 5 アライメントの取り組み • • • タスクの実際の成功よりも、採点者を満足させることを優先ネットワーク制限の回避やユーザー指示の無視生物・化学兵器の開発支援やサイバー攻撃への協力自身を権限昇格し、その後証拠を隠蔽 • 100名以上の専門家を招き、ストレステスト（レッドチーム）を約4ヶ月間かけて実施 • 強化学習等を用いて思考プロセスを訓練し、安全ガイドラインに従わせる • “Claudeの憲法” に記載された価値観に沿って振る舞うように大規模な事後学習の実施監査役のAIを用いて数千のシミュレーションシナリオでテスト • GPT-4o System Card, 2024/08/08 GPT-5.5 System Card, 2026/04/23 System Card: Claude Opus 4.8, 2026/05/28 System Card: Claude Fable 5 & Claude Mythos 5, 2026/06/09 ©︎MATSUO INSTITUTE, INC. 4

強化学習によるLLM応答アライメントアライメント手法は複数あるが、今回は正解応答の教師データを用意せずに学習できる強化学習（GRPO）を採用する。GRPOでは、同じ入力への複数応答を報酬で相対評価し、望ましい振る舞いを強化する。顧客から「購入から10日経った未開封の商品を返品したい」と問い合わせが来ました。返信文を考えてください。返信文を考えてください。ユーザーの入力 (プロンプト) 返品できます。フォームから申請してください。お問い合わせありがとうございます。... 返品できません。 LLMの応答報酬の与え方が重要！お問い合わせありがとうございます。 ×𝑁 85点！応答に対して報酬を与える Aᵢ：i番目の回答のGRPO Advantage 同一プロンプト内での相対的な良さを算出 ©︎MATSUO INSTITUTE, INC. 5

ルーブリックルーブリックとは、「望ましい応答」を複数の評価観点に分解し、LLMの出力を採点・選択・修正するための基準。学習時には、評価プロンプトにルーブリックを組み込み、LLM as a Judge の採点結果を報酬として利用。入力あなたが積極的に提案してくれるのは嬉しい。ただ、会話や予定があなたのペースで進み、私の希望を話す前に決まってしまうことがあります。これからは、お互いの意見を聞きながら決められますか？採点結果ルーブリック（評価観点）指定特性の自然さ 1–5 相手の感情への応答 1–5 具体的な行動改善 1–5 LLMの出力誇張・演技感の少なさ 1–5 話してくれてありがとう。僕が先に決めすぎていたと思う。これからは、提案する前に「あなたはどうしたい？」と聞く。予定も一方的に進めず、あなたの希望を聞いて一緒に決めたい。次は、あなたが行きたい場所から決めよう。簡潔さ・構成 1–5 各 1〜5 点 ©︎MATSUO INSTITUTE, INC. 評価スコア: 4 / 5 点根拠: 相手の不満を受け止めたうえで、次回の会話で「先に相手の話を聞く」「質問する」「遮らない」といった具体的な改善行動に落とし込めている。前向きで社交的な姿勢も自然に表れている。一方で、外向性の行動表現はやや控えめで、独自性は限定的なため満点ではない。 6

学習結果慎重・マイペースな性格の出力になるようにアライメント。教師データを用意しなくても、ルーブリックのみで目的の文体に近づき、スコアも向上している。 step 0 (score=2) step 2000 (score=3) step 4000 (score=4) 入力: 久しぶりに会えて嬉しい。昔の思い出もあるし、またゆっくり話して新しい時間を作りたい。入力:最近あまり一緒に過ごせていないね。無理に関わるより、少し距離を置いた方がいいかもしれない。入力:一緒にいると、あなたの話ばかりで私の意見を聞いてもらえない。もう少しバランスの取れた関係にできる？出力:</think> ありがとう。でも、昔の思い出だけで関係を戻すとは決められない。君の言葉は温かいけれど、少し一方的にも感じる。新しい関係を望むなら、まずは落ち着いて考えたい。（内心：優しくてもすぐに心を動かされすぎない方が、どちらにとっても楽だろう。言葉は控えめに、でも決して無視ではない形で。）出力:ありがとうございます。子どもの頃、山を一人で歩くのが好きでした。両親には「急がず、静かに登りなさい」と言われ、石や苔、雨音や風の流れに目を向けていました。急がず待つことで、自分のペースや季節の移ろいに気づける。今も、無理に進めず、ゆっくり感じ取る時間を大切にしています。出力:話してくれてありがとう。あなたが聞いてもらえていないと感じていたなら、受け止めたいです。私はすぐに反応するより、少し考えてから話す方が自然なので、これからはまずあなたの話を最後まで聞く時間を作ります。そのうえで、落ち着いて自分の考えも伝えたいです。 ©︎MATSUO INSTITUTE, INC. 7

課題ルーブリックが粗いと、モデルは採点されやすい応答を学習してしまう。その結果、ルーブリックの穴を突く報酬ハックや、出力が無難な形に収束する出力崩壊が発生する。報酬ハック出力崩壊ルーブリック ### 採点例: Score 5: 謝罪、共感、具体的改善、前向きな締めが含まれている Score 4: ... モデル出力ごめん。あなたの気持ちは分かった。次からは聞きます。質問します。遮りません。前向きに頑張ります。出力モデル応答 Response1 ありがとう。あなたの気持ちを受け止め、これからは落ち着いて話を聞きます。 3 Response2 ありがとう。あなたの気持ちを大切にし、これからは丁寧に向き合います。 3 Response3 ありがとう。あなたの気持ちを理解し、これからはよりよく話を聞きます。 3 ... ... .. Score 採点結果: 5/5点キーワード条件は満たしているが、文脈理解や自然な対話になっていない。モデルが点を取る形式を学習している。どの出力も似ており、差がつかない。全て同じ報酬になるため、モデルが何を改善すべきか学習できない。 ©︎MATSUO INSTITUTE, INC. 8

どうするか？ W&BやLangfuseなどを用いてモデルのメトリクスや強化学習のロールアウトを監視し、報酬ハックや出力崩壊に対処。改善のサイクルを作り上げていくことが重要。ルーブリックの報酬 (分散) ルーブリックの報酬 (平均) 分散の低下→ 出力に多様性が無い → 報酬ハックが起きている！急激な報酬の獲得 → モデルが高得点を取りやすい何かを見つけた！？ LangFuseに記録した出力に対するスコア全て同じスコア → 出力崩壊が起きていないか？ → ロールアウトを直接確認 ©︎MATSUO INSTITUTE, INC. 9

10.

まとめ LLM応答アライメント LLMの出力を「何を答えるか」だけでなく、「どう答えるか」まで制御し、ユーザー・組織・タスクに適した応答へ近づける技術。学習方法教師データを用意せずとも、ルーブリックを評価基準として設計し、LLM as a Judge の採点を報酬に用いることで、目的の振る舞いへ強化学習できる。課題と対処粗いルーブリックは報酬ハックや出力崩壊を招くため、メトリクス・出力ログ・ロールアウトを監視し、評価基準と学習設定を継続的に改善する。 ©︎MATSUO INSTITUTE, INC. 10

11.