【DL輪読会】Oral 1A Alignment セッションの紹介

1.3K Views

August 01, 24

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 84.7K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 54.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 38.8K

【拡散モデル勉強会】拡散モデルのサンプラーまとめ

Deep Learning JP 33.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 32K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Oral 1A Alignment セッションの紹介 Kotaro Sakamoto, Matsuo Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

導入特任研究員坂本航太郎拡散モデルやLLMの理論（よりの）研究をしています LLMについては合成データ・自己進化に特に関心があります現地参加（発表）してきました感想 LLM・拡散モデルのテーマがやはり非常に多かったですね（メタサイエンス的感想）飽和気味（特にポスター発表:全部回ろうとすると30秒）データ枯渇問題やSafety/Alignmentの注目度が高めの印象出典 https://medium.com/@taks.skyfoliage.com/explanatory-data-analysis-eda-of-the-paper-list-in-icml2024-6bb5fee4b0f0 2

https://medium.com/@taks.skyfoliage.com/explanatory-data-analysis-eda-of-the-paper-list-in-icml2024-6bb5fee4b0f0

書誌 ❶ Debating with More Persuasive LLMs Leads to More Truthful Answers LLMをディベートさせて「説得力」をジャッジ →正解に近い ArXiv https://arxiv.org/abs/2402.06782 Code https://github.com/ucl-dark/llm_debate ICML Page https://icml.cc/virtual/2024/oral/35483 Results https://llm-debate.com/ Fig2 ① 解答が正しい理由 ② 参照テキストからエビデンス引用 ③ 相手の主張に対するクリティーク Fig1 3

書誌 ❶ Debating with More Persuasive LLMs Leads to More Truthful Answers Fig3 「説得力」 https://www.alignmentforum.org/posts/QtqysYdJRenWFeWc4 /anthropic-fall-2023-debate-progress-update 「説得力」のあるディベーターはSelf-playでも高精度 Elo rating (イロレーティング)：新しいレーティング値 = 現在のレーティング値 + 定数K x (実際の勝率 – 期待勝率) 使用したデータセット： QuALITY: Question Answering with Long Input Texts, Yes! 4

https://www.alignmentforum.org/posts/QtqysYdJRenWFeWc4/anthropic-fall-2023-debate-progress-update

書誌 ❶ Debating with More Persuasive LLMs Leads to More Truthful Answers 強いコンサルは弱い Fig4 Fig6 Fig5 ジャッジの差の検証人間によるジャッジ 5

書誌 ❶ Debating with More Persuasive LLMs Leads to More Truthful Answers まとめ • 人間がLLMの応答の正しさを判断できなくなるリスク（スーパーアライメント） • 解答の異なるLLM同士をディベートさせて，ジャッジが「説得力」を評価する • ディベーターモデルは文献を参照できる（専門家モデル） • ジャッジは文献にアクセスできない • 発展：コーディング・数学・科学への応用，知識のギャップではなく推論のギャップ，Deceptiveなモデルを使ってみる所感 • 複数のモデルを使うのはトレンド関連論文 • Don’t Hallucinate, Abstain: Identifying LLM Knowledge Gaps via Multi-LLM Collaboration https://arxiv.org/abs/2402.00367 • On scalable oversight with weak LLMs judging strong LLMs https://arxiv.org/abs/2407.04622 • https://www.lesswrong.com/posts/vyoNsLYJXJtCY8CSr/nyu-debate-training-updatemethods-baselines-preliminary 6

書誌 ❷ Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision スーパーアライメント：弱いモデルで強いモデルを訓練して汎化させたい ArXiv https://arxiv.org/abs/2312.09390 Code https://github.com/openai/weak-to-strong ICML Page https://icml.cc/virtual/2024/oral/35486 • GPT-4/3.5を生徒，GPT-2レベルを教師してファインチューニングした→NLPタスクでは汎化できる一方，人間の嗜好の学習は難しい Fig2 7

書誌 ❷ Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision Performance Gap Recovered (PGR) • 22のNLP二値分類タスク（倫理・推論・感情分析） • チェスのパズル（生成的タスク） • ChatGPTの報酬モデリング（RLHFにおける人間の嗜好を予測するための報酬モデルの学習）テスト精度 • Weak-to-Strongの汎化は期待できる一方大きいモデルほどPGRが低下 PGR モデルサイズ 8

書誌 ❷ Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision ブートストラップ（中間モデルの導入）で改善 Weak-to-Strong 汎化の理解モデル（計算量）のギャップが大きい場合に訓練の早い段階で弱いモデルのラベルにオーバーフィット（早期停止は御法度）補助損失の導入で改善強いモデルほど教師モデルの出力の一致率は低下 9

10.

書誌 ❷ Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision Weak-to-Strong 汎化の理解（つづき） • モデルサイズが大きくなるほどプロンプトエンジニアリングが有効 • Few-shotプロンプト（5ショット）はかなり増加（GPT-4の場合のゼロショットの差はほとんどない） →モデルサイズが大きくなるほど関連知識を引き出せる • 教師なしデータ追加で報酬モデルの性能が改善 10

11.

書誌 ❷ Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision まとめ・議論 • 誤りも簡単に模倣してしまう • 人間のデータで訓練しても人間レベルの結果を出力するだけ • 事前学習データのリーク問題所感 • モデルの劣化・GTを超えてない • Empirical studiesである関連論文 • Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision https://arxiv.org/abs/2403.09472 DL輪読会資料 https://deeplearning.jp/en/easy-to-hard-generalization-scalable-alignment-beyond-humansupervision/ 11

12.

書誌 ❸ A Mechanistic Understanding of Alignment Algorithms: A Case Study on DPO and Toxicity DPO後にToxicityはどのように表現されているか？ • Toxicityの重みは変化しない • Toxic ベクトルの活性度は下がる ArXiv https://arxiv.org/abs/2401.01967 Code https://github.com/ajyl/dpo_toxic ICML Page https://icml.cc/virtual/2024/oral/35502 12

13.

書誌 ❹ Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study DPOよりPPOの方がいい！大会ポスターより ArXiv https://arxiv.org/abs/2404.10719 ICML Page https://icml.cc/virtual/2024/oral/35568 13