【DL輪読会】Oral 1A Alignment セッションの紹介

1K Views

August 01, 24

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Oral 1A Alignment セッションの紹介 Kotaro Sakamoto, Matsuo Lab http://deeplearning.jp/ 1

2.

導入 特任研究員 坂本 航太郎 拡散モデルやLLMの理論(よりの)研究をしています LLMについては合成データ・自己進化に特に関心があります 現地参加(発表)してきました 感想 LLM・拡散モデルのテーマがやはり非常に多かったですね (メタサイエンス的感想)飽和気味(特にポスター発表:全部回ろうとすると30秒) データ枯渇問題やSafety/Alignmentの注目度が高めの印象 出典 https://medium.com/@taks.skyfoliage.com/explanatory-data-analysis-eda-of-the-paper-list-in-icml2024-6bb5fee4b0f0 2

3.

書誌 ❶ Debating with More Persuasive LLMs Leads to More Truthful Answers LLMをディベートさせて 「説得力」をジャッジ →正解に近い ArXiv https://arxiv.org/abs/2402.06782 Code https://github.com/ucl-dark/llm_debate ICML Page https://icml.cc/virtual/2024/oral/35483 Results https://llm-debate.com/ Fig2 ① 解答が正しい理由 ② 参照テキストからエビデンス引用 ③ 相手の主張に対するクリティーク Fig1 3

4.

書誌 ❶ Debating with More Persuasive LLMs Leads to More Truthful Answers Fig3 「説得力」 https://www.alignmentforum.org/posts/QtqysYdJRenWFeWc4 /anthropic-fall-2023-debate-progress-update 「説得力」のあるディベーター はSelf-playでも高精度 Elo rating (イロレーティング): 新しいレーティング値 = 現在のレーティング値 + 定数K x (実際の勝率 – 期待勝率) 使用したデータセット: QuALITY: Question Answering with Long Input Texts, Yes! 4

5.

書誌 ❶ Debating with More Persuasive LLMs Leads to More Truthful Answers 強いコンサルは弱い Fig4 Fig6 Fig5 ジャッジの差の検証 人間によるジャッジ 5

6.

書誌 ❶ Debating with More Persuasive LLMs Leads to More Truthful Answers まとめ • 人間がLLMの応答の正しさを判断できなくなるリスク(スーパーアライメント) • 解答の異なるLLM同士をディベートさせて,ジャッジが「説得力」を評価する • ディベーターモデルは文献を参照できる(専門家モデル) • ジャッジは文献にアクセスできない • 発展:コーディング・数学・科学への応用,知識のギャップではなく推論のギャッ プ,Deceptiveなモデルを使ってみる 所感 • 複数のモデルを使うのはトレンド 関連論文 • Don’t Hallucinate, Abstain: Identifying LLM Knowledge Gaps via Multi-LLM Collaboration https://arxiv.org/abs/2402.00367 • On scalable oversight with weak LLMs judging strong LLMs https://arxiv.org/abs/2407.04622 • https://www.lesswrong.com/posts/vyoNsLYJXJtCY8CSr/nyu-debate-training-updatemethods-baselines-preliminary 6

7.

書誌 ❷ Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision スーパーアライメント:弱いモデルで強いモデル を訓練して汎化させたい ArXiv https://arxiv.org/abs/2312.09390 Code https://github.com/openai/weak-to-strong ICML Page https://icml.cc/virtual/2024/oral/35486 • GPT-4/3.5を生徒,GPT-2レベルを教師して ファインチューニングした→NLPタスクで は汎化できる一方,人間の嗜好の学習は 難しい Fig2 7

8.

書誌 ❷ Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision Performance Gap Recovered (PGR) • 22のNLP二値分類タスク(倫理・推論・ 感情分析) • チェスのパズル(生成的タスク) • ChatGPTの報酬モデリング(RLHFにおけ る人間の嗜好を予測するための報酬モデ ルの学習) テスト 精度 • Weak-to-Strongの汎化は期待できる一方 大きいモデルほどPGRが低下 PGR モデル サイズ 8

9.

書誌 ❷ Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision ブートストラップ(中間モデルの導入)で改善 Weak-to-Strong 汎化の理解 モデル(計算量)のギャップが大きい場合に訓練の早い段 階で弱いモデルのラベルにオーバーフィット (早期停止は御法度) 補助損失の導入で改善 強いモデルほど教師モデルの 出力の一致率は低下 9

10.

書誌 ❷ Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision Weak-to-Strong 汎化の理解(つづき) • モデルサイズが大きくなるほどプロンプトエンジニア リングが有効 • Few-shotプロンプト(5ショット)はかなり増加 (GPT-4の場合のゼロショットの差はほとんどない) →モデルサイズが大きくなるほど関連知識を引き出せ る • 教師なしデータ追加で報酬モデルの性能が 改善 10

11.

書誌 ❷ Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision まとめ・議論 • 誤りも簡単に模倣してしまう • 人間のデータで訓練しても人間レベルの結果を出力するだけ • 事前学習データのリーク問題 所感 • モデルの劣化・GTを超えてない • Empirical studiesである 関連論文 • Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision https://arxiv.org/abs/2403.09472 DL輪読会資料 https://deeplearning.jp/en/easy-to-hard-generalization-scalable-alignment-beyond-humansupervision/ 11

12.

書誌 ❸ A Mechanistic Understanding of Alignment Algorithms: A Case Study on DPO and Toxicity DPO後にToxicityはどのように表現されているか? • Toxicityの重みは変化しない • Toxic ベクトルの活性度は下がる ArXiv https://arxiv.org/abs/2401.01967 Code https://github.com/ajyl/dpo_toxic ICML Page https://icml.cc/virtual/2024/oral/35502 12

13.

書誌 ❹ Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study DPOよりPPOの方がいい! 大会ポスターより ArXiv https://arxiv.org/abs/2404.10719 ICML Page https://icml.cc/virtual/2024/oral/35568 13