2.2K Views
April 18, 24
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] DL輪読会: Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision Ryoichi Takase http://deeplearning.jp/ 1
書誌情報 採録:arXiv(2024/3/14公開) 概要: ➢ LLMの学習データより難しいタスクを解く能力(Easy-to-hard generalization)を検証 ➢ 評価モデルを用いたLLMを最適化によりEasy-to-hard generalizationが改善することを示した ※注釈無しの図は本論文から抜粋 2
背景 人の嗜好に沿った大規模言語モデル(LLM)の学習手法: 1. Supervised fine-tuning (SFT) 人がラベル付けしたデータを用いてLLMを学習 2. Reinforcement learning from human feedback (RLHF) 人の嗜好を反映した報酬モデルを準備し、報酬を最大化するようにLLMを学習 問題点: 人が作成した正解ラベルを学習データとしてLLMを学習させるため、 正解ラベルの準備が難しいタスクではLLMの性能改善が限定的 例)科学的な推論タスクでは既知情報から新しい法則を発見するため、正解ラベルを簡単には準備できない 人が作成した正解データが性能の上限となってしまう → 学習データよりも難易度の高いタスクを解決できるLLMの学習手法が必要 3
研究目的 研究目的: 学習データよりも難しいタスクに対するLLMの推論能力の検証 検証方法: データを難易度で分類し、学習データよりもレベルの高い問題の解決能力を評価 LLMの論理的な推論能力を評価するためにEasy-to-hard generalizationの考えを導入 学習データよりも難しいタスクを解く能力 例)数学の推論タスク1) 学習データ(レベル1) 検証データ(レベル5) 本論文では、先行研究の学習手法におけるEasy-to-hard generalizationを調査 1) Lightman, Hunter, et al. "Let's Verify Step by Step." arXiv preprint arXiv:2305.20050 (2023). 4
検証対象の学習手法 以下の手法を対象にEasy-to-hard generalizationを検証 ① 生成モデルの学習 1) Supervised fine-tuning (SFT) 2) In-context learning (ICL) ② 評価モデルを用いた解答の決定方法 1) Best-of-n (BoN) 2) Weighted voting ③ 評価モデルを用いた生成モデルの最適化 1) Proximal policy optimization (PPO) 2) Direct policy optimization (DPO) 3) Reinforced self-training (ReST) 5
①生成モデルの学習 正解ラベルを学習データに用いてLLMの正答率を改善 1) Supervised fine-tuning (SFT) : 人が作成した正解ラベルとの尤度を最大化するようにLLMのパラメータを更新 2) In-context learning (ICL): 少数のデモをプロンプトとして与え、LLMのパラメータを更新することなくタスクを学習 プロンプト例 2) 2) Zhou, Denny, et al. "Least-to-most prompting enables complex reasoning in large language models." arXiv preprint arXiv:2205.10625 (2022). 6
②評価モデルを用いた解答の決定方法 生成モデルから解答をサンプリングし、評価スコアの高い解答を選択することで正答率を改善 1) Best-of-n (BoN): 生成モデルから複数の解答をサンプリングし、評価スコアが最も高い解答を選択 2) Weighted voting 3): Majority voting (またはself-consistency)4) から派生した手法 評価スコアの重みづけを考慮して解答を選択 Majority voting (またはself-consistency)4) 3) Uesato, Jonathan, et al. "Solving math word problems with process-and outcome-based feedback." arXiv preprint arXiv:2211.14275 (2022). 4) Wang, Xuezhi, et al. "Self-consistency improves chain of thought reasoning in language models." arXiv preprint arXiv:2203.11171 (2022). Weighted voting3) 7
③評価モデルを用いた生成モデルの最適化 評価モデルのスコアが高くなるように生成モデルを学習させて正解率を改善 1) Proximal policy optimization (PPO) 5): 生成モデルの更新を一定範囲内に制限して強化学習を安定化 2) Direct policy optimization (DPO) 6): 評価モデルの種類を限定することで、強化学習を用いずに生成モデルを最適化 次式の損失関数を最小化し、好ましい出力となるように生成モデルを更新 3) Reinforced self-training (ReST) 7): 生成モデルから解答をサンプリングし、評価スコアが高いものを学習データに追加 追加データで生成モデルを学習させ、サンプリングとデータ追加を繰り返す 5) Schulman, John, et al. "Proximal policy optimization algorithms." arXiv preprint arXiv:1707.06347 (2017). 6) Rafailov, Rafael, et al. "Direct preference optimization: Your language model is secretly a reward model." Advances in Neural Information Processing Systems 36 (2024). 7) Gulcehre, Caglar, et al. "Reinforced self-training (rest) for language modeling." arXiv preprint arXiv:2308.08998 (2023). 8
数値実験 3つの観点でEasy-to-hard generalizationへの影響を検証 ①生成モデルの学習手法 ②評価モデル(Reward model: RM)を用いた解答の決定方法 ③評価モデルを用いた生成モデルの最適化 ※報酬モデルの種類:Outcome reward model (ORM) 、Process reward model、(PRM)、 Outcome & process reward model (OPRM)の詳細は論文参照 9
実験①の概要 ①生成モデルの学習手法の比較 a. 学習手法: Supervised fine tuning (SFT) In-context learning (ICL) b. 学習データ: PRM800K1) MetaMATH8) → a、bの観点でEasy-to-hard generalizationに与える影響を調査 検証データ:MATH500 ベースモデル:Llemma7B、Llemma34B 解答の決定方法:Greedy、Majority voting 1) Lightman, Hunter, et al. "Let's Verify Step by Step." arXiv preprint arXiv:2305.20050 (2023). 8) Yu, Longhui, et al. "Metamath: Bootstrap your own mathematical questions for large language models." arXiv preprint arXiv:2309.12284 (2023). 10
実験①の結果 a. SFTはICLよりも高性能 → 先行研究3) と同様の傾向を確認 b. MetaMATHで学習した方が高性能 Full SFTとEasy-to-hard SFTのギャップがPRM800Kと比較してMetaMATHは大きい → MetaMATHの方が高性能ではあるが、正解ラベルを用いて生成モデルを学習させると Easy-to-hardのギャップが存在してしまう b. PRM800K / MetaMATHの比較 ICL a. ICL / SFTの比較 SFT EASY :難易度 Lv.1-3 HARD:難易度 Lv.4-5 FULL :難易度 Lv.1-5 差:0.8 差:3.2 3) Uesato, Jonathan, et al. "Solving math word problems with process-and outcome-based feedback." arXiv preprint arXiv:2211.14275 (2022). 11
実験②の概要 ②評価モデル(Reward model: RM)を用いた解答の決定方法の比較 解答の決定方法: ・Majority voting(RMなし)※比較対象 ・Weighted voting w/ RM(RMあり) ・Best of n w/ RM(RMあり) → RMの有無がEasy-to-hard generalizationに与える影響を調査 生成モデルと評価モデルの学習データ: EASY:難易度 Lv.1-3 検証データ: EASY:難易度 Lv.1-3 HARD:難易度 Lv.4-5 FULL :難易度 Lv.1-5 12
実験②の結果 評価モデル(RM)を用いてweighted votingすると高性能 学習データより難しいタスク(Level 4-5)では評価モデルの使用により性能が改善 → 評価モデルはEasy-to-hard generalizationの性能が高い(と述べられている…) 評価モデル(RM)を用いることで、 Weighted voting w/RLとBest-of-N w/ RMの性能が改善 EASY:難易度 Lv.1-3 HARD:難易度 Lv. 4-5 FULL :難易度 Lv.1-5 (生成モデルと評価モデルのサイズが7Bの場合の結果を抜粋) 13
実験③の概要 ③評価モデルを用いた生成モデルの最適化手法の比較 評価モデルの学習データ: EASY:難易度 Lv.1-3 FULL :難易度 Lv.1-5 → 評価モデル学習時の難易度がEasy-to-hard generalizationに与える影響を調査 ※EASYデータの正解ラベルを用いてそのままSFTするのではなく、 評価モデルを用いた生成モデルの最適化により、Easy-to-hard generalizationが改善するかを検証 生成モデルの最適化手法: 1) Proximal policy optimization (PPO) 2) Direct policy optimization (DPO) 3) Reinforced self-training (ReST) 14
実験③の結果 Easyデータで学習した評価モデルを用いて、生成モデルを最適化したものが高性能 → 評価モデルの学習を介して生成モデルを最適化することで、 Easy-to-hard generalizationが改善することを示した (MetaMath/Math-Shepherdで学習した場合の結果を抜粋) 15
まとめ 3つの観点でEasy-to-hard generalizationへの影響を検証: ① 生成モデルの学習手法 ② 評価モデルを用いた解答の決定方法 ③ 評価モデルを用いた生成モデルの最適化 実験結果: ① SFTやICLでは学習データよりも難しいタスク(HARDタスク)での正答率が低下 ② HARDタスクにおいて、評価モデルを用いると生成モデルの正答率が改善 ③ Easyデータで学習した評価モデルを用いて生成モデルを最適化したものが高性能 → 評価モデルの学習を介して生成モデルを最適化することで、 Easy-to-hard generalizationが改善することを示した 16