10.3K Views
September 22, 23
スライド概要
DL輪読会資料
DEEP LEARNING JP Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback [DL Papers] 高城 頌太(東京大学 工学系研究科 松尾研 M2) http://deeplearning.jp/ 1
書誌情報 タイトル: Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback https://arxiv.org/abs/2307.15217 著者: Stephen Casper, Xander Davies, Claudia Shi, Thomas Krendl Gilbert, Jérémy Scheurer, Javier Rando, Rachel Freedman, Tomasz Korbak, David Lindner, Pedro Freire, Tony Wang, Samuel Marks, Charbel-Raphaël Segerie, Micah Carroll, Andi Peng, Phillip Christoffersen, Mehul Damani, Stewart Slocum, Usman Anwar, Anand Siththaranjan, Max Nadeau, Eric J. Michaud, Jacob Pfau, Dmitrii Krasheninnikov, Xin Chen, Lauro Langosco, Peter Hase, Erdem Bıyık, Anca Dragan, David Krueger, Dorsa Sadigh, Dylan Hadfield-Menell MIT, Harvard, Columbia, UCB, …etc 概要: RLHFにおける課題をまとめた論文 2
RLHFの全体像 • RLHFの学習は以下の3つのステップで構成されている Step 1: 教師あり学習 • • プロンプトとそれに対する適切な 回答のペアをラベラー(人間)が考 案し,データセットを作成する Step 2: 報酬モデルの学習 • このデータセットを用いて事前学 習モデルをfine-tuningする • データセット 事前学習モデル Step 3: 強化学習 プロンプトに対するStep1で学習 させたモデルの回答を複数パター ン用意し、ラベラーにその中で良 いものはどれかの順位付けをして もらう • Step1,Step2で学習されたモデル を用いて強化学習を行う • 報酬が最大となるような方策を探 索し,最適な回答を生成する 順位づけデータセットを用いて報 酬モデルを学習させる ※ 方策はStep1で学習したモデル 順位づけデータセット 報酬モデル モデルの回答に対して報酬値を推 定し,それをモデルにフィードバ ックすることで方策を改善 ※ 報酬モデルには既存の事前学習モデルやfine-tuningされたモデルの最終層のみを線形層に変更したモデルが使用されることが多い つまり.報酬モデルの出力はスカラー値となる 3
“Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback” RLHFにおける課題 | 全体像 • Human Feedback, Reward Model, Policyのそれぞれ部分で課題がいくつか存 在する • Reward Model, Policyの学習どちらにも共通する課題も存在 4
“Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback” Human Feedbackにおける課題 • Misaligned Evaluators • • • 質が高いフィードバックを提供するLabelerを選択するのが難 しい 評価者の中には有害な偏見や意見を持っている ある人間が意図してデータを汚染する可能性 • Difficulty of Oversight • • 人間は単純な間違いを犯す 人間は難しいタスクのパフォーマンスを適切に評価できない • Data Quality • • データ収集のバイアスが生じる コストと品質のトレードオフが存在する • Feedback Type Limitations • • フィードバックの種類と効率さのトレードオフ Ex. 2つのペアのrankingは簡単だが効率が悪い 5
“Which Examples Should be Multiply Annotated? Active Learning When Annotators May Disagree” Human Feedbackにおける課題 | Misaligned Evaluators • RLHFによって訓練されたモデルは誰の意見を反映しているか? • RLHF前は低所得,低学歴と一致する意見であったが,RLHF後は逆になった 6
“Artificial Artificial Artificial Intelligence: Crowd Workers Widely Use Large Language Models for Text Production Tasks” Human Feedbackにおける課題 | Difficulty of Oversight • クラウドワーカーがLLMを使用することに経済的合理性がある • 自分で考えるよりLLMに考えて貰えばAPI代はらってもプラス • クラウド ワーカーの 33 ~ 46% が LLM を使用したと推定された 7
“LIMA: Less Is More for Alignment” Human Feedbackにおける課題 | Data Quality • モデルの知識と能力はほとんどが事前学習時に学習されるという仮定 • アライメントは対話形式のフォーマットと,言語モデルのどのドメイン分布か ら出力させるかを指定する • 質の良いデータを少量でも良いので集める必要がある 8
“Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural Language Generation” Human Feedbackにおける課題 | Feedback Type Limitations • フィードバックの種類と効率さのトレードオフ • 2つのペアのrankingは簡単だが効率が悪い • 一方で,言語フィードバックだと質の担保が大変 • そもそも人間の認知の限界としてランキングが一番効率が良い? 9
“Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback” Reward Modelにおける課題 • Problem Misspecification • 個々の人間の価値観を報酬関数で表すのは難しい • 単一の報酬関数で人間の多様な社会を表すことはできない • Misgeneralization/Hacking • 正しいラベルのトレーニングデータからでも正しく報酬モデ ルが学習できるとは限らない • 報酬ハッキングが起きる可能性がある • Evaluation Difficulty • 報酬モデルを評価することは難しい 10
“Which Examples Should be Multiply Annotated? Active Learning When Annotators May Disagree” Reward Modelにおける課題 | Problem Misspecification • 複数の意見がある問題に対して単一のスコアをつけることは難しい 11
“Scaling Laws for Reward Model Overoptimization” Reward Modelにおける課題 | Misgeneralization/Hacking • Reward Modelが過剰適合を起こすとMisgeneralization/Hackingが起きやすい • Reward Modelに関するスケーリング則(どのサイズだと過剰適合がおこるか) • 図はPolicyは1.3Bで固定,左:上位N個の出力を使用,右:すべての出力を使用 12
“Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback” Policyにおける課題 • RL Difficulties • ポリシーを効果的に最適化することは困難 • ポリシーは敵対的に悪用される可能性がある • Policy Misgeneralization • 最適なRLエージェントは,権力を求める傾向がある • Distributional Challenges • RLによってモード崩壊を起こす可能性がある • 事前モデルのバイアスが強化される可能性がある ※ モード崩壊: 多様性が失われて,類似した結果しか出力されなくなること 13
“Jailbroken: How Does LLM Safety Training Fail?” Policyにおける課題 | Robust RL Difficulties • ポリシーを敵対的に利用して,Jailbreakを引き起こすことが可能 • 有名な例: GPT4へのDAN attack • モデルの安全規則・制限を無視させるテキストプロンプト 14
“GPT-4 Technical Report” Policyにおける課題 | Distributional Challenges • RLHFによって,生成されるデータの多様性が失われる(モード崩壊) • GPT-4の場合はRLHF後だと自信を持って間違える場合が多くなる 15
“Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback” Reward Model & Policyにおける課題 • 報酬モデルとポリシーを同時に学習することで,データの分布の変化を引き起こす • • オンライン学習: 報酬モデルの分布がポリシーに影響を与え,ポリシーの出力が報酬モデ ルに影響 オフライン学習: 報酬モデルのバイアスにより誤った一般化に陥る可能性がある • 報酬モデルとポリシーの更新のバランス 16
“Fine-Grained Human Feedback Gives Better Rewards for Language Model Training” Human Feedbackによる対策 | より詳細なフィードバック • より詳細な報酬設計を行う (左: 通常のRLHF,右: 提案 手法) • (1) 各文章ごとに報酬を推定 • (2) 3つの報酬モデルを学習 し,それぞれのモデルごとに スコアを算出(事実の不正確 さ、関連性のなさ、情報の不 完全さ) 17
“Rewarded soups: towards Pareto-optimal alignment by interpolating weights fine-tuned on diverse rewards” Reward Modelによる対策 | 多様性の確保 • 複数の観点で学習されたReward Modelのパラメータを混ぜる(Model Soup) ことによって,パレート最適なalignmentを目指す • Model Soup: 異なるハイパーパラメータで学習された複数のファインチュー ニングモデルの「重み」を平均化することで、精度を向上させる手法 18
“RRHF: Rank Responses to Align Language Models with Human Feedback without tears” Policyによる対策 | 複数のモデルを用いてRLの不安定さを解消 • 複数のモデルの出力でランク付けし,一番報酬が高い入出力ペアでSFTし,その他のペア に関しては出力しにくくしするように損失関数を設定 • PPOをよりシンプルにした手法 19
(参考) 発展的議題①: 個人的意見を多く含みます • なぜRLHFで性能が上がるのか? • 性能が上がっている訳ではなさそう • 事前学習で得た分布を意図に沿う出力に変化させているだけ? • 学習を間違えると,条件付け意図しない分布から出力されてしまう • RLは本当に必要なのか? • DPO, PRO, RLCD等のRLを用いないHuman Feedbackの方法が多数提 案されており,RLHFと同程度以上の性能を出している • おそらくRLは必要ではない 20
(参考) 発展的議題②: 個人的意見を多く含みます • SFT vs RLHF • SFTも人間からのlanguage feedbackと解釈することもできる. • そうなれば,SFTだけで十分でRLHFは必要ではないのか? • • ある程度まではSFTで十分,残り1%を制御するには必ず必要になる • モデルの出力制御にはHuman Feedbackは今後も必要になる 人間のfeedbackの限界としてlanguage feedbackは難しすぎる • Rankingによる判断が一番正確? 21
(参考) 発展的議題③: 個人的意見を多く含みます • RLHF vs RLAIF • 人間が介在しないAI FeedbackではFeedback元のモデルの性能を超える こと基本的にはないと考えられる • しかし,人間のフィードバック性能をAIで引き上げる方向性としての RLAIFは続いていくと考えられる(Constitutional AI) • もしくは,外部ツールを用いてあらゆる形式の情報をもとにフィードバ ックを行なっていく形式であれば性能は向上していくと考えられる • RLCF(reinforcement learning from computational feedback) https://www.interconnects.ai/p/beyond-human-data-rlaif 22
Thank you. 23