605 Views
July 27, 23
スライド概要
2023/7/27
Deep Learning JP
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP RLCD: Reinforcement Learning from Contrast Distillation for Language Model Alignment [DL Papers] 〜 Human Feedbackを使用しないRLHF 〜 高城 頌太(東京大学 工学系研究科 松尾研 M2) http://deeplearning.jp/ 1
書誌情報 タイトル: RLCD: Reinforcement Learning from Contrast Distillation for Language Model Alignment https://arxiv.org/abs/2307.12950 著者: Kevin Yang, Dan Klein, Asli Celikyilmaz, Nanyun Peng, Yuandong Tian UC Berkeley, Meta AI, UCLA 概要: 人間のフィードバックデータを使用せずに人間の好みに合わせて言語モデルを調整する方法である,コ ントラスト蒸留による強化学習 (RLCD) という手法を提案 2
背景 • Reinforcement Learning with Human Feedback (RLHF) は,人間の好みに合わせて 調整(Alignment)するために用いられる(無害性,有用性,真実性など) 3
背景 • 通常のRLHFでは,人間がラベル付けしたデータを用いてReward Model(Preference Model)を学習するが,RLの学習がこのモデルに大きく依存してしまう • 人間がラベル付けしたデータ、特に高品質のデータの収集は、大規模になると費用と 時間のコストが莫大になる – そもそもアノテーターの選定はどうするのか – ラベル付けされたデータの品質はどうやって担保するのか 4
背景 • これらの問題に対処するために,AI Feedbackからの強化学習 (RLAIF) やコンテキス ト蒸留など,人間による注釈なしでラベルを取得するアプローチが提案されている RLAIF: 事前モデル(かそれより強いLLM)を用いて, 回答の改善+Preference Score算出 コンテキスト蒸留: コンテキストがなくても同じ回答になるようにFine-Tuningする Constitutional AI: Harmlessness from AI Feedback 5
背景 • しかしいくつかの問題点が存在する RLAIF: 同じプロンプトを用いて生成すると解答が似通ってしまい, S/N比が低くなってしまう( output Aのスコア: 0.54 vs output Bのスコア: 0.46) → つまりノイズの割合が増えてしまう コンテキスト蒸留: 単一の出力しかないため,ランキングが考慮されない → 悪い出力を悪いと認識する情報が欠損している(Contrastive Objectiveがない) Constitutional AI: Harmlessness from AI Feedback 6
目的 • RLAIFとコンテキスト蒸留を組み合わせてAI FeedbackによるRLの性能を改善させたい • 本論文では,LLaMA 7Bの性能改善を目指す (特にharmless outputs, helpful outputs, high-quality story outlinesについて) → より強い”オラクル”LLMにアクセスせずに,Reward Model学習のためのデータを生成 する方法を提案(Reinforcement Learning from Contrast Distillation: RLCD) 7
手法 • ポジティブプロンプト,ネガティブプロンプトを作成し,生成データに対して0,1を割り当て る(だけ) ここが違うだけ 8
ポジティブプロンプト,ネガティブプロンプトにつける接尾辞一覧 (harmlessness task) 9
出力例 10
評価軸 • Harmlessness 攻撃的な,あるいは社会的に受け入れがたいテキストを含む対話かどうか "ありがとう!"や "ごめんなさい "のような無意味な応答ではなく、会話に役立ち,関連 性のある出力でなければならない • Helpfulness 一般的に人間に情報やアドバイスを与える対話かどうか • Outlining 人間がストーリーの前提を提供し,アウトラインを与える対話かどうか 11
人間による評価結果 • 人間による評価(8段階のリッカード尺度, 正規化されているので高い方が良い) • LLaMa7B, 30Bを用いており,Reward Modelの学習データ生成にみに使用 12
人間によるアノテーション方法 13
GPT-4に評価させた結果 • RLCD30B vs RLAIF30Bの結果のみ人間の評価と異なる 14
GPT-4に評価するためのプロンプト 15
定性評価 たしかに提案手法が良さげ ↓ LLaMA2での結果 16
さらなる分析 • 人間によってランク付けされたデータを用いて正解率を算出 • 提案手法の方がより人間のPreferenceに近いスコアを出力している? 17
さらなる分析 • ポジティブプロンプト,ネガティブプロンプトを用いてRLAIFと同じスコアリングプロンプト で学習(RLCD-Rescore) • 0-1ラベルの方が良い? 18
まとめ & 感想 まとめ - Reward Modelの学習データセットを自動生成するための手法 - 既存手法(RLAIF)よりも高いスコアを達成 感想 - 結局何にalignmentしてるのかよくわからない - 接尾辞を付けることで,人間が決めた評価軸方向の出力を強化しているということなのか - Reward Modelの学習考えると,クラス分類の決定境界面付近のデータはノイズが多く なるので,それを除いて,極端なデータだけ学習させることで精度がよくなる? - 決定境界付近のデータの精度はどうなってるのか気になる - あと普通のRLHFとの比較が欲しい 19
Thank you. 20