【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language Model Alignment ? Human Feedbackを使用しないRLHF ?

652 Views

July 27, 23

#@deep learning jp #Deep Learning #RLCD #Language Model Alignment #Reinforcement Learning #AI Feedback

スライド概要

2023/7/27
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 84.7K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 54.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 38.8K

【拡散モデル勉強会】拡散モデルのサンプラーまとめ

Deep Learning JP 33.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 32K

各ページのテキスト

DEEP LEARNING JP RLCD: Reinforcement Learning from Contrast Distillation for Language Model Alignment [DL Papers] 〜 Human Feedbackを使用しないRLHF 〜高城頌太（東京大学工学系研究科松尾研 M2） http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報タイトル： RLCD: Reinforcement Learning from Contrast Distillation for Language Model Alignment https://arxiv.org/abs/2307.12950 著者： Kevin Yang, Dan Klein, Asli Celikyilmaz, Nanyun Peng, Yuandong Tian UC Berkeley, Meta AI, UCLA 概要：人間のフィードバックデータを使用せずに人間の好みに合わせて言語モデルを調整する方法である，コントラスト蒸留による強化学習 (RLCD) という手法を提案 2

https://arxiv.org/abs/2307.12950

背景 • Reinforcement Learning with Human Feedback (RLHF) は，人間の好みに合わせて調整(Alignment)するために用いられる(無害性，有用性，真実性など) 3

背景 • 通常のRLHFでは，人間がラベル付けしたデータを用いてReward Model(Preference Model)を学習するが，RLの学習がこのモデルに大きく依存してしまう • 人間がラベル付けしたデータ、特に高品質のデータの収集は、大規模になると費用と時間のコストが莫大になる – そもそもアノテーターの選定はどうするのか – ラベル付けされたデータの品質はどうやって担保するのか 4

背景 • これらの問題に対処するために，AI Feedbackからの強化学習 (RLAIF) やコンテキスト蒸留など，人間による注釈なしでラベルを取得するアプローチが提案されている RLAIF: 事前モデル(かそれより強いLLM)を用いて，回答の改善+Preference Score算出コンテキスト蒸留: コンテキストがなくても同じ回答になるようにFine-Tuningする Constitutional AI: Harmlessness from AI Feedback 5

背景 • しかしいくつかの問題点が存在する RLAIF: 同じプロンプトを用いて生成すると解答が似通ってしまい， S/N比が低くなってしまう( output Aのスコア: 0.54 vs output Bのスコア: 0.46) → つまりノイズの割合が増えてしまうコンテキスト蒸留: 単一の出力しかないため，ランキングが考慮されない → 悪い出力を悪いと認識する情報が欠損している(Contrastive Objectiveがない) Constitutional AI: Harmlessness from AI Feedback 6

目的 • RLAIFとコンテキスト蒸留を組み合わせてAI FeedbackによるRLの性能を改善させたい • 本論文では，LLaMA 7Bの性能改善を目指す (特にharmless outputs, helpful outputs, high-quality story outlinesについて） → より強い”オラクル”LLMにアクセスせずに，Reward Model学習のためのデータを生成する方法を提案(Reinforcement Learning from Contrast Distillation: RLCD) 7

手法 • ポジティブプロンプト，ネガティブプロンプトを作成し，生成データに対して0,1を割り当てる(だけ) ここが違うだけ 8

ポジティブプロンプト，ネガティブプロンプトにつける接尾辞一覧 (harmlessness task) 9

10.

出力例 10

11.

評価軸 • Harmlessness 攻撃的な，あるいは社会的に受け入れがたいテキストを含む対話かどうか "ありがとう！"や "ごめんなさい "のような無意味な応答ではなく、会話に役立ち，関連性のある出力でなければならない • Helpfulness 一般的に人間に情報やアドバイスを与える対話かどうか • Outlining 人間がストーリーの前提を提供し，アウトラインを与える対話かどうか 11

12.

人間による評価結果 • 人間による評価(8段階のリッカード尺度, 正規化されているので高い方が良い) • LLaMa7B, 30Bを用いており，Reward Modelの学習データ生成にみに使用 12

13.

人間によるアノテーション方法 13

14.

GPT-4に評価させた結果 • RLCD30B vs RLAIF30Bの結果のみ人間の評価と異なる 14

15.

GPT-4に評価するためのプロンプト 15

16.

定性評価たしかに提案手法が良さげ ↓ LLaMA2での結果 16

17.

さらなる分析 • 人間によってランク付けされたデータを用いて正解率を算出 • 提案手法の方がより人間のPreferenceに近いスコアを出力している？ 17

18.

さらなる分析 • ポジティブプロンプト，ネガティブプロンプトを用いてRLAIFと同じスコアリングプロンプトで学習(RLCD-Rescore) • 0-1ラベルの方が良い？ 18

19.

まとめ & 感想まとめ - Reward Modelの学習データセットを自動生成するための手法 - 既存手法(RLAIF)よりも高いスコアを達成感想 - 結局何にalignmentしてるのかよくわからない - 接尾辞を付けることで，人間が決めた評価軸方向の出力を強化しているということなのか - Reward Modelの学習考えると，クラス分類の決定境界面付近のデータはノイズが多くなるので，それを除いて，極端なデータだけ学習させることで精度がよくなる？ - 決定境界付近のデータの精度はどうなってるのか気になる - あと普通のRLHFとの比較が欲しい 19

20.

Thank you. 20