KTO: Model Alignment as Prospect Theoretic Optimization (ICML2024 )

2.4K Views

July 25, 24

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] KTO: Model Alignment as Prospect Theoretic Optimization(ICML2024) 2024.07.25 Tadashi Onishi, Matsuo Institute http://deeplearning.jp/ 1

2.

書誌情報 紹介論文 タイトル KTO: Model Alignment as Prospect Theoretic Optimization 出典: https://arxiv.org/abs/2402.01306 (2024.06, ICML 2024 spotlight - top 3.5%) 著者: Kawin Ethayarajh Winnie Xu Niklas Muennighoff Dan Jurafsky Douwe Kiela 1 2 2 1 12 1 Stanford University (first author was an intern at Contextual AI) 2 Contextual AI (Facebook AI Research(FAIR)とHugging FaceのOBが2023年に設立したスタートアップ) 概要 • LLM Alignmentにおけるペア比較が不要な新しい手法 Kahneman-Tversky Optimization(KTO) を提案し、既存手法と比較してその有効性を検証 • 尤度を最大化するのではなく生成物の効用を直接最大化 • 二値フィードバックを使用し、データ収集が容易でノイズや非推移性に強い点が特徴 • KTOは、総じてDPOを含む他の手法と同等以上の性能を示す ※画像は出典記載のないものは、本論文から引用 https://github.com/ContextualAI/HALOs 2

3.

⽬次 背景・目的 実験結果(Experiments) – KTO ≥ DPO 従来研究との比較 A Prospect Theoretic View of Alignment – Prospect Theory – HALOs (human-aware losses)とその必要性につ いて – At sufficient scale, KTO does not need SFT – KTO data need not come from preferences – KTO vs. DPO ‒ when to use which? 結論(Conclusion) Kahneman-Tversky Optimization (KTO) – KLの推定 – Datasetの変換 – Hyperparameters(不均衡なサンプル数への対 応) 3

4.

背景・⽬的 背景:LLMの能力を向上させ安全性を確保するために、人間のフィードバックが活用されている。 従来手法:報酬中心のアプローチが主流で、強化学習による人間のフィードバック(RLHF)やDPO (Direct Preference Optimization)が使用されてきた。これらはペアデータが必要、報酬モデルの学習 の難しい、非推移性(矛盾するフィードバック)やノイズの影響を受けやすいことが課題であった。 提案手法 1つの解に対する 👍 or 👎の評価 従来:ペアデータ 比較が必要 出典:https://github.com/ContextualAI/HALOs/blob/main/assets/report.pdf 4

5.

従来研究との⽐較 RLHF, DPOについてはLLM 大規模言語モデル講座 第6回を参照 特徴 RLHF (Reinforcement Learning with Human Feedback) DPO (Direct Preference Optimization) KTO (Kahneman-Tversky Optimization) フィードバックの形式 好ましい/好ましくないのペアデータ 好ましい/好ましくないのペアデータ 望ましい/望ましくないの二値フィード バック データ収集の方法 各入力に対して複数の出力ペアを評価 各入力に対して生成された出力ペアを評 各生成物に対して望ましいか望ましくな 価 いかを評価 報酬モデルの利用 人間の好みデータから報酬モデルを学習 人間の好みデータから報酬モデルを学習 価値関数を使用し、生成物の効用を直接 最大化 ポリシーの最適化 報酬モデルに基づく強化学習 報酬モデルに基づくポリシーの最適化 価値関数に基づくポリシーの最適化 損失関数 KLダイバージェンスを使用 ロジスティック損失を使用 Kahneman, Tverskyの価値関数を使用 データ効率 一般的には低い 中程度 高い ノイズや非推移性の影響 大きい 大きい 小さい 利点 柔軟で強力 データに基づいた精度の高いポリシー学 データ収集が容易で、ノイズや非推移性 習が可能 に強い 欠点 データ収集と学習が複雑 ノイズや非推移性の影響を受けやすい 特定の状況で過小適合のリスクがある 5

6.

Prospect Theory Prospect Theory(プロスペクト理論) 1992年にTverskyとKahnemanによって提唱された、リスク 下での個人の評価や意思決定に関する行動経済学における理論 例)5万円得た喜びよりも5万円失った悲しみの方が大きい 価値関数 価値関数 𝑣: 𝑍 → 𝑅 は、ある出力 𝑧 を基準点 𝑧! に対して、その主 観的な価値を設定する。 𝑧! 実際のお金を賭けたギャンブルを提示し、確実性同等額を尋ねる 実験を用いて、TverskyとKahneman(1992)は以下のような 人間の価値に関する関数を提案。 𝛼で曲率を制御、リスク回避を反映 中央値:𝛼 = 0.88 and 𝜆 = 2.25 これらの値は被験者により異なる 特徴1:損失回避の原則 個人が利益を得るよりも損失を避けることを強く好む傾向 特徴2:S字型の効用関数 小さな利益や損失に対して非常に敏感である人間の傾向を反映 6

7.

HALOs (human-aware losses)とその必要性について HALOs:人間の意思決定モデルを反映する損失関数 [Tversky & Kahneman (1992)] HALOであることの重要性の評価 人間のバイアスをモデル化することが実際に整合モデルの性能を向上させるかどうかを理解するために、 これらのHALOとHALOでない手法(Non-HALO)を比較。 具体的には、HALOが人間の意思決定バイアスを反映することで、生成モデルの整合性能を向上させるか どうかを評価 HALO DPO(Direct Preference Optimization) DPOは、好まれる出力と好まれない出力の対数尤度 の差をを最大化する損失関数を使用しており、人間の意 思決定のバイアスを取り入れています。 HALOでない手法(Non-HALO) CSFT(Conditional Supervised Fine-Tuning) CSFTは単純な整合方法で、トレーニング中に出力 に制御トークンを前置きします。そして、推論時に は、望ましい生成に対応する制御トークンを入力に 付加して、良い生成を誘導 (Korbak et al., 2023) PPO(Proximal Policy Optimization, オフライン) RLHF(人間のフィードバックによる強化学習)の目 SLiC(Sequence Likelihood Calibration) SLiCは、好みのための最大マージン損失と言語モ 的を最適化するために使用される手法で、Clippingを用 いてモデルの更新を安定、公平な比較のため、オフライ デリング損失を組み合わせた手法 (Zhao et al., 2023) ンデータのみを使用するPPOの変種を考慮 7

8.

HALOs (human-aware losses)とその必要性について 比較対象:各整合手法(HALOおよび非HALO)の生成物と、SFTターゲットの生成物を比較 勝敗判定:GPT-4-0613モデルが、それぞれの生成物についてどちらが優れているかを判定 結果 • HALOであることが実際にモデルの整合性において重要な利点をもたらす可能性が高いことを示す。 • Llama-{13B, 30B}において、HALO手法が他の手法に比べて優れた性能を発揮することを確認 • 人間の意思決定バイアスを反映することの重要性を強調しており、適切な損失関数を使用することで、生成モデルの 性能を向上させることができることを示唆 勝率-50% non-HALOs HALOs 8

9.

Kahneman-Tversky Optimization (KTO) Kahneman, Tverskyの人間の効用モデルを使用して HALO(Human-Aware Loss)を導出 好みの対数尤度を最大化するのではなく、効用を直接最 適化することが可能 KTOのloss関数 Kahneman, Tverskyの標準的な価値関数(P6, 式 (4)) は、指数 α による数値的不安定性が最適化中に発生する ため、同じく利得に対して凹で損失に対して凸であるロ ジスティック関数 σ に置き換える リスク回避の程度を制御するために、ハイパーパラメー タ β を価値関数の一部として導入。β が大きいほど、 値がより早く飽和し、利得においてリスク回避的にな り、損失においてリスク志向的になる。 𝑦"#$%&'()# , 𝑦*+"#$%&'()# それぞれ価値関数を定義 9

10.

KTO: KLの推定 実際には、基準点 𝑧! を推定することは難しく現実的ではない。 𝜋, からのサンプリングは遅く、また人間は 𝜋, によって誘導される完全な分布を認識することはない 人間の実際の信念に基づいて期待報酬を取ると、KL項のバイアスのある推定値が得られる 人間はavailability heuristic を持ち、すでにフィードバックを与えた出力を過大評価する傾向がある (Tversky & Kahneman, 1973) • 人間が認識する基準点をよりよくシミュレートするために、以下の方法を取る。 • オフラインデータの同じサイズのバッチ内にある 𝑥% と 𝑦% のペアを m 組作成(𝑖 ≠ 𝑗) 𝑧! を次のように推定 • • • • 10

11.

KTO:Datasetの変換 既存のFeedback Datasetとデータ変換 学術研究における標準的なフィードバックデータセット(HH、SHP、OASST)は、好みデータに関する形式 実験では、好みデータy- ≻ 𝑦) を次のように変換: 𝑦- :𝑦"#$%'()# | 𝑥(望ましい分布から引き出されたもの) 𝑦) : 𝑦*+"#$%'()# | 𝑥(望ましくない分布から引き出されたもの) 非好みデータ(non-preference-data)の使用 KTOが非好みデータでも使用できることを示すために、各𝑥に対してちょうど1つの𝑦をサンプル (one-𝑦-per-𝑥 )して実験 今後の研究課題 • 好みを二値のフィードバックに分解するより複雑な方法 • スコアベースのHALOの設計 – スコアに基づくHALO(Human-Aware Loss)の設計も可能 – スコアや評価を直接反映する損失関数の設計は、より複雑なアプローチが必要だが人間の好みをより正確に反映する ことが期待 11

12.

KTO:Hyperparameters(不均衡なサンプル数への対応) デフォルトの重み付け関数は、損失回避の程度を制御するために2つのハイパーパラメータ 𝜆. と 𝜆/ を使用 これらは両方とも1に設定されており、クラス不均衡な設定では望ましいサンプル数を 𝑛. 、望ましくないサン プル数を 𝑛* とし、以下のように設定 望ましいサンプル𝑛. :望ましくないサンプル𝑛* = 1: 10の場合、𝜆/ = 1とし、 𝜆. ϵ [10, 10.33]とする [1, 4/3] の範囲は実験的に決定されており、従来のKahneman, Tverskyn価値関数(P6, 式 (4))が 損失に敏感であるのに対し、こちらは利得により敏感な価値関数となっている 12

13.

Experiments 勝率実験: GPT-4-0613を使用し、整合されたモデルの生成とSFTターゲットを比較して勝敗を判断 1.生成ベンチマーク: • MMLU(0-shot)(Hendrycks et al., 2021) • GSM8K( 8-shot, chain-of-though)(Cobbe et al., 2021) • HumanEval(0-shot)(Chen et al., 2021) • BigBench-Hard(3-shot chain-of-thought)(Srivastava et al., 2022) 実験の構成は、データ不均衡実験を除き、すべての手法で同一 データ不均衡実験では、KTOのために式(8)に従って 𝜆. と𝜆/ を設定 13

14.
[beta]
Experiments: KTO ≥ DPO
• 勝率評価においてSFT+KTOは1Bから30BでSFT+DPOと競合
• KTO単独ではLlama-{7B, 13B, 30B}モデルでDPO単独よりも
優れており、7Bおよび30Bで統計的に有意(p < 0.01)
• Pythiaモデルでは、両者の間に有意差は見られず最小限のモデ
ル容量が必要であることを示唆
• 生成ベンチマーク(Table. 1)において、数学的推論データ
セットであるGSM8Kでは、DPOをKTOに置き換えるだけで、
パフォーマンスが13.5ポイント向上

14

15.

Experiments: At sufficient scale, KTO does not need SFT. 十分なスケールにおいて、KTOはSFTを必要としない KTO整合されたLlama-{13B, 30B}モデルは、SFT+KTOの対応モデルと競合しており、事前にSFTを受けてい ないにもかかわらず、この性能を示しています。 これは、我々がテストした整合方法の中で唯一この挙動を示した方法です。おそらく、これはKTO単独で平均 応答長をほぼ同じに保つ一方で、事前にSFTを行わずにDPOを実行すると応答長が劇的に増加するためです 15

16.

Experiments: KTO data need not come from preferences. KTOがデータの不均衡に対して非常に強力であり、 少ない望ましいデータでも高い性能を維持可能 Llama-7Bでは、望ましいデータの最大90%を削 除してもDPOを上回る性能を示す(Figure 5) 学習データ量が72%減少するにもかかわらず、KTOで Alignmentしたモデルは、DPO対応モデルおよび公式の Mistral-7B-Instruct(Jiang et al., 2023)を上回る性能 16

17.

Experiments: KTO vs. DPO – when to use which? KTOを選択すべき場合 二値形式のフィードバック: • フィードバックが二値形式である場合、KTOが自然な選択 データの不均衡: • 望ましい例と望ましくない例の数に不均衡がある場合、KTOが効果的 ノイズと非推移性の多いデータ: • データにノイズや非推移性が多い場合、KTOの方が安定して動作 DPOを選択すべき場合 選好データが豊富でノイズが少ない場合: • 選好データが十分にあり、比較的一貫している場合、DPOはKTOよりも効果的であることが多い フィードバックの精度が高い場合: • フィードバックが非常に正確で、明確な選好を示す場合、DPOはより良い結果 17

18.

Conclusion KTOの有効性: • Kahneman-Tversky Optimization (KTO) が、AIモデルのアライメント手法として非常に有効で あることを示した。 • 特に、大規模言語モデルにおいては、KTOがSupervised Fine-Tuning (SFT) なしでも高い性能 を発揮することを確認した。 アライメントの新たな視点: • KTOは、Prospect Theoryに基づいたアプローチを取り入れることで、AIモデルのアライメント 問題に新たな視点を提供した。 • このアプローチは、人間の意思決定におけるバイアスやリスク回避の傾向を考慮し、モデルの出 力をより人間らしいものに調整することを可能にする。 実験結果: • 複数のスケールと設定で実験を行った結果、KTOがDPO(Direct Preference Optimization) よりも優れた性能を示すケースが多くあった。 • 特に、フィードバックがノイズを含む場合やデータが不均衡な場合に、KTOの方が安定して高い パフォーマンスを発揮した。 18