KTO: Model Alignment as Prospect Theoretic Optimization （ICML2024 ）

4.7K Views

July 25, 24

#LLMアライメント #プロスペクト理論 #強化学習 #KTO #HALO

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 86.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.8K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 57.4K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 40.5K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 35.5K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 35.3K

各ページのテキスト

DEEP LEARNING JP [DL Papers] KTO: Model Alignment as Prospect Theoretic Optimization（ICML2024） 2024.07.25 Tadashi Onishi, Matsuo Institute http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報紹介論文タイトル KTO: Model Alignment as Prospect Theoretic Optimization 出典: https://arxiv.org/abs/2402.01306 (2024.06, ICML 2024 spotlight - top 3.5%) 著者: Kawin Ethayarajh Winnie Xu Niklas Muennighoﬀ Dan Jurafsky Douwe Kiela 1 2 2 1 12 1 Stanford University (ﬁrst author was an intern at Contextual AI) 2 Contextual AI （Facebook AI Research（FAIR）とHugging FaceのOBが2023年に設立したスタートアップ）概要 • LLM Alignmentにおけるペア比較が不要な新しい手法 Kahneman-Tversky Optimization（KTO）を提案し、既存手法と比較してその有効性を検証 • 尤度を最大化するのではなく生成物の効用を直接最大化 • 二値フィードバックを使用し、データ収集が容易でノイズや非推移性に強い点が特徴 • KTOは、総じてDPOを含む他の手法と同等以上の性能を示す ※画像は出典記載のないものは、本論文から引用 https://github.com/ContextualAI/HALOs 2

⽬次背景・目的実験結果（Experiments） – KTO ≥ DPO 従来研究との比較 A Prospect Theoretic View of Alignment – Prospect Theory – HALOs (human-aware losses)とその必要性について – At sufficient scale, KTO does not need SFT – KTO data need not come from preferences – KTO vs. DPO ‒ when to use which? 結論（Conclusion） Kahneman-Tversky Optimization (KTO) – KLの推定 – Datasetの変換 – Hyperparameters（不均衡なサンプル数への対応） 3

背景・⽬的背景：LLMの能力を向上させ安全性を確保するために、人間のフィードバックが活用されている。従来手法：報酬中心のアプローチが主流で、強化学習による人間のフィードバック（RLHF）やDPO （Direct Preference Optimization）が使用されてきた。これらはペアデータが必要、報酬モデルの学習の難しい、非推移性（矛盾するフィードバック）やノイズの影響を受けやすいことが課題であった。提案手法 1つの解に対する 👍 or 👎の評価従来：ペアデータ比較が必要出典：https://github.com/ContextualAI/HALOs/blob/main/assets/report.pdf 4

https://github.com/ContextualAI/HALOs/blob/main/assets/report.pdf

従来研究との⽐較 RLHF, DPOについてはLLM 大規模言語モデル講座第6回を参照特徴 RLHF (Reinforcement Learning with Human Feedback) DPO (Direct Preference Optimization) KTO (Kahneman-Tversky Optimization) フィードバックの形式好ましい/好ましくないのペアデータ好ましい/好ましくないのペアデータ望ましい/望ましくないの二値フィードバックデータ収集の方法各入力に対して複数の出力ペアを評価各入力に対して生成された出力ペアを評各生成物に対して望ましいか望ましくな価いかを評価報酬モデルの利用人間の好みデータから報酬モデルを学習人間の好みデータから報酬モデルを学習価値関数を使用し、生成物の効用を直接最大化ポリシーの最適化報酬モデルに基づく強化学習報酬モデルに基づくポリシーの最適化価値関数に基づくポリシーの最適化損失関数 KLダイバージェンスを使用ロジスティック損失を使用 Kahneman, Tverskyの価値関数を使用データ効率一般的には低い中程度高いノイズや非推移性の影響大きい大きい小さい利点柔軟で強力データに基づいた精度の高いポリシー学データ収集が容易で、ノイズや非推移性習が可能に強い欠点データ収集と学習が複雑ノイズや非推移性の影響を受けやすい特定の状況で過小適合のリスクがある 5

https://weblab.t.u-tokyo.ac.jp/llm_contents/

Prospect Theory Prospect Theory（プロスペクト理論） 1992年にTverskyとKahnemanによって提唱された、リスク下での個人の評価や意思決定に関する行動経済学における理論例）5万円得た喜びよりも5万円失った悲しみの方が大きい価値関数価値関数 𝑣: 𝑍 → 𝑅 は、ある出力 𝑧 を基準点 𝑧! に対して、その主観的な価値を設定する。 𝑧! 実際のお金を賭けたギャンブルを提示し、確実性同等額を尋ねる実験を用いて、TverskyとKahneman（1992）は以下のような人間の価値に関する関数を提案。 𝛼で曲率を制御、リスク回避を反映中央値：𝛼 = 0.88 and 𝜆 = 2.25 これらの値は被験者により異なる特徴１：損失回避の原則個人が利益を得るよりも損失を避けることを強く好む傾向特徴２：S字型の効用関数小さな利益や損失に対して非常に敏感である人間の傾向を反映 6

HALOs (human-aware losses)とその必要性について HALOs:人間の意思決定モデルを反映する損失関数 [Tversky & Kahneman (1992)] HALOであることの重要性の評価人間のバイアスをモデル化することが実際に整合モデルの性能を向上させるかどうかを理解するために、これらのHALOとHALOでない手法（Non-HALO）を比較。具体的には、HALOが人間の意思決定バイアスを反映することで、生成モデルの整合性能を向上させるかどうかを評価 HALO DPO（Direct Preference Optimization） DPOは、好まれる出力と好まれない出力の対数尤度の差をを最大化する損失関数を使用しており、人間の意思決定のバイアスを取り入れています。 HALOでない手法（Non-HALO） CSFT（Conditional Supervised Fine-Tuning） CSFTは単純な整合方法で、トレーニング中に出力に制御トークンを前置きします。そして、推論時には、望ましい生成に対応する制御トークンを入力に付加して、良い生成を誘導 (Korbak et al., 2023) PPO（Proximal Policy Optimization, オフライン） RLHF（人間のフィードバックによる強化学習）の目 SLiC（Sequence Likelihood Calibration） SLiCは、好みのための最大マージン損失と言語モ的を最適化するために使用される手法で、Clippingを用いてモデルの更新を安定、公平な比較のため、オフライデリング損失を組み合わせた手法 (Zhao et al., 2023) ンデータのみを使用するPPOの変種を考慮 7

HALOs (human-aware losses)とその必要性について比較対象：各整合手法（HALOおよび非HALO）の生成物と、SFTターゲットの生成物を比較勝敗判定：GPT-4-0613モデルが、それぞれの生成物についてどちらが優れているかを判定結果 • HALOであることが実際にモデルの整合性において重要な利点をもたらす可能性が高いことを示す。 • Llama-{13B, 30B}において、HALO手法が他の手法に比べて優れた性能を発揮することを確認 • 人間の意思決定バイアスを反映することの重要性を強調しており、適切な損失関数を使用することで、生成モデルの性能を向上させることができることを示唆勝率-50% non-HALOs HALOs 8

Kahneman-Tversky Optimization (KTO) Kahneman, Tverskyの人間の効用モデルを使用して HALO（Human-Aware Loss）を導出好みの対数尤度を最大化するのではなく、効用を直接最適化することが可能 KTOのloss関数 Kahneman, Tverskyの標準的な価値関数（P6, 式 (4)）は、指数 α による数値的不安定性が最適化中に発生するため、同じく利得に対して凹で損失に対して凸であるロジスティック関数 σ に置き換えるリスク回避の程度を制御するために、ハイパーパラメータ β を価値関数の一部として導入。β が大きいほど、値がより早く飽和し、利得においてリスク回避的になり、損失においてリスク志向的になる。 𝑦"#$%&'()# , 𝑦*+"#$%&'()# それぞれ価値関数を定義 9

10.

KTO： KLの推定実際には、基準点 𝑧! を推定することは難しく現実的ではない。 𝜋, からのサンプリングは遅く、また人間は 𝜋, によって誘導される完全な分布を認識することはない人間の実際の信念に基づいて期待報酬を取ると、KL項のバイアスのある推定値が得られる人間はavailability heuristic を持ち、すでにフィードバックを与えた出力を過大評価する傾向がある（Tversky & Kahneman, 1973） • 人間が認識する基準点をよりよくシミュレートするために、以下の方法を取る。 • オフラインデータの同じサイズのバッチ内にある 𝑥% と 𝑦% のペアを m 組作成(𝑖 ≠ 𝑗) 𝑧! を次のように推定 • • • • 10

11.

KTO：Datasetの変換既存のFeedback Datasetとデータ変換学術研究における標準的なフィードバックデータセット（HH、SHP、OASST）は、好みデータに関する形式実験では、好みデータy- ≻ 𝑦) を次のように変換： 𝑦- ：𝑦"#$%'()# | 𝑥（望ましい分布から引き出されたもの） 𝑦) ： 𝑦*+"#$%'()# | 𝑥（望ましくない分布から引き出されたもの）非好みデータ(non-preference-data)の使用 KTOが非好みデータでも使用できることを示すために、各𝑥に対してちょうど1つの𝑦をサンプル（one-𝑦-per-𝑥 ）して実験今後の研究課題 • 好みを二値のフィードバックに分解するより複雑な方法 • スコアベースのHALOの設計 – スコアに基づくHALO（Human-Aware Loss）の設計も可能 – スコアや評価を直接反映する損失関数の設計は、より複雑なアプローチが必要だが人間の好みをより正確に反映することが期待 11

12.

KTO：Hyperparameters（不均衡なサンプル数への対応）デフォルトの重み付け関数は、損失回避の程度を制御するために2つのハイパーパラメータ 𝜆. と 𝜆/ を使用これらは両方とも1に設定されており、クラス不均衡な設定では望ましいサンプル数を 𝑛. 、望ましくないサンプル数を 𝑛* とし、以下のように設定望ましいサンプル𝑛. :望ましくないサンプル𝑛* = 1: 10の場合、𝜆/ = 1とし、 𝜆. ϵ [10, 10.33]とする [1, 4/3] の範囲は実験的に決定されており、従来のKahneman, Tverskyn価値関数（P6, 式 (4)）が損失に敏感であるのに対し、こちらは利得により敏感な価値関数となっている 12

13.

Experiments 勝率実験： GPT-4-0613を使用し、整合されたモデルの生成とSFTターゲットを比較して勝敗を判断 1.生成ベンチマーク： • MMLU（0-shot）（Hendrycks et al., 2021） • GSM8K（ 8-shot, chain-of-though）（Cobbe et al., 2021） • HumanEval（0-shot）（Chen et al., 2021） • BigBench-Hard（3-shot chain-of-thought）（Srivastava et al., 2022）実験の構成は、データ不均衡実験を除き、すべての手法で同一データ不均衡実験では、KTOのために式(8)に従って 𝜆. と𝜆/ を設定 13

14.

[beta]

Experiments: KTO ≥ DPO
• 勝率評価においてSFT+KTOは1Bから30BでSFT+DPOと競合
• KTO単独ではLlama-{7B, 13B, 30B}モデルでDPO単独よりも
優れており、7Bおよび30Bで統計的に有意（p < 0.01）
• Pythiaモデルでは、両者の間に有意差は見られず最小限のモデ
ル容量が必要であることを示唆
• 生成ベンチマーク（Table. 1）において、数学的推論データ
セットであるGSM8Kでは、DPOをKTOに置き換えるだけで、
パフォーマンスが13.5ポイント向上

14

15.

Experiments: At sufficient scale, KTO does not need SFT. 十分なスケールにおいて、KTOはSFTを必要としない KTO整合されたLlama-{13B, 30B}モデルは、SFT+KTOの対応モデルと競合しており、事前にSFTを受けていないにもかかわらず、この性能を示しています。これは、我々がテストした整合方法の中で唯一この挙動を示した方法です。おそらく、これはKTO単独で平均応答長をほぼ同じに保つ一方で、事前にSFTを行わずにDPOを実行すると応答長が劇的に増加するためです 15

16.

Experiments: KTO data need not come from preferences. KTOがデータの不均衡に対して非常に強力であり、少ない望ましいデータでも高い性能を維持可能 Llama-7Bでは、望ましいデータの最大90%を削除してもDPOを上回る性能を示す（Figure 5）学習データ量が72%減少するにもかかわらず、KTOで Alignmentしたモデルは、DPO対応モデルおよび公式の Mistral-7B-Instruct（Jiang et al., 2023）を上回る性能 16

17.

Experiments: KTO vs. DPO – when to use which? KTOを選択すべき場合二値形式のフィードバック： • フィードバックが二値形式である場合、KTOが自然な選択データの不均衡： • 望ましい例と望ましくない例の数に不均衡がある場合、KTOが効果的ノイズと非推移性の多いデータ： • データにノイズや非推移性が多い場合、KTOの方が安定して動作 DPOを選択すべき場合選好データが豊富でノイズが少ない場合： • 選好データが十分にあり、比較的一貫している場合、DPOはKTOよりも効果的であることが多いフィードバックの精度が高い場合: • フィードバックが非常に正確で、明確な選好を示す場合、DPOはより良い結果 17

18.

Conclusion KTOの有効性: • Kahneman-Tversky Optimization (KTO) が、AIモデルのアライメント手法として非常に有効であることを示した。 • 特に、大規模言語モデルにおいては、KTOがSupervised Fine-Tuning (SFT) なしでも高い性能を発揮することを確認した。アライメントの新たな視点: • KTOは、Prospect Theoryに基づいたアプローチを取り入れることで、AIモデルのアライメント問題に新たな視点を提供した。 • このアプローチは、人間の意思決定におけるバイアスやリスク回避の傾向を考慮し、モデルの出力をより人間らしいものに調整することを可能にする。実験結果: • 複数のスケールと設定で実験を行った結果、KTOがDPO（Direct Preference Optimization）よりも優れた性能を示すケースが多くあった。 • 特に、フィードバックがノイズを含む場合やデータが不均衡な場合に、KTOの方が安定して高いパフォーマンスを発揮した。 18