【大規模言語モデル入門】４章4.4~4.6

2.6K Views

October 24, 24

#大規模言語モデル #指示チューニング #強化学習 #RLHF #InstructGPT

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 31.4K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 24.3K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 23.9K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 20.5K

【物体検出】MaskFormer

京都大学人工知能研究会KaiRA 15.8K

【物体検出】DINO

京都大学人工知能研究会KaiRA 14.6K

各ページのテキスト

KaiRA 後期輪読会大規模言語モデル入門 2024/10/24 第4章大規模言語モデルの進展 (4.4～4.6) 京都大学工学部 4回生河田賢斗 0

アジェンダ 4.4 指示チューニング 4.4.1 データセットの再利用 4.4.2 人手でデータセットを作成 4.4.3 指示チューニングの問題 4.5 人間のフィードバックからの強化学習 4.5.1 報酬モデリング 4.5.2 強化学習 4.5.3 REINFORCE 4.5.4 指示チューニングとRLHF 4.6 ChatGPT 1

4.4 指示チューニング 4.4 指示チューニング指示チューニング(Instruction Tuning) とは?  指示を含んだプロンプトと理想的な出力テキストの組で構成されるデータセットを用いたファインチューニングによってLLMのアライメントを行う方法  事前学習の段階では、主に最適な次の単語を予測するように学習されており、一般的な指示に従う能力を向上させ、より有用で正確な応答を引き出すことを目的としている 2

4.4 指示チューニング 4.4.1 データセットの再利用 FLAN(Finetuned LAnguage Net) の論文にてGPT-3と同程度のパラメータ数を有するLLMにファインチューニングを行った →多数のタスクにて zero-shot 学習の性能が GPT-3 を上回った FLANでは、様々なタスクのデータセットをプロンプトと出力テキストの組で構成される指示チューニングのデータセットに変換既存の自然言語処理のデータセットを再利用して指示チューニングのデータセットを構築できる 3

4.4 指示チューニング他にも、Natural Instructions, Super-Natural Instructions, P3 等の大規模データセットが同様の方法で構築されているまた、こうしたデータセットを連結して新たな大規模データセットを作成→モデルを訓練する試みも行われている Ex. (FLANで用いられたデータセット) + (Super-Natural Instructions・P3) + (chain-of-thought推論 + 対話の事例) → Flan 2022 Collection モデルについて (Flan 2022 Collection) + (PaLM(最大5400億パラメータ)) → Flan-PaLM (Flan 2022 Collection) + T5 → Flan-T5 4

4.4 指示チューニング 4.4.2 人手でデータセットを作成 GPT-3 指示チューニング強化学習 InstructGPT InstructGPTについて (発表年・企業) 2022, OpenAI (データセット) (人手で作成されたプロンプト and InstructGPT のAPI に対して送信されたプロンプト) + (人手で作成された理想的な出力) およそ15,000 件程度のデータセット 5

4.4 指示チューニング 4.4.3 指示チューニングの問題 (1)大規模かつ高品質なデータセットを作成することが難しい人手で大規模かつ高品質なデータセットを構築するには高い人的コストを要する → FLANのように既存のデータセットを用いればよいのでは? → 出力の多様性を確保することが難しい (2)モデルの出力に対してフィードバックを行えない (理想的な出力テキスト) = (正解) として与える必要がある → モデルが実際に出力したテキストに対するフィードバックが行えない加えて、(ⅰ)～(ⅱ)の問題点もある (ⅰ)創造的な生成タスクでは理想的な出力を定義し難い (ⅱ)回答を生成する際に特定の知識を要する場合がある 6

4.5 人間のフィードバックからの強化学習 4.5 人間のフィードバックからの強化学習人間のフィードバックからの強化学習(reinforcement learning from human feedback; RLHF) InstructGPT 訓練時の流れ ⅰ. 大規模コーパス→言語モデル(次単語予測)→事前訓練済みモデル(GPT-3) ⅱ. (プロンプト) + (理想的な出力) を人手で作成→指示チューニング →指示チューニング済みモデル ⅲ. (プロンプト) + (モデルの出力) に対して優劣を人手で付与→報酬モデリング →報酬モデル ⅳ. (プロンプト)→(強化学習)→(強化学習済みモデル) i. : 事前学習、ⅱ: 指示チューニング、ⅲ: 報酬モデル、ⅳ : 強化学習 RLHF : ⅲ. & ⅳ. 7

4.5 人間のフィードバックからの強化学習 4.5 人間のフィードバックからの強化学習 RLHF で行われること 1. 指示チューニング済みモデルがテキストを出力する 2. 人手で1.で出力されたテキストに対して優劣のラベルを付与したデータセットを作成 3. 2.で作成されたデータセットを用いて、報酬を予測する報酬モデルを訓練 4. 最後に、強化学習により報酬を最大化するように指示チューニング済みモデルをファインチューニングする InstructGPTでは報酬モデルのデータセットの大部分は指示チューニング済みモデルの出力であるが、一部は強化学習済みモデルの出力が使われている 8

10.

4.5 人間のフィードバックからの強化学習 4.5.1 報酬モデリング RLHFでは人間の割り当てた報酬をそのまま学習するのではなく、報酬を予測するモデルを学習して使う →生成されたテキストに対して報酬を予測するモデルを学習する = 「報酬モデリング」 (手順) 1. (プロンプト) + (テキスト) の組に対して人手で優劣のラベルを付与したデータセットを構築 2. 任意のプロンプトとテキストに対して報酬をスカラー値で予測する報酬モデルを、上のデータセットを用いて学習報酬モデルの学習では1.のデータセットの作成方法が重要 →複数人でスカラー値を直接付与させると、ノイズが大きくなるという課題 →一つのプロンプトに対して複数のテキストを生成し、順位付けを行う 9

11.

4.5 人間のフィードバックからの強化学習本書ではInstructGPTのデータセット作成について述べられている (手順) 1. 人手で作成されたプロンプト及び初期のInstructGPTのAPIに対して送信されたプロンプトから約5万件のプロンプトデータセットを作成 2. 各プロンプトに対して K = 4 から K = 9 のテキストを生成する 3. 生成されたテキストの順位付け(Rank付け)を行う 4. 一つのプロンプトに対してテキスト同士の優劣の比較(C<A 等)が生成される 5. それぞれの比較を一つの事例として扱って報酬モデルの学習を行う 10

12.

4.5 人間のフィードバックからの強化学習ここで訓練に用いる損失関数は下記の通りである(活性化関数はシグモイド関数) , , ~ 報酬モデルを、データセットに含まれるプロンプトを、テキストの比較において上位のテキストを、下位のテキストをとすると、訓練はを最大化するように行われる →損失関数によって好ましいテキストとそうでないテキストのスコアの差が大きくなるように学習が進行すなはち、報酬モデルは、好ましいテキストには高いスコア(報酬)を、好ましくない場合には低いスコア(報酬)をスカラー値で出力するようになるなお、最後に報酬モデルの出力にバイアス項を追加し、モデルの出力の平均値が 0となるように正規化する 11

13.

4.5 人間のフィードバックからの強化学習 4.5.2強化学習報酬モデルが出力した報酬を用いた強化学習により指示チューニング済みモデルをファインチューニングする強化学習では、エージェントが環境の中で試行錯誤しながら学習を行う具体的には? 現在の状態*から報酬を最大化するような行動*を選択するエージェントの方策*を求める状態 : プロンプト及び生成されたテキスト行動 : 語彙からのトークン選択方策 : モデルの出力するトークンの確率分布 12

14.

4.5 人間のフィードバックからの強化学習 (手順) 1. エージェントにプロンプトが与えられる(状態) 2. エージェントは、方策に基づいて、与えられたプロンプトに対するトークンを生成する(行動) 3. エージェントは、テキストへのトークンの追加を繰り返してテキストを生成する(状態の更新) RLHFでは大規模言語モデルを方策として使用するプロンプトに対して方策がテキスト･･･を出力する確率はり前のトークン列をと表記し、以下のように与えられるは方策よのパラメータである･･･式(1) 13

15.

4.5 人間のフィードバックからの強化学習 InstructGPTでは、初期のInstructGPTのAPIに送信された約4.7万件のプロンプトを含んだ強化学習用のデータセット作成強化学習に使用されるプロンプトのデータセットを、データセットに含まれるプロンプトxとテキストyの報酬をとする RLHFの目的はを最大化する方策のパラメータを求めること →これはプロンプトxに対してから生成したテキストyの報酬の期待値を最大化するパラメータを求める問題である ~ ~ ( | , ) ･･･式(A) 上記のパラメータを求めるために強化学習が使われる(最適化問題)  報酬について強化学習に用いられる報酬は、報酬モデルる何故か? を導入するが、正則化項も含め 14

16.

4.5 人間のフィードバックからの強化学習 RLHFは、指示チューニング済みモデルのファインチューニングを行う →ファインチューニング時にモデルのパラメータを更新しすぎると、事前学習や指示チューニングで学習した内容を忘れてしまう可能性よって、高い報酬を得ることに特化するのではなく、前段階で学習した内容を保存するために、正則化項を導入正則化項は、元々の指示チューニング済みモデルと大きく異なる出力を抑制 RLHFでの報酬は以下のように定義できる(右辺第2項が正則化項) ( | , ) ( | , ) タである･･･式(2) は指示チューニング済みモデルの確率分布、はハイパーパラメーなお、報酬モデルのパラメータ及び指示チューニング済みモデルのパラメータは訓練時に更新されない 15

17.

4.5 人間のフィードバックからの強化学習強化学習の報酬に導入される正則化項はカルバック・ライブラー情報量応(下記の式を参照) 𝒌𝒍 に対 ~ 次に、式(2)に式(1)を代入して式を整理すると式(3)を得る･･･式(3) すると、指示付きチューニング済みモデルが出力に含まれる各トークン･･･に対して低い確率を与えると報酬が減少し、各トークンに対して方策が低い確率を与えると報酬が増加する以上より次の2点が実現 : 1. 指示チューニング済みモデルの予測と大幅に異なる出力を抑制 2. 方策が多様なトークンを選択することを促進 16

18.

4.5 人間のフィードバックからの強化学習 Instruct GPT RLHFでの学習後に一部の自然言語処理タスクにおいて性能低下が認められた →Alignment Tax(アライメントによる性能低下のコスト) よって、RLHFと事前学習タスクの双方を同時に考慮した学習を行う必要性具体的には下記のパラメータを求める問題を解く ~ ~ ( | , ) ･･･式(4) ~ は事前学習に用いたコーパス、はハイパーパラメータであるコーパスからサンプリングされたテキストxに含まれるトークン列をとし、モデルの入力トークン⾧をKとすれば、(4)の右辺は ~ ･･････と変形できる 17

19.

4.5 人間のフィードバックからの強化学習 4.5.3 REINFORCE 強化学習の手法である方策勾配法の内、最も単純な手法がREINFORCE(またはモンテカルロ方策勾配法)と呼ばれる先の式(A)を最適化する際に、以下のように方策を更新する(期待値の勾配を利用) ( ) さらに式変形を行い、 ~ ( ) ~ ~ ( | , ) からの勾配の推定を可能とする ~ ( | , ) ~ ~ ( | , ) ] 18

20.

4.5 人間のフィードバックからの強化学習前頁では下記の式を得た ~ ~ ( | , ) ~ ] ~ ( | , ) ( ) ( ) ( ) よって、求めたい方策勾配はプロンプトと ( ) から近似的に算出可能ングしたテキスト ( ) ( ) ~ () ~ ( | , ) からサンプリ () () () 以上より、パラメータの更新は次のように行われる ( ) ( ) () () () () が正であればが大きくなるように、が負であればが小さくなるように方策パラメータの更新が実行される →報酬の大きなテキストが生成されやすくなる InstructGPTではproximal policy optimization(PPO)が使用される 19

21.

4.5 人間のフィードバックからの強化学習 4.5.4 指示チューニングとRLHF (1) 大規模かつ高品質なデータセットを作成することが難しい (2) モデルの出力に対してフィードバックを行えないという問題点が指示チューニングにはあった (1)についてはテキストの優劣を判断すればよいため、人的コストが大幅に減少 (2)についてはモデルの出力に対して直接フィードバック可能となる指示チューニング : トークン単位での正解の付与 RLHF : テキスト生成後1回のみ報酬を付与(信用割当問題) 信用割当問題 : モデルが生成したテキストのうち、どのトークンがどの程度テキストの優劣に影響するのかを推定する問題 20

22.

4.6 ChatGPT 4.6 ChatGPT ChatGPT (2023, OpenAI) (特徴) 大規模言語モデルを対話形式で操作 (指示チューニング) + (RLHF) + (対話形式のデータセット)の組で学習情報は公式ブログ(https://openai.com/blog/chatgpt) で公開されている指示チューニング : ユーザとモデルとの模擬的な会話を含んだデータセット(すべて人手で作成) + (IntructGPTで使用したデータセット) → 指示チューニング 21

https://openai.com/blog/chatgpt

23.

4.6 ChatGPT 報酬モデル : 初めに、ユーザとモデルとの会話を収集したデータセットを構築 (モデル側のメッセージは実際のモデルからの出力を使用) → データセットの中からモデルの実際の出力をランダムに選択 →同一の会話の文脈において代わりとなるメッセージをモデルに出力させる →これらの複数のモデルが出力するメッセージの優劣を順序付けて、報酬モデル用のデータセットを作成 →報酬モデルのデータセット構築・訓練と強化学習を数回繰り返す →最終的なモデルを学習 22