>100 Views
December 12, 24
スライド概要
AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!
2024年度後期輪読会#9(2024/12/12) 繰り返しペナルティの仕組みと LLM出力評価における役割 栗林 雷旗 0
アジェンダ ◼ 評価フローにおける発表トピックの位置付け ◼ 背景: トークンの尤度と自然言語 ◼ LLM出力評価における繰り返しペナルティの役割 ◼ 繰り返しペナルティの与え方 1
評価フロー全体における発表トピックの位置付け 今回はパイプライン作成のプロセスに着目 環 境 入 力 パ イ プ ラ イ ン 出 力 評 価 環境準備 今回の発表では このプロセスに着目 データセット準備 データ前処理 プロンプト テンプレート作成 パイプライン作成 質問への 回答生成 完全一致率の算出 2
背景: トークンの尤度と自然言語 信頼性の観点から尤もらしいトークンの出力は、自然言語としての品質に必ずしも比例しない 文の自然さ 情報の信頼性 LLM 3
LLM出力評価における繰り返しペナルティの役割 トークン予測時、既に生成されたトークンの生成確率を下げることで、出力結果における不自然な繰り返しを避ける トークン1 トークン3 トークン2 トークン5 トークン2 トークン2 トークン2 トークン3 トークン3 トークン4 トークン4 トークン4 トークン4 トークン5 トークン5 トークン5 トークン5 トークン6 トークン6 トークン6 トークン6 出力 トークン1 4
繰り返しペナルティを導入しないと… 既出トークンの生成確率を操作しないので、生成テキスト内に同じ語句が何度も出現しうる トークン1 トークン3 トークン1 トークン3 トークン1 トークン1 トークン1 トークン1 トークン2 トークン2 トークン2 トークン2 トークン3 トークン3 トークン3 トークン3 トークン4 トークン4 トークン4 トークン4 トークン5 トークン5 トークン5 トークン5 トークン6 トークン6 トークン6 トークン6 出力 5
繰り返しペナルティの与え方 次に続くトークンの出現確率を求める際、既出トークンのスコアを任意の定数(>1)で割る トークン名 初期確率 ペナルティ後確率 Token1 0.15 0.12 Token2 0.10 0.08 Token3 0.45 0.30 Token4 0.05 0.04 0.3 Token5 0.15 0.32 0.25 Token6 0.10 0.14 0.2 ペナルティ付与前後でのトークン出現確率 0.5 0.45 0.4 0.35 0.15 0.1 0.05 0 Token1 Token2 Token3 初期確率 Token4 Token5 Token6 ペナルティ後確率 6
LLM出力評価における繰り返しペナルティの役割 トークンの出現確率をsoftmax関数で算出する際、既出トークンの出現確率を減少させる トークン1 トークン3 トークン2 トークン5 トークン2 トークン2 トークン2 トークン3 トークン3 トークン4 トークン4 トークン4 トークン4 トークン5 トークン5 トークン5 トークン5 トークン6 トークン6 トークン6 トークン6 出力 トークン1 7
まとめ 自然言語の生成においては、情報の信頼性および言語としての自然さのバランスが求められる 文の自然さ 情報の信頼性 LLM 8
参考文献 • 大規模言語モデル入門Ⅱ • CTRL: A Conditional Transformer Language Model for Controllable Generation 9