【DL輪読会】自然言語生成(Natural Language Generation)の評価について

5.7K Views

October 06, 23

#Natural Language Generation #NLG #Machine Learning #AI #Evaluation Metrics

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 89.8K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 64.9K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60.7K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 46K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 45.8K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 43.9K

各ページのテキスト

DEEP LEARNING JP [DL Papers] 自然言語生成(Natural Language Generation)の評価について Keno Harada, D1, the University of Tokyo http://deeplearning.jp/

http://deeplearning.jp/

背景 LLM講義の最終課題で生成タスクを扱う • 文章要約タスク • Instruction following • 皆さんがChatGPTを使うようにいろんなpromptが来る問題設定生成文の評価について完全理解を目指します、具体的には • ROUGE scoreの算出 • RLHFのようなHuman preferenceのデータの取り方について説明でき、実践できるようになる 2

https://deeplearning.jp/llm2023/

実際に評価用のデータを集めてみましょう！ • instructGPT的なテストデータ作成 • • 5択問題、要約問題も作成いただける方は以下のcolabで作成したデータを原田宛に送っていただければと思います • • https://docs.google.com/forms/d/e/1FAIpQLSd-oQrwOP-D3mtBo9_aTi2fbvB7sfPV9URQBlwRSZhPI5kSg/viewform?usp=sf_link https://colab.research.google.com/drive/1u7NcA3nLGhUTibQqJpkYqz4DZOltjMgF?usp= drive_link Chatbot arena • https://chat.lmsys.org/ 3

参考文献 • 概観 • Evaluation of Text Generation: A Survey • • • • Stanford CS224N NLP with Deep Learning | 2023 | Lecture 11 - Natural Language Generation CS685 Spring 2023 Evaluating text generation 要約タスク • • Evaluation and Benchmarks (↑論文著者がEMNLP 2020で実施したTutorial) XL-Sum: Large-Scale Multilingual Abstractive Summarization for 44 Languages Human evaluation / preference 周り • • • Training language models to follow instructions with human feedback Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback PaLM 2 Technical Report • • • Experts, Errors, and Context: A Large-Scale Study of Human Evaluation for Machine Translation Llama 2: Open Foundation and Fine-Tuned Chat Models Fine-Grained Human Feedback Gives Better Rewards for Language Model Training 4

自然言語生成(Natural Language Generation, NLG)とは自然言語処理 (Natural Language Processing)の一部 NLP = NLG + NLU(Natural Language Understanding、自然言語理解) “ NLGは、流暢で、首尾一貫し、かつ人間が消費（理解）しやすい有用な言語出力を生成するシステムに焦点 ” Stanford CS224N NLP with Deep Learning | 2023 | Lecture 11 - Natural Language Generation より 5

http://web.stanford.edu/class/cs224n/slides/cs224n-2023-lecture10-nlg.pdf

NLG システムの例機械翻訳システム入力: 英語の文章出力: 日本語に翻訳された文章対話型アシストツール入力: 対話履歴出力: ユーザーへの返答 6

NLG システムの例 (developed by 髙城さん) 要約 + 翻訳 + QA 入力: ユーザーからの質問 + 論文中の記述出力: 日本語での要約、返答 7

https://weblab.t.u-tokyo.ac.jp/dt_team/髙城-頌太/

Open-endednessとNLGタスクの関係 Open-endedness低機械翻訳要約 Source text: DL輪読会はとても楽しいです Reference Translation: - The DL reading group is very enjoyable. - Participating in the DL reading group is very enjoyable. Open-endedness高タスク志向型対話雑談対話 Input: よ！元気してる？ Output: - あんまりやな - めっちゃ元気やで - おもろい話、聞きたい？ストーリー生成 Input: 「ハリーポッターとLLM」の脚本書いて Output: (たくさんの可能性) Open-endednessが高い = 出力空間が多様 → 評価も難しくなる Stanford CS224N NLP with Deep Learning | 2023 | Lecture 11 - Natural Language Generation より日本語訳し一部改変 8

http://web.stanford.edu/class/cs224n/slides/cs224n-2023-lecture10-nlg.pdf

NLGの評価 • Human-centric evaluation metrics • • Untrained automatic metrics • • • • • 人間が生成文の評価を行う、タスクごとに評価基準が与えられることもあるモデルの生成文と人間が作成した文(reference texts)を比べて評価 string overlap, content overlap, string distance, or lexical diversity 翻訳タスク: BLUE 要約タスク: ROUGE Machine-learned metrics • 人間の判断を模擬するように学習したモデルを使用して2つの文章の類似度を求めるなど 9

10.

Human-centric evaluation metrics • NLGの目的が「人間に役立つ出力をする」ことなので人間による評価は重要 • 大きく分けて2種の評価方法 • Intrinsic evaluation: 生成文に対して評価を行う • Fluency, coherence, factuality and correctness, adequacy, commonsense, style / formality, grammaticality, typicality, redundancy etc • 生成文1つに対してスコアづけを行う方法 • Inconsistentだしなぜそのようなやり方なのかjustificationがない、という報告も • 複数の文を提示してランクづけ/スコアづけを行ってもらう方法 • より高いlabeler間の一致、相対評価だけじゃなく絶対評価も得られるような工夫も(RankME) • Extrinsic evaluation: システムとしてユーザーのためになったかどうかの評価を行う • ChatGPTの導入によって生産性がN%向上とかも？課題 • お金もかかるし、時間もかかる、専門性が高いタスクはなおさら大変 • クラウドソースしてもquality control大変 • 研究によって手順がバラバラだったり、人間同士のブレもあるので再現が困難 • NLG系の研究論文のうち評価者の数を報告しているのはたった57%という報告も • 10

11.

Intrinsic evaluationの例 RankME: Reliable Human Ratings for NLG より 11

https://github.com/jeknov/RankME/tree/master

12.

Untrained automatic metrics Evaluation of Text Generation: A Survey より 12

https://arxiv.org/pdf/2006.14799.pdf

13.

ROUGE(Recall-Oriented Understudy for Gisting Evaluation) 人手で作成した文章のどれくらいの割合が生成文に含まれるか？ Recall-orientedとされているが、論文ではF値が報告されるので注意 ROUGE: A Package for Automatic Evaluation of Summaries より 13

https://aclanthology.org/W04-1013.pdf

14.

ROUGE(Recall-Oriented Understudy for Gisting Evaluation) 14

15.

ROUGE(Recall-Oriented Understudy for Gisting Evaluation) 15

16.

Machine-learned metrics Evaluation and Benchmarksより 16

https://nlg-world.github.io/Part-IV-Evaluation.pdf

17.

Machine-learned metrics: Reward modeling from human preference • ROUGEスコアの上昇 != 人間にとって良い要約 • SFT on human demonstration < optimizing for RM from human preference Learning to summarize from human feedbackより 17

https://arxiv.org/pdf/2009.01325.pdf

18.

Machine-learned metrics: Reward modeling from human preference データの集め方 • • Step 0: タスク理解 • 自分たちでsummaryの見比べ、labelerを少数雇ってdisagreementについて議論、instructionの叩き台作り Step 1: labelerへのオンボーディング • タスクの説明とトレーニング、一定のスピードで一定の一致率(研究者との)を達成した人をその後のlabelerとして本採用 • Step 2: データ収集 • 自作したアノテーションツールでデータ収集 • 要約を行う本文を見る前に要約文を読んでみての軽い解釈や気になりをメモしてもらう • 本文、2つの要約文を見比べて、9段階評価でどちらが優れているかの評価をする • Step 3: labelerへのフィードバック • 大体の比較は1lablerで行われるが、特定のデータ(全体の10%)は共通した要約文の比較を行う • Quality controlやlabeler間のdisagreementの調整のフィードバックに用いる Step 4: 研究者との認識すり合わせ • • • • Labelerとの一致率を測るために研究者自身も評価研究者同士が80%以上一致するとされるデータに関してlabelerも判断が一致するようにlabelerごとに閾値を計算 One-on-one video callやoffice hour、chat roomなど 18

19.

Machine-learned metrics: Reward modeling from human preference データの集め方 Learning to summarize from human feedbackより 19

https://arxiv.org/pdf/2009.01325.pdf

20.

Machine-learned metrics: Reward modeling from human preference データの集め方 Learning to summarize from human feedbackより 20

https://arxiv.org/pdf/2009.01325.pdf

21.

Intrinsic evaluation データ(4つの軸での7段階Likertスコア)の集め方 Learning to summarize from human feedbackより 21

https://arxiv.org/pdf/2009.01325.pdf

22.

Human preference/evaluationデータの集め方論文名・blog名データ数や集め方など Training language models to follow instructions with human feedback Playground interface経由で提出されたpromptをもとに評価(user_id をもとにtrain/val/test切っている、testのuserはtrainにはいない) 1userからは200promptまで 3196prompt、base policyに比べてどれくらい好まれたかの割合 PaLM 2 Technical Report 翻訳タスクにおいてhuman evalを使用 sample数は不明だが、human rater２人のスコアを平均、general quality, gender agreementそれぞれのスコアを0~3で評価してもらう labelerへのinstructionはAppendix D.9.2 MQMの指標も使用 Llama 2: Open Foundation and Fine-Tuned Chat Models 2つモデルの出力を提示され、どちらが優れているか答える(7つの選択肢) 4000 prompt、1回の評価に対して3人のannotatorが評価 labelerの選定に関してはA.5.4 Annotator Selection RLHF用のデータは1,418,091件 Judging LLM-as-a-judge with MT-Bench and Chatbot Arena 58人のhuman labeler、それぞれ最低20個のpromptに対するモデル A,Bの優劣に関して評価 80 prompts, 6 modelsなので 80 * 6C2 = 1200に評価しないといけない、集まったvote数は3000voteなので、大体1つの評価には2人~3人ついている評価に関する注意、prompt, モデルA, Bの出力が与えられてA is better, B is better, tieの三個の選択肢から選ぶ、skipすることもできる(最大5回) 評価は5段階の絶対評価、1件の予測に対して、3人がそれぞれ独立に評価し、その平均値を最終的な評価 AIエンジニア3名、データアノテーター7名（ELYZA内のData Factory というチームのメンバー）で手分けをして評価 ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」について評価者にはELYZA-tasks-100 手動評価ガイドライン(5段階評価)に従って作業の解説 : (2) 評価編 22

23.

Reward Modelやタスクの評価にLLMを使用する Judging LLM-as-a-judge with MT-Bench and Chatbot Arena https://arxiv.org/abs/2306.05685 Llama2論文でも少し言及 https://arxiv.org/abs/2307.09288 LLM輪読会(毎週木曜日午前9:00-10:30)での過去発表資料 RLAIF Llama 2: Open Foundation and Fine-Tuned Chat Models LLMの評価について参加希望者はご連絡ください(@KH_ls_ippon) 発表者ウルトラ激烈募集中 23

24.

Judging LLM-as-a-judge with MT-Bench and Chatbot Arena 24

25.

Judging LLM-as-a-judge with MT-Bench and Chatbot Arena 25

26.

Judging LLM-as-a-judge with MT-Bench and Chatbot Arena 26

27.

Llama 2: Open Foundation and Fine-Tuned Chat Models 27

28.

Alignmentの際にLLMによるPreferenceデータで学習事前学習後、Alignmentする際にHuman Preferenceデータ集めるの大変 → Preferenceデータを人間に頼らず行えないか？ Palm 2 XSをbase modelとして、要約タスクにおいて SFT vs RLHF vs RLAIF で比較 SFTを上回り、RLHFと同等の性能を確認 (所感) デカいモデルの出力 SFT + RLAIFでタスク特化モデルを小さくしていける？より大きいモデルサイズSFTとの比較見たかった (instruct GPTの最初の図みたいな) 28

29.

RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback 29

30.