【DL輪読会】Long-form Question Answeringの評価について

6.8K Views

December 22, 23

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Long-form Question Answeringの評価について Keno Harada, D1, the University of Tokyo http://deeplearning.jp/

2.

背景 質問回答システムの開発を始める → なんかいい感じに回答してくれるようになったけど、どう評価すれば良い? Long-form QAの評価について完全理解を目指します、具体的には • 評価で用いる指標 • 評価のためのデータセット作り について説明・実践できるようになることを目指します 過去発表: 自然言語生成(Natural Language Generation)の評価について2

3.

Long-form question answeringとはどのようなタスクでしょうか? 評価の際には何が難しいのでしょうか? Long-form question answering (LFQA)は、オープンエンドの質問に対して詳細で掘り 下げた回答を必要とするタスクです。この評価には、関連する文書を取得し、それを 使用して段落の長さの答えを生成することが含まれます。LFQAは、ウェブドキュメン トから適切な情報を見つけ出し、それを複数の文に合成することを必要とします。特 に、複雑な「なぜ」や「どのように」タイプの質問に対して、段落の長さの回答が含 まれる大規模かつ多様なデータセットが必要です。 LFQAの評価には、現在モデリングの進歩を意味のあるものに阻んでいる根本的な課題 があります。これらの課題は主に、モデル評価とデータセット作成に関するものです。 モデル評価においては、多くのモデルが提案されていますが、正確な評価を行うこと が難しいことが挙げられます。たとえば、与えられた質問に関連性があり、かつ正確 さや答えの網羅性などをどのように測るかといった評価の基準を決定することが挙げ られます。また、データセットの作成においても、LFQAのためのデータが限られてい ることや、それぞれの質問に対する適切な長い形式の答えを集めることが困難です。 例として、ELI5 LFQAデータセットでの評価では、スパース・アテンションとコントラ ストリーバー・ラーニングに基づくシステムが最先端の性能を発揮しましたが、そも そも評価やデータセットの基準を克服する必要があることを指摘しています。評価に はテキストの取得精度(R-Prec)やテキスト生成の品質(ROUGE-Lなど)を測る指標 が使われていますが、これらは回答の質を全面的に評価するには不十分かもしれませ ん。 By GPT-4 + Web Search 3

4.

Long-form question answeringとはどのようなタスクでしょうか? 評価の際には何が難しいのでしょうか? Long-form question answering (LFQA)は、オープンエンドの質問に対して詳細で掘り 下げた回答を必要とするタスクです。この評価には、関連する文書を取得し、それを 使用して段落の長さの答えを生成することが含まれます。LFQAは、ウェブドキュメン トから適切な情報を見つけ出し、それを複数の文に合成することを必要とします。特 に、複雑な「なぜ」や「どのように」タイプの質問に対して、段落の長さの回答が含 まれる大規模かつ多様なデータセットが必要です。 どのような評価軸を どのように計測・算出 できるか? LFQAの評価には、現在モデリングの進歩を意味のあるものに阻んでいる根本的な課題 があります。これらの課題は主に、モデル評価とデータセット作成に関するものです。 モデル評価においては、多くのモデルが提案されていますが、正確な評価を行うこと が難しいことが挙げられます。たとえば、与えられた質問に関連性があり、かつ正確 さや答えの網羅性などをどのように測るかといった評価の基準を決定することが挙げ られます。また、データセットの作成においても、LFQAのためのデータが限られてい ることや、それぞれの質問に対する適切な長い形式の答えを集めることが困難です。 例として、ELI5 LFQAデータセットでの評価では、スパース・アテンションとコントラ ストリーバー・ラーニングに基づくシステムが最先端の性能を発揮しましたが、そも そも評価やデータセットの基準を克服する必要があることを指摘しています。評価に はテキストの取得精度(R-Prec)やテキスト生成の品質(ROUGE-Lなど)を測る指標 が使われていますが、これらは回答の質を全面的に評価するには不十分かもしれませ ん。 By GPT-4 + Web Search 4

5.

目次 • • Long-form Question Answering(LFQA)とは何か? • 他のタスクとはどのように異なるタスクか LFQAでよく使用される指標について • 指標の算出にはどのようなデータ・手順が必要か 5

6.

参考文献 • ELI5: Long Form Question Answering • MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers • Hurdles to Progress in Long-form Question Answering • WebGPT: Browser-assisted question-answering with human feedback • A Critical Evaluation of Evaluations for Long-form Question Answering FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation • • • FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection 6

7.

Long-form Question Answering(LFQA)とは ELI5: Long Form Question Answering • “long-form question answering a task requiring elaborate and indepth answers to open-ended questions.” • • ”questions are complex and cannot be easily addressed by a short response or by extracting a word or phrase from an evidence document.” “open-ended questions that require explanations” Hurdles to Progress in Long-form Question Answering • “The task of long-form question answering (LFQA) involves retrieving documents relevant to a given question and using them to generate a paragraph-length answer” 7

8.

LFQAでないQA、NLPタスク Extractive QA • “Extractive question answering datasets such as TREC, SQuAD, NewsQA, SearchQA and QuAC constrain the answer to a word or short phrase from the input and evaluate using exact match or F1 with the ground truth span.” • HotpotQAも Abstractive QA • “Abstractive datasets include NarrativeQA, a dataset of movie and book summaries and CoQA, a multi-domain dialogue dataset. Both collect responses with crowdworkers and find that written answers are mostly extractive and short” • MS MARCO, TriviaQAなども Multi-document summarization • “writing a paragraph length response from multiple supporting documents can be seen as a form of query-based multi-document summarization.” • “WikiSum proposes writing Wikipedia articles as a multi-document summarization task. ElI5 requires more directed text generation to answer a question, rather than to write about a general topic” ELI5: Long Form Question Answering より 8

9.

Open-endednessとNLGタスクの関係 Open-endedness低 機械翻訳 要約 Source text: DL輪読会は とても楽しいです Reference Translation: - The DL reading group is very enjoyable. - Participating in the DL reading group is very enjoyable. Open-endedness高 タスク志向型 対話 雑談対話 Input: よ!元気してる? Output: - あんまりやな - めっちゃ元気やで - おもろい話、聞きた い? ストーリー 生成 Input: 「ハリーポッター とLLM」の脚本書いて Output: (たくさんの可能性) Open-endednessが高い = 出力空間が多様 → 評価も難しくなる Stanford CS224N NLP with Deep Learning | 2023 | Lecture 11 - Natural Language Generation より日本語訳し一部改変 9

10.

LFQAの例: ELI5(Explain Like I’m Five) • Reddit上のExplain Like I’m Fiveというsubredditから作成 • • 回答がself containedであることが求められ、予備知識がない人向けにわかりやすく説明 されている 2018年7月までの投稿で、スコア2以上(upvote数 / downvote数 >=2)の 質問で、かつ、スコア2以上の回答が最低1つあるものを選択 • 全部で27万件ほど、著者以外の人間が目視で確認し適切なものを残す • 回答の正解データとして、質問に対して一番スコアが高いものを採用 • 回答根拠の情報ソースとして2018年7月時点のCommonCrawlデータ • • • • それぞれの質問に対して100のweb sourcesを準備 → それぞれの質問あたり、数十万文字の情報ソースがある それぞれのweb sourceを文章単位に分割、質問文と高いTFIDF値を持つsentenceを抜き 出し、文脈を足し、結合することで1つのsupport documentを作成 TFIDF値を元にtrain/val/testを分割(237K/10K/25K) 10

11.

ELI5 ELI5: Long Form Question Answering より 11

12.

Long-form Question Answering(LFQA)とは何か? • • • 単語や一文では回答できない、自由形式の質問に対して、質問への回答に関 連する記述を検索して活用し、入念で詳細な回答を複数文の行うタスクであ る。 有名なLFQAベンチマークデータセットとしてELI5(Explain Like I’m five) があり、質問の例として「脳や神経系がないクラゲはどのように機能する か?」といったものが挙げられる。 Extractive QAやAbstractive QAと異なり、ソース文からの単純な単語・文 の抜き出しでは回答できない、回答に長文を要するタスクである。 12

13.

ELI5論文での評価 Evaluating long-form answers • • • • “There are several aspects to quality: answers should be topical and accurate, fluent, and coherent from start to end. We judge the accuracy aspect by comparing to the gold answer. ROUGE measures similarity between a model output and one or several references, and is often used in summarization.” “evaluators rate the fluency of human and model generated answers on a 5-point Likert Scale from “very poorly written” to “easily readable” “evaluators are given question-answer pairs and are asked if the answer is correct” “crowd-workers are given the question and answers from two models and asked to decide which answer they prefer while considering readability and accuracy” 13

14.

ROUGE(Recall-Oriented Understudy for Gisting Evaluation) 人手で作成した文章のどれくらいの割合が生成文に含まれるか? Recall-orientedとされているが、論文ではF値が報告されるので注意 ROUGE: A Package for Automatic Evaluation of Summaries より 14

15.

ROUGE(Recall-Oriented Understudy for Gisting Evaluation) 15

16.

ROUGE(Recall-Oriented Understudy for Gisting Evaluation) 16

17.

LFQA評価の課題 Hurdles to Progress in Long-form Question Answering “Simple baselines such as just repeatedly copying the question, or choosing a random training set answer can outperform LFQA systems such as RAG in terms of ROUGE-L” • ELI5のtrain/valの切り方が適切でない、という問題もある • “A possible fix is a sentence-level evaluation and then aggregating scores across generated sentences, but appropriate penalties are needed for lack of diversity and short length” • “Other possible fixes include learning task-specific metrics to measure semantic overlap or metrics to factual correctness and faithfulness to input” • “Ultimately all automatic metrics have their limitations, and human evaluation is necessary” • “they were often unfamiliar with the technical topics discussed in the questions. This made it hard for them to assess answer correctness” • “Annotators reported taking an average of 2 minutes per answer pair, many of which required careful thought & concentration” • 17

18.

LFQA評価の課題 A Critical Evaluation of Evaluations for Long-form question answering “experts consider properties such as completeness and factuality to be more decisive than surface-level aspects (e.g., conciseness and level of detail) on which crowdworkers tend to fixate” • ”even experts often disagree with each other about which answer is better; this disagreement stems from valuing fine-grained answer properties differently” • “encouraging the community to hire expert evaluators and move from poorlydefined judgments of overall preference to a multi-faceted evaluation modeling attributes such as answer completeness, factuality, and ease of understanding” • • “ROUGE is not a meaningful metric due to the open-ended nature of long-form answers” 18

19.

FActScore FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation より 19

20.

人手評価 or Reward Modelやタスクの評価にLLMを使用? GPT-4使えば人手評価代替出来そう Judging LLM-as-a-judge with MT-Bench and Chatbot Arena https://arxiv.org/abs/2306.05685 Llama2論文でも少し言及 https://arxiv.org/abs/2307.09288 LLM輪読会(毎週木曜日 午前9:00-10:30)での発表資料(原田失踪中につき中止中) RLAIF Llama 2: Open Foundation and Fine-Tuned Chat Models LLMの評価について Rakuda 日本語大規模言語モデルのベンチマーク 自然言語生成(Natural Language Generation)の評価について 20

21.

Self-RAGでの評価 “Long-form generation tasks include a biography generation task and a longform QA task ALCE-ASQA. We use FactScore to evaluate biographies, and we use official metrics of correctness (str-em), fluency based on MAUVE, and citation precision and recall for ASQA.” Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection より 21

22.

LFQAでよく使用される指標について • • • 回答の評価の際には正確性・流暢性・一貫性などの軸で、人手評価・自動評 価が行われる。 自動評価の際には、ROUGEと呼ばれる指標が用いられ、正解の解答文を参 照文と照らし合わせて算出される。しかしLFQAの回答の自由度が高いこと からROUGEは指標として妥当でないこと、ROUGEのような総合スコアでは なく、評価軸それぞれで評価を行い複合的に評価することが指摘されている。 時間・コストがかかるという欠点はあるものの、LFQAタスクでの人手評価 の必要性は指摘されている。人手評価の際にはアノテーターがLikert Scale での評価を行う場合や、回答を見比べてどちらが優れているか、その判断根 拠は何かについて自由に記述してもらう評価の方法などがある。アノテー ターがどの観点を重要視しているかが異なり、また質問・回答で扱っている 内容について詳しくない場合もあるため人手評価にも入念な設計が必要であ る。 22

23.

まとめ (冒頭の質問への人手回答 by 原田GPT(8時間 / answer) Long-form Question Answering(LFQA)とは何か? • • • 単語や一文では回答できない、自由形式の質問に対して、質問への回答に関連する記述を検索し て活用し、入念で詳細な回答を複数文の行うタスクである。 有名なLFQAベンチマークデータセットとしてELI5(Explain Like I’m five)があり、質問の例として 「脳や神経系がないクラゲはどのように機能するか?」といったものが挙げられる。 Extractive QAやAbstractive QAと異なり、ソース文からの単純な単語・文の抜き出しでは回答でき ない、回答に長文を要するタスクである。 LFQAでよく使用される指標について • 回答の評価の際には正確性・流暢性・一貫性などの軸で、人手評価・自動評価が行われる。 • 自動評価の際には、ROUGEと呼ばれる指標が用いられ、正解の解答文を参照文と照らし合わせて 算出される。しかしLFQAの回答の自由度が高いことからROUGEは指標として妥当でないこと、 ROUGEのような総合スコアではなく、評価軸それぞれで評価を行い複合的に評価することが指摘 されている。 • 時間・コストがかかるという欠点はあるものの、LFQAタスクでの人手評価の必要性は指摘されて いる。人手評価の際にはアノテーターがLikert Scaleでの評価を行う場合や、回答を見比べてどち らが優れているか、その判断根拠は何かについて自由に記述してもらう評価の方法などがある。 アノテーターがどの観点を重要視しているかが異なり、また質問・回答で扱っている内容につい て詳しくない場合もあるため人手評価にも入念な設計が必要である。 23

24.

Long-form question answeringとはどのようなタスクでしょうか? 評価の際には何が難しいのでしょうか? Long-form question answering (LFQA)は、オープンエンドの質問に対して詳細で掘り 下げた回答を必要とするタスクです。この評価には、関連する文書を取得し、それを 使用して段落の長さの答えを生成することが含まれます。LFQAは、ウェブドキュメン トから適切な情報を見つけ出し、それを複数の文に合成することを必要とします。特 に、複雑な「なぜ」や「どのように」タイプの質問に対して、段落の長さの回答が含 まれる大規模かつ多様なデータセットが必要です。 LFQAの評価には、現在モデリングの進歩を意味のあるものに阻んでいる根本的な課題 があります。これらの課題は主に、モデル評価とデータセット作成に関するものです。 モデル評価においては、多くのモデルが提案されていますが、正確な評価を行うこと が難しいことが挙げられます。たとえば、与えられた質問に関連性があり、かつ正確 さや答えの網羅性などをどのように測るかといった評価の基準を決定することが挙げ られます。また、データセットの作成においても、LFQAのためのデータが限られてい ることや、それぞれの質問に対する適切な長い形式の答えを集めることが困難です。 例として、ELI5 LFQAデータセットでの評価では、スパース・アテンションとコントラ ストリーバー・ラーニングに基づくシステムが最先端の性能を発揮しましたが、そも そも評価やデータセットの基準を克服する必要があることを指摘しています。評価に はテキストの取得精度(R-Prec)やテキスト生成の品質(ROUGE-Lなど)を測る指標 が使われていますが、これらは回答の質を全面的に評価するには不十分かもしれませ ん。 By GPT-4 + Web Search 24