4K Views
June 08, 24
スライド概要
LLMを利用して要約を生成する場合の評価についてまとめました。
要約の評価について Summarization Evaluation ashphy @[email protected]
そもそも「いい要約」とは? • 包括的である (comprehensive) • • 簡潔である (concise) • • 繰り返しを排除して短くする。裏付けのための詳細をすべて含めなくても 良い。 一貫性がある (coherent) • • 元の文章の重要なポイントがすべて含まれている 要約それ自体が文章自体として成立している必要がある 独立している (independent) • 引用するのではなく自分のことばで読んだ内容に対する理解を表現する Guidelines for Writing a Summary — Hunter College
要約の評価をしたい 要約の評価には大きく2種類ある • 内面的評価 (intrinsic) • • 要約そのものの内容や読みやすさなどを評価する 外面的評価 (extrinsic) • 要約を利用する作業の達成率を測ることにより、間接的に評価 Text Summarization Challenge -自動要約の評価型ワークショップ-
人手による内面的評価 PolyTope • 要約の評価には明確な基準というものは存在しないが、Multidimensional Quality Metric (MQM) に基づいた評価の観点 PolyTope が提案されている • Accuracy (正確性) • • • • • • 不要で無関係な文章が含まれる Omission: 重要な点が含まれていない Inaccuracy Intrinsic: 用語や概念が誤って表現されているか不正確である Inaccuracy Extrinsic: Positive-Negative Aspect: 元の文章にはない記載が含まれている 元の文章が肯定的だが、要約は否定的になっている(逆もある) Fluency (流暢さ) • • • • Addition: Duplication: 単語または長い文章が不必要に繰り返される Word Form: 文法の自制などの間違い Word Order: 語順が間違っている 各観点ごとにエラーを集計し点数付けする What Have We Achieved on Text Summarization?
人手による内面的評価 ピラミッド法 • 複数の参照要約からSummarization Content Units (SCUs)を同 定し、SCUが要約中に現れる回数で重み付けする = 重要な文はどの要約にも現れるはず 人間が書いた参照要約 SCUs 評価対象の要約 In 1998 two Libyans indicted in 1991 for the Lockerbie bombing were still in Libya Two Libyans were indicted in 1991 for blowing up a Pan Am jumbo jet over Lockerbie, Scotland in 1988. Two Libyans, accused by the United States and Britain of bombing a New York bound Pan Am jet over Lockerbie… Two Libyan suspects were indicted in 1991. two Libyans were officially accused of the Lockerbie bombing 4 重み=4 3 2 the indictment of the two Lockerbie suspects was in 1991 重み=3 重み=1 Two Libyans accused of the 1988 Lockerbie bombing, killing 270, were sheltered by Libya for 10 years, claiming they couldn't get a fair trial… SCUsの出現回数と重みから スコアを算出
機械的に内面的な評価をしたい • 人間が作った翻訳とどれくらい一致するかを見る • 伝統的でよく使われている手法 ⽂章 ⼈間 参照要約 AI どれくらい⼀致するか? 評価対象の要約
一致度をどうやって測るか • • ROUGE (Recall-Oriented Understudy for Gisting Evaluation) • 両者のn-gramを見る • 文字/単語レベルでの一致を見るので言い換えをすると評価が下がる BERTScore • 両者のEmbeddingを取ってコサイン類似度で比較することで意味が 近いかどうかを見る • 言い換えても同じ意味であれば一致度が上がるはず BERTScore: Evaluating Text Generation with BERT
正解を用意せずに評価したい • 正解を毎回用意するのも大変。継続的に評価するなら正解デ ータがなくても評価できると嬉しい o LLMに評価させる o QAGS
LLMに評価させる (LLM as a Judge) • • LLMに評価観点を示して点数をつけさせる手法としてG-Eval が提案されている ただし人間による評価との相関は改善されてきているがまだ まだ低く、評価が偏ることも報告されている Coherence Consistency ρ τ ρ τ ρ τ ρ τ ρ τ ROUGE-1 0.167 0.126 0.160 0.130 0.115 0.094 0.326 0.252 0.192 0.150 BERTScore 0.284 0.211 0.110 0.090 0.193 0.158 0.312 0.243 0.225 0.175 G-Eval-4 0.582 0.457 0.507 0.425 0.455 0.378 0.547 0.433 0.514 0.418 指標 ρ:スピアマンの順位相関係数 Fluency Relevance τ:ケンドールの順位相関係数 G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment Large Language Models are not Fair Evaluators 平均
QAGS (Question Answering and Generation for Summarization) • LLMで要約を生成すると事実に反することを含めることがある • 要約から質問を生成し、それを答えさせることで事実性を確かめる ⽂章 要約 成 質 生 問の 要約に対する質問 質問の答え 質問の答え 要約の事実性が合っていれば同じ答えになるはず Asking and Answering Questions to Evaluate the Factual Consistency of Summaries
外面的な評価 • 要約は作成されて終わりではない。作成されたあとに誰かに 読まれ、なにかに利用される。その達成率で測る。 o たとえば会議議事録の要約 o 非参加者が内容をすぐ把握できたか、時間をどれくらい節約できたか o たとえばレポート / 本 の要約を見て読むかどうかを決める o 必要な情報にたどり着けたか o たどり着くまでの時間がどうだったか
各種実装 • ROUGE • • ROUGE, BERTScore, G-Eval • • OpenAIによる具体的な実装例が紹介されている BERTScore • • SumEval: Well tested & Multi-language evaluation framework for Text Summarization. Prompt Flow: QnA Ada Similarity Evaluation G-Eval • MSによるPrompt Flowでの実装例
まとめ ● いい要約とは ○ ● 元の文章の重要な点がすべて含まれており、簡潔で、一貫性があり、独立 していること 要約の評価 人間が評価する、人間の作る要約と比較をする、LLMに評価観点を示して 評価してもらう方法がある ○ 人間による評価と機械的な評価との間の相関はまだまだ低い。複数の評価 指標を組み合わせることが必要。 ○ ● LLMアプリケーション開発においては ○ 外面的評価も組み合わせて評価しよう