要約の評価について

10.1K Views

June 08, 24

#llm #要約 #要約評価 #自然言語処理 #テキスト要約 #LLM #評価指標

スライド概要

LLMを利用して要約を生成する場合の評価についてまとめました。

ashphy

@ashphy

スライド一覧

エンジニア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

You Don't Need Next.js

next.js react

ashphy 487K

我々はなぜSSRを使うのか

react next.js

ashphy 22.4K

ChakraUIとデザイントークン

chakraui デザイントークン

ashphy 6.5K

Vue.jsからはじめるReact

react vue.js

ashphy 4.8K

パスキーパスワードがない世界

セキュリティ

ashphy 1.9K

自分だけのプログラミング言語を作ろう

ashphy 1.3K

各ページのテキスト

要約の評価について Summarization Evaluation ashphy @[email protected]

そもそも「いい要約」とは？ • 包括的である (comprehensive) • • 簡潔である (concise) • • 繰り返しを排除して短くする。裏付けのための詳細をすべて含めなくても良い。一貫性がある (coherent) • • 元の文章の重要なポイントがすべて含まれている要約それ自体が文章自体として成立している必要がある独立している (independent) • 引用するのではなく自分のことばで読んだ内容に対する理解を表現する Guidelines for Writing a Summary — Hunter College

https://www.hunter.cuny.edu/rwc/handouts/the-writing-process-1/invention/Guidelines-for-Writing-a-Summary

要約の評価をしたい要約の評価には大きく2種類ある • 内面的評価 (intrinsic) • • 要約そのものの内容や読みやすさなどを評価する外面的評価 (extrinsic) • 要約を利用する作業の達成率を測ることにより、間接的に評価 Text Summarization Challenge －自動要約の評価型ワークショップ－

http://nlp.indsys.chuo-u.ac.jp/pdf/IPSJ-MGN431204_2002.pdf

人手による内面的評価 PolyTope • 要約の評価には明確な基準というものは存在しないが、Multidimensional Quality Metric (MQM) に基づいた評価の観点 PolyTope が提案されている • Accuracy (正確性) • • • • • • 不要で無関係な文章が含まれる Omission: 重要な点が含まれていない Inaccuracy Intrinsic: 用語や概念が誤って表現されているか不正確である Inaccuracy Extrinsic: Positive-Negative Aspect: 元の文章にはない記載が含まれている元の文章が肯定的だが、要約は否定的になっている（逆もある） Fluency (流暢さ) • • • • Addition: Duplication: 単語または長い文章が不必要に繰り返される Word Form: 文法の自制などの間違い Word Order: 語順が間違っている各観点ごとにエラーを集計し点数付けする What Have We Achieved on Text Summarization?

https://arxiv.org/abs/2010.04529

人手による内面的評価ピラミッド法 • 複数の参照要約からSummarization Content Units (SCUs)を同定し、SCUが要約中に現れる回数で重み付けする＝重要な文はどの要約にも現れるはず人間が書いた参照要約 SCUs 評価対象の要約 In 1998 two Libyans indicted in 1991 for the Lockerbie bombing were still in Libya Two Libyans were indicted in 1991 for blowing up a Pan Am jumbo jet over Lockerbie, Scotland in 1988. Two Libyans, accused by the United States and Britain of bombing a New York bound Pan Am jet over Lockerbie… Two Libyan suspects were indicted in 1991. two Libyans were officially accused of the Lockerbie bombing 4 重み=4 3 2 the indictment of the two Lockerbie suspects was in 1991 重み=3 重み=1 Two Libyans accused of the 1988 Lockerbie bombing, killing 270, were sheltered by Libya for 10 years, claiming they couldn't get a fair trial… SCUsの出現回数と重みからスコアを算出

機械的に内面的な評価をしたい • 人間が作った翻訳とどれくらい一致するかを見る • 伝統的でよく使われている手法⽂章⼈間参照要約 AI どれくらい⼀致するか？評価対象の要約

一致度をどうやって測るか • • ROUGE (Recall-Oriented Understudy for Gisting Evaluation) • 両者のn-gramを見る • 文字/単語レベルでの一致を見るので言い換えをすると評価が下がる BERTScore • 両者のEmbeddingを取ってコサイン類似度で比較することで意味が近いかどうかを見る • 言い換えても同じ意味であれば一致度が上がるはず BERTScore: Evaluating Text Generation with BERT

https://arxiv.org/abs/1904.09675

正解を用意せずに評価したい • 正解を毎回用意するのも大変。継続的に評価するなら正解データがなくても評価できると嬉しい o LLMに評価させる o QAGS

LLMに評価させる (LLM as a Judge) • • LLMに評価観点を示して点数をつけさせる手法としてG-Eval が提案されているただし人間による評価との相関は改善されてきているがまだまだ低く、評価が偏ることも報告されている Coherence Consistency ρ τ ρ τ ρ τ ρ τ ρ τ ROUGE-1 0.167 0.126 0.160 0.130 0.115 0.094 0.326 0.252 0.192 0.150 BERTScore 0.284 0.211 0.110 0.090 0.193 0.158 0.312 0.243 0.225 0.175 G-Eval-4 0.582 0.457 0.507 0.425 0.455 0.378 0.547 0.433 0.514 0.418 指標 ρ:スピアマンの順位相関係数 Fluency Relevance τ:ケンドールの順位相関係数 G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment Large Language Models are not Fair Evaluators 平均

10.

QAGS (Question Answering and Generation for Summarization) • LLMで要約を生成すると事実に反することを含めることがある • 要約から質問を生成し、それを答えさせることで事実性を確かめる⽂章要約成質生問の要約に対する質問質問の答え質問の答え要約の事実性が合っていれば同じ答えになるはず Asking and Answering Questions to Evaluate the Factual Consistency of Summaries

https://arxiv.org/abs/2004.04228

11.

外面的な評価 • 要約は作成されて終わりではない。作成されたあとに誰かに読まれ、なにかに利用される。その達成率で測る。 o たとえば会議議事録の要約 o 非参加者が内容をすぐ把握できたか、時間をどれくらい節約できたか o たとえばレポート / 本の要約を見て読むかどうかを決める o 必要な情報にたどり着けたか o たどり着くまでの時間がどうだったか

12.

各種実装 • ROUGE • • ROUGE, BERTScore, G-Eval • • OpenAIによる具体的な実装例が紹介されている BERTScore • • SumEval: Well tested & Multi-language evaluation framework for Text Summarization. Prompt Flow: QnA Ada Similarity Evaluation G-Eval • MSによるPrompt Flowでの実装例

13.

まとめ ● いい要約とは ○ ● 元の文章の重要な点がすべて含まれており、簡潔で、一貫性があり、独立していること要約の評価人間が評価する、人間の作る要約と比較をする、LLMに評価観点を示して評価してもらう方法がある ○ 人間による評価と機械的な評価との間の相関はまだまだ低い。複数の評価指標を組み合わせることが必要。 ○ ● LLMアプリケーション開発においては ○ 外面的評価も組み合わせて評価しよう