225 Views
December 12, 24
スライド概要
AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!
大規模言語モデル入門Ⅱ 第10章 性能評価(-10.2.3) 工学部情報B2 野村隆晃 0
アジェンダ 1. 文章の類似度評価と人の手評価 2. ベンチマークの内容 3. ベンチマークの評価方法 1
アジェンダ 1. 文章の類似度評価と人の手評価 2
文章の類似度評価 正解文字列とLLMの出力文字列の類似度を定量的にはかりたい場合に用いる Bert Score ある文字列を埋め込みモデルでトークン列<𝒙𝟏 , 𝒙𝟐 , … , 𝒙𝒏 >に変換、 正解が𝑥、予測出力が𝑥の場合 ො Rouge Score 1-gram,2-gramでの単語の正解率 3
人の手評価 LLMの出力について、人間が評価(主にABCの評価) メリット 直感に従っており、正解データがなくても可能 デメリット 大量のデータを処理できない 採点者によって、評価が異なる(κ係数) 人B/人A Aが正 Aが偽 Bが正 10 20 30 Bが偽 30 40 70 40 60 100 𝑃𝑜 − 𝑃𝑒 𝜅= 1 − 𝑃𝑒 -1<κ<1 4
アジェンダ ベンチマークの内容 5
ベンチマークとは?‘ LLM leader boardなどは、LLMの性能を図るために、テストを解かせてその正解率などをまとめて いる。画像はLLM-jp-evalのリーダーボード 6
どんな問題が使われている? よく使われているMMLU-proの数学タスクの一例 MMLUは10択問題でその正解率で性能が決定する 7
Chat Bot Area ユーザーが入力したプロンプトに対して、2つのLLMが回答を生成し、 どちらが優れているかをユーザーが判別 8
LLMeval-jpのタスク(1) 自然言語推論(jump) 前提と仮説の2つの文章が与えられたときに、仮定の文が前提の文と比較して 含意( entailment)、矛盾(contradiction)、中立(neutral)かを判別する。(完全一致) 9
LLMeval-jpのタスク(1) 自然言語推論(JaNIL) 基本的にはjampと同一だが、ひっかけ(敵対的推論)問題で構成されている、ラベルが entailment,non-tailmentの2つである。 前提:スノーボーダーが子供を見ている大人をいじめている 仮説: スノーボードが大人をいじめている (entailment) 敵対的推論ってどんなもの? 機械学習で陥りがちな3つのパターンを定義、非含意なのに含意と判断されるパターン 1. Lexical overlap (彙重複) 2. Subseqence (サブ文字列) 3. Contituent (構成要素) 10
JaNLIの敵対的推論 Lexical overlap 前提文に含まれている単語が仮定文で含まれていたら含意とする傾向 The doctor was paid by the actor. -> The doctor paid the actor.(非含意) Subsequence 前提文の文字列の一部が仮定文に含まれていたら含意とする傾向 The doctor near the actor dances. -> the actor danced. Constituent 前提文の構文解析木の中に、仮定文の構文解析木が存在する場合 If the artist slept, the actor ran. -> the artist slept 11
LLMeval-jpのタスク(1) 自然言語推論(JSeM,JSICK) JSeM 文章の特定の箇所のみを変更した前提、文章のペアで、副詞などの意味を正確を判別するする必要が ある。(タグはyes,no,undef,unkown) (前提) 飛行機は定刻通りに成田空港に着陸した。 (仮説)飛行機は定刻通り成田空港にまで到着した label: unkown (前提)太郎は老眼鏡をかけて本を読んでいる。 (仮説)太郎は老眼鏡をかけるより先に本を本を読んでいる Label: no 12
LLMeval-jpのタスク(2) 質疑応答 JEMopQA(時事問題中心)やNIILC(一般知識)での質問を行い、回答のF値で性能を図る JEMopQA 太陽の塔の設計者がなくなった施設の名前は? / 慶応義塾大学病院 NIILC 13
機械読解 比較的長い文章から、質問に対する回答をFベースで評価 2009年から10年にかけての新型インフルエンザの世界的流行に際し、WHOの マーガレット・チャン事務局長は「今、すべての人類が脅威にさらされている」 として、新型インフルエンザをすべての人類の脅威とする広報を行った。その後、 新型インフルエンザが弱毒性である事が発覚するも、顕著な感染や死亡の被害が 著しい事態を想定した警告であるフェーズレベル6/6と警告し、パンデミック (世界的大流行)を宣言した。 質問:新型インフルエンザの流行に際して、WHOは最終的に何を宣言したか 答え: 'パンデミック(世界的大流行) 14
その他の評価タスク(1) 多肢選択式質問応答 JCommonsenseQAに基づく応答 質問:人間が一番大事なものは? 選択肢:0.ショッピング,1.保護,2.命,3.生活,4.滝', エンティティ極性分析 文章から固有表現を抜き出し、固有表現の感情を肯定的、否定的で判断 月以降は気温の高い日が続き、相次ぐ台風上陸や天候不順による野菜の不作・価格 高騰など、厳しい環境のなか苦戦を強いられましたが、低価格のもやしを主材とす る『野菜をいっぱい食べる鍋 ''もやし担々鍋スープ』、『野菜をいっぱい食べる鍋 もやし鍋スープ』が大きく売上を伸ばし、主力の『博多もつ鍋スープ』も好調に推 移しました' 野菜: negative, 『〇〇スープ』:postive 15
その他のタスク(2) 読み推定 漢字、カタカナ、数字から構成された文章に対して、テキストをひらがなに変換させる。 文字数でのF値で判断 固有表現認識 文章中の固有名詞を、事前に与えられたラベルから選択 (input)ナウル共和国は、大西洋南西部に位置するナウル島にある共和国である。 (output) ナウル共和国[地名] 太平洋[地名] ナウル島[地名] 16
その他のタスク(3) 依存構造解析 Universal_Dependencyで定義された係り受け構造(Ginzaとかでも行える) 画像は、robertaによって、係り受け構造を図示した様子 述語構文解析 文章中の述語に対して、その主語を特定し、その関係を特定 統計(とうけい)は、現象を調査することによって数量で把握すること、または、 調査によって得られた数量データのことである。統計量統計の性質を調べる学問は 統計学である 17
その他のタスク(4) 述語構文解析 文章中の述語に対して、その主語を特定し、その関係を特定 (例) 統計(とうけい)は、現象を調査することによって数量で把握すること、または、調査によって得ら れた数量データのことである。統計量統計の性質を調べる学問は統計学である '調査する ヲ:現象 '把握する デ:数量 ヲ:現象 'こと、または ガ:統計 '得られた ガ:数量データ 'ことである ガ:統計 '調べる ヲ:性質 '統計学である ガ:学問' 18
その他のタスク(4) 共参照解析 文章中の同一のものを特定するタスク (例) ラスベガスは、アメリカ合衆国のネバダ州南部にある都市。同州最大にしてアメリカ合衆国西部 有数の世界都市 以下は同じものを指している (ラスベガス 都市 世界都市) (アメリカ合衆国 アメリカ合衆国) (ネバダ州 同州) 19
その他のタスク(5) 数学的推論 四則演算の文章題 カフェテリアには15個のリンゴがありました。昼食に3個を学生に配り、残りでパイを作ること にしました。1つのパイに4個のリンゴが必要だとすると、何個のパイを作ることができるでしょ うか? 意味的類似度評価 人の手で2つの文章がどれだけ似ていいるかを0-5で類似度評価したものを評価 文1:軍服を着た女性が男性を見ています。 文2:軍服を着た女性が男性を見つめています。’, 'output': '4.4' 20
アジェンダ ベンチマークの評価方法 21
ベンチマークの評価指標 いままで紹介したタスクの正解の判定を改めて示す 完全一致率(正解率) 含意、矛盾、中立を判別する自然言語推論や選択式の問題 文字ベースF値 22
ベンチマークの評価指標 集合ベース 複数の選択肢から選ぶ問題について 23
ベンチマークの指標 相関係数、順位相関係数 各データについて、実数値を算出する問題(意味的類似度評価など)に関しては、 相関係数と順位相関係数(-1から1)を用いる D: あるサンプルに対しての順位の予 想と正解の差 N: データ数 24