【大規模言語モデル入門Ⅱ】10章10.1~10.2.3

1.7K Views

December 12, 24

#大規模言語モデル #性能評価 #ベンチマーク #自然言語処理 #LLM

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 30.5K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 23.4K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 22.5K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 19.4K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

京都大学人工知能研究会KaiRA 13.7K

【物体検出】MaskFormer

京都大学人工知能研究会KaiRA 13K

各ページのテキスト

大規模言語モデル入門Ⅱ 第10章性能評価(-10.2.3) 工学部情報B2 野村隆晃 0

アジェンダ 1. 文章の類似度評価と人の手評価 2. ベンチマークの内容 3. ベンチマークの評価方法 1

アジェンダ 1. 文章の類似度評価と人の手評価 2

文章の類似度評価正解文字列とLLMの出力文字列の類似度を定量的にはかりたい場合に用いる Bert Score ある文字列を埋め込みモデルでトークン列<𝒙𝟏 , 𝒙𝟐 , … , 𝒙𝒏 >に変換、正解が𝑥、予測出力が𝑥の場合 ො Rouge Score 1-gram,2-gramでの単語の正解率 3

人の手評価 LLMの出力について、人間が評価(主にABCの評価) メリット直感に従っており、正解データがなくても可能デメリット大量のデータを処理できない採点者によって、評価が異なる(κ係数) 人B/人A Aが正 Aが偽 Bが正 10 20 30 Bが偽 30 40 70 40 60 100 𝑃𝑜 − 𝑃𝑒 𝜅= 1 − 𝑃𝑒 -1<κ<1 4

アジェンダベンチマークの内容 5

ベンチマークとは？‘ LLM leader boardなどは、LLMの性能を図るために、テストを解かせてその正解率などをまとめている。画像はLLM-jp-evalのリーダーボード 6

どんな問題が使われている？よく使われているMMLU-proの数学タスクの一例 MMLUは10択問題でその正解率で性能が決定する 7

Chat Bot Area ユーザーが入力したプロンプトに対して、2つのLLMが回答を生成し、どちらが優れているかをユーザーが判別 8

10.

LLMeval-jpのタスク(1) 自然言語推論(jump) 前提と仮説の2つの文章が与えられたときに、仮定の文が前提の文と比較して含意( entailment)、矛盾(contradiction)、中立(neutral)かを判別する。(完全一致) 9

11.

LLMeval-jpのタスク(1) 自然言語推論(JaNIL) 基本的にはjampと同一だが、ひっかけ(敵対的推論)問題で構成されている、ラベルが entailment,non-tailmentの2つである。前提:スノーボーダーが子供を見ている大人をいじめている仮説: スノーボードが大人をいじめている (entailment) 敵対的推論ってどんなもの？機械学習で陥りがちな3つのパターンを定義、非含意なのに含意と判断されるパターン 1. Lexical overlap (彙重複) 2. Subseqence (サブ文字列) 3. Contituent (構成要素) 10

12.

JaNLIの敵対的推論 Lexical overlap 前提文に含まれている単語が仮定文で含まれていたら含意とする傾向 The doctor was paid by the actor. -> The doctor paid the actor.(非含意) Subsequence 前提文の文字列の一部が仮定文に含まれていたら含意とする傾向 The doctor near the actor dances. -> the actor danced. Constituent 前提文の構文解析木の中に、仮定文の構文解析木が存在する場合 If the artist slept, the actor ran. -> the artist slept 11

13.

LLMeval-jpのタスク(1) 自然言語推論(JSeM,JSICK) JSeM 文章の特定の箇所のみを変更した前提、文章のペアで、副詞などの意味を正確を判別するする必要がある。(タグはyes,no,undef,unkown) (前提) 飛行機は定刻通りに成田空港に着陸した。 (仮説)飛行機は定刻通り成田空港にまで到着した label: unkown (前提)太郎は老眼鏡をかけて本を読んでいる。 (仮説)太郎は老眼鏡をかけるより先に本を本を読んでいる Label: no 12

14.

LLMeval-jpのタスク(2) 質疑応答 JEMopQA(時事問題中心)やNIILC(一般知識)での質問を行い、回答のF値で性能を図る JEMopQA 太陽の塔の設計者がなくなった施設の名前は？ / 慶応義塾大学病院 NIILC 13

15.

機械読解比較的長い文章から、質問に対する回答をFベースで評価 2009年から10年にかけての新型インフルエンザの世界的流行に際し、WHOのマーガレット・チャン事務局長は「今、すべての人類が脅威にさらされている」として、新型インフルエンザをすべての人類の脅威とする広報を行った。その後、新型インフルエンザが弱毒性である事が発覚するも、顕著な感染や死亡の被害が著しい事態を想定した警告であるフェーズレベル6/6と警告し、パンデミック（世界的大流行）を宣言した。質問：新型インフルエンザの流行に際して、WHOは最終的に何を宣言したか答え: 'パンデミック（世界的大流行） 14

16.

その他の評価タスク(1) 多肢選択式質問応答 JCommonsenseQAに基づく応答質問：人間が一番大事なものは？選択肢：0.ショッピング,1.保護,2.命,3.生活,4.滝', エンティティ極性分析文章から固有表現を抜き出し、固有表現の感情を肯定的、否定的で判断月以降は気温の高い日が続き、相次ぐ台風上陸や天候不順による野菜の不作・価格高騰など、厳しい環境のなか苦戦を強いられましたが、低価格のもやしを主材とする『野菜をいっぱい食べる鍋 ''もやし担々鍋スープ』、『野菜をいっぱい食べる鍋もやし鍋スープ』が大きく売上を伸ばし、主力の『博多もつ鍋スープ』も好調に推移しました' 野菜: negative, 『〇〇スープ』:postive 15

17.

その他のタスク(2) 読み推定漢字、カタカナ、数字から構成された文章に対して、テキストをひらがなに変換させる。文字数でのF値で判断固有表現認識文章中の固有名詞を、事前に与えられたラベルから選択 (input)ナウル共和国は、大西洋南西部に位置するナウル島にある共和国である。 (output) ナウル共和国[地名] 太平洋[地名] ナウル島[地名] 16

18.

その他のタスク(3) 依存構造解析 Universal_Dependencyで定義された係り受け構造(Ginzaとかでも行える) 画像は、robertaによって、係り受け構造を図示した様子述語構文解析文章中の述語に対して、その主語を特定し、その関係を特定統計（とうけい）は、現象を調査することによって数量で把握すること、または、調査によって得られた数量データのことである。統計量統計の性質を調べる学問は統計学である 17

19.

その他のタスク(4) 述語構文解析文章中の述語に対して、その主語を特定し、その関係を特定 (例) 統計（とうけい）は、現象を調査することによって数量で把握すること、または、調査によって得られた数量データのことである。統計量統計の性質を調べる学問は統計学である '調査するヲ：現象 '把握するデ：数量ヲ：現象 'こと、またはガ：統計 '得られたガ：数量データ 'ことであるガ：統計 '調べるヲ：性質 '統計学であるガ：学問' 18

20.

その他のタスク(4) 共参照解析文章中の同一のものを特定するタスク (例) ラスベガスは、アメリカ合衆国のネバダ州南部にある都市。同州最大にしてアメリカ合衆国西部有数の世界都市以下は同じものを指している (ラスベガス都市世界都市) (アメリカ合衆国アメリカ合衆国) (ネバダ州同州) 19

21.

その他のタスク(5) 数学的推論四則演算の文章題カフェテリアには15個のリンゴがありました。昼食に3個を学生に配り、残りでパイを作ることにしました。1つのパイに4個のリンゴが必要だとすると、何個のパイを作ることができるでしょうか？意味的類似度評価人の手で2つの文章がどれだけ似ていいるかを0-5で類似度評価したものを評価文1：軍服を着た女性が男性を見ています。文2：軍服を着た女性が男性を見つめています。’, 'output': '4.4' 20

22.

アジェンダベンチマークの評価方法 21

23.

ベンチマークの評価指標いままで紹介したタスクの正解の判定を改めて示す完全一致率(正解率) 含意、矛盾、中立を判別する自然言語推論や選択式の問題文字ベースF値 22

24.

ベンチマークの評価指標集合ベース複数の選択肢から選ぶ問題について 23

25.

ベンチマークの指標相関係数、順位相関係数各データについて、実数値を算出する問題(意味的類似度評価など)に関しては、相関係数と順位相関係数(-1から1)を用いる D: あるサンプルに対しての順位の予想と正解の差 N: データ数 24