【大規模言語モデル入門】6章

1.5K Views

November 07, 24

#固有表現認識 #自然言語処理 #Bert #ビタビアルゴリズム #CRF

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 28.8K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 21.3K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 17.3K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 15.2K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.5節）

京都大学人工知能研究会KaiRA 11.4K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

京都大学人工知能研究会KaiRA 11.1K

各ページのテキスト

2024年度後期輪読会#6(2024/11/07) 第6章固有表現認識京都大学理学部3回生山下素数 0

アジェンダ ◼ 固有表現認識とは ◼ 固有表現認識を用いたBertの実装 ◼ ビタビアルゴリズムによる推論 ◼ CRF層を用いたBertの実装 1

固有表現認識とは固有表現認識とは、テキストから固有表現を抽出し、固有表現の種類を分類するタスク大谷翔平は岩手県水沢市出身のプロ野球選手人名:大谷翔平地名:岩手県水沢市代表的な固有表現認識のタスクを3種類紹介易 Flat NER 難 Nested NER Discontinuous NER 同じトークンが複数の固有表現に含まれない固有表現はトークンが連続している 2

固有表現タスクに対するアプローチの種類固有表現タスクに対しては、系列ラベリング、スパンベース、生成型のアプローチがある系列ラベリングスパンベース生成型予測方法各トークンに対して固有表現ラベルを予測全てのスパンに対して固有表現ラベルを予測生成モデルで固有表現の範囲と固有表現ラベルを生成扱うことが多いタスク Flat NER Nested NER Discontinuous NER 使うことが多いモデル Bert系 Bert系 LLM系 3

処理の流れまず、Bertによる系列ラベリング手法での”一番簡単な方法による”固有表現抽出を行う処理の流れは次のようになっている Step 1 モデルに渡すデータの前処理 Step 2 モデルによる推論 Step 3 モデルの推論結果の後処理 Step 4 評価指標の計算・エラー分析学習を行う場合はここでモデルのパラメーターの最適化を行う 4

モデルに渡すデータの前処理モデルに渡すデータの前処理として次の処理を行う(dataset.mapでこれらの処理を実行) 1. テキストの正規化 • unicodedata.normalizeで正規化 2. テキストのトークナイゼーション・アライメント • transformersのAutoTokenizer.from_pretrained(model_name, label2id, id2label) でtokenizerを読み込む • tokenizer(text)でトークナイゼーション • tokenizer.convert_ids_to_tokens(tokenizer.encode(text))によって特殊トークンを含むtokenを得る • get_alignments(characters, tokens)によってchar_to_token_indicesを得る 3. ラベル作成 • 今回はIOB2記法を用いる • 固有表現の先頭トークンに”B-”を、先頭以外のトークンには”I-”を付ける • 固有表現ではないトークンには”O”を付ける • 特殊トークンの位置IDは-100に設定 4. データのパディング • transformersのDataCollatorForTokenClassification(tokenizer)をdata_collatorとして設定 5

モデルの学習 transformersのTrainerを用いてモデルを学習モデルはcl-tohoku/bert-base-japanese-v3を使う lossはCross Entropy metricはf1-score 6

モデルの推論結果の後処理モデルの出力を整える 1. 特殊トークンを除いたトークン列を得る 2. get_alignments(characters, tokens)でtoken_to_char_indicesを得る 3. 正解データと同じ形式に揃える • seqeval.metrics.sequence_labelingのget_entitiesで固有表現の開始位置、終了位置、種類を習得 7

評価指標の計算・エラー分析 1. 評価指標の計算 • 固有表現ごとの属性ごとのprecision, recall, f1-score, support(true_labelの個数), micro average, macro average, weighted averageを求める • 固有表現ではない語句がかなり多いため、正解率にはあまり意味がない • 適合率、再現率、F値を用いるのが良い • micro average:全ラベルをまとめて評価スコアを算出する方法でラベル間で固有表現の数の偏りがある場合に向いている • macro average:ラベルごとに評価スコアを算出して平均を求める方法。各ラベルの重要性を等しくしたい場合に向いている • weighted average:各ラベルの固有表現の数で重みを付けてマクロ平均を算出する方法 2. エラー分析 • モデルの予測が間違えている事例を出力する 8

10.

ラベル間の遷移可能性を考慮して予測をする改良ラベル間の遷移可能性を考慮して予測をする • “B-”の次に”B-”が並ぶなどはあり得ない • あり得ないケースの遷移スコアを-100、あり得るケースの遷移スコアを0にする • 遷移スコア+モデルの予測値のlogitsをそのトークンから別のトークンへ移るスコアとするビタビアルゴリズムを用いてスコアの高い文章を求める(動的計画法) 文 -5 -2 -3 -7 -8 -9 -6 max -6 -2 -4 9

11.

遷移スコアも学習する改良条件付き確率場(CRF)も学習することによって遷移スコアも学習する入力𝑋 = 𝑥1 , … , 𝑥𝑛 とラベル𝑌 = 𝑦1 , … , 𝑦𝑛 に対してスコア𝑠(𝑋, 𝑌)を 𝑁 𝑁 𝑠 𝑋, 𝑌 = ෍ 𝑃𝑥𝑖 ,𝑦𝑖 + ෍ 𝐴𝑦𝑖 ,𝑦𝑖+1 とし、損失関数を 𝑖=1 𝑖=0 exp(𝑠(𝑋, 𝑌)) 𝐿 = −log ෨ σ𝑌∈Γ exp(𝑠(𝑋, 𝑌)) ෨ として学習する学習した𝐴𝑦𝑖,𝑦𝑖+1 を遷移スコアとして用いる 10

12.

CRFを含むBertの実装 CRFの層をtorchcrfから取ってきて使うだけでCRFを含むBertの実装ができる ([CLS]トークンのlogitは除外して扱う必要があることに注意) 11