【IT Text 自然言語処理の基礎】第3章:単語ベクトル表現

1.1K Views

November 08, 23

スライド概要

自然言語処理の基礎の輪読会第5回の発表スライドです。
2023年11月2日(木) 18:30~

profile-image

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

自然言語処理の基礎 第3章 単語ベクトル表現 p63〜p83

2.

目次 3.1 記号からベクトルへ 3.2 素性関数による単語のベクトル表現 3.3 分布仮説と単語文脈行列 3.4 特異値分解による次元削減 3.5 Word2Vec : ニューラルネットワークによる学習 3.6 単語ベクトルの応用 3.7 Fast Text : 単語よりも小さな単位の利用 3.8 単語ベクトル表現の課題と限界

3.

3.1 記号からベクトルへ ・自然言語処理に特有の問題 文字や単語を記号(離散値)ではなく、ベクトル(連続値)で表現したい ・可変長かつ再帰的な構造を機械学習ベースで活用したい ・単語の実数値ベクトルへの変換には複数アプローチが存在する 単語の持つ性質や意味をよく反映するベクトル表現を獲得したい

4.

3.2 素性関数による単語のベクトル表現 ・素性関数は単語がある条件を満たすかどうかを0もしくは1の2値で表現する指示関数によって定義され る。その数やその中身は解きたいタスクに応じて人間が決定する。 ・語彙集合に含まれる全単語に対応した素性関数を定義し、特徴ベクトルを求める。 このようにして作成した特徴ベクトルのサイズは語彙サイズに等しい ・局所表現(1-hot-encoding) 得られた「表層表現」に対応する要素のみ1、その他のベクトルは0である clever ⇆ cleverer / clever ⇆wise

5.

3.2 素性関数による単語のベクトル表現 1.見出し語(lemma)と語幹(stem) 主な利点: ・単語が活用系の違いによって異なるベクトルに変換されることを防ぐ ・活用形を区別しないことで語彙サイズが減少し、単語ベクトルのサイズを小さくできる 2.語彙資源(人間用の辞書とは趣が異なる) (単語の持つ性質や意味をよく反映するベクトル表現を獲得したい) (a)WordNet (b)格フレーム(ex,京都大学格フレーム)(c) PPDB(paraphrase) →NLTKライブラリ等を用いて利用できるものもある。

6.

3.3 分布仮説と単語文脈行列 ・単語の表層による素性関数で単語をベクトル化する方法の難点 ・分布仮説に基づいて単語ベクトルを求める方法 「 You shall know a word by the company it keeps. 」by Firth ・単語文脈行列は分布仮説に基づき単語ベクトルを獲得する頻度ベースの手法 M_{i,j} = #(x_{i},c_{j})

7.

PMI(自己相互情報量) ・頻出する文脈単語の影響を削減する手法 (猫の特徴を表す文脈単語) “ A gray tabby cat sat on a fluffy mat” window = 2 (gray,tabby,sat,on) window = 3 (a,grey,tabby,sat,on,a) ・PMI 情報理論において、独立な確率変数間の関連の強さを図る指標。

8.

3.4 特異値分解による次元削減 (SVD) 任意の実行列が 2つの直交行列と特異値からな る対角行列の内積に分解できることで、元の行列 をよりコンパクトな行列の積で近似的に表現でき る https://mieruca-ai.com/ai/lsa-lsi-svd/

9.

3.5 Word2Vec : ニューラルネットワークによる学習(推論ベース) ・分布仮説による単語ベクトルの構築をニューラルネットワークによる分類問題としてモデル化し たもの ・Continuous Bag-of-Words(CBoW) とSkip-Gramという2つのモデルが存在する 前者は文脈中の単語から中心単語を予測するニューラルネットワーク 後者は中心単語から文脈中の単語を予測するニューラルネットワーク ・上記の2つに加え、最適化の目的関数として階層的ソフトマックスと負例サンプリングの2種類 を実装したソフトウェアパッケージ

10.

窓サイズω https://arxiv.org/abs/1301.3781 softmaxを用 いて条件付き 確率分布を出 力する

11.

3.6 単語ベクトルの応用 (a)単語の類似度の測定 ・単語ベクトルを用いることで、類似度計算ができるようになり、コサイン類似度が頻繁に用いられる ・クラスタリングなどではコサイン距離を用いることがあるが、数学的な意味での距離関数ではない。 (b)アナロジー Word2Vecの大きな注目を集めた理由として、 「フランスにおけるパリはイタリアにおいては何か?」という問いを w_{France} - w_{Paris} + w_{Italy} という単語ベクトルの加減算で単語のアナロジーを推定できるこ とを示唆したこともある。

12.

3.7 Fast Text : 単語よりも小さな単位の利用 ・未知語への対応(Out-of-vocabulary)(単語ベクトルを対応するサブワードのベクトルの和で表現する) ex.FastTextモデル (参考) https://blog.research.google/2020/09/advancing-nlp-with-efficient-projection.html

13.

3.8 単語ベクトル表現の課題と限界 (a)類似度と関連度 単語類似度評価データの中には両者を厳密に区別していないものがある (b)単語ベクトルの補正 / (c)反義語 →レトロフィティングなどの手法によりある程度緩和できる (d)単語の意味の曖昧性と文脈によって変化する語義 (ex.多義語など) (e)バイアスの存在 ex.報告バイアスと選択バイアス