【IT Text 自然言語処理の基礎】第1章：自然言語処理の概要

1.6K Views

October 14, 23

#自然言語処理 #テキスト分析 #コーパス #TF-IDF #文解析

スライド概要

自然言語処理の基礎の輪読会第2回の発表スライドです。
2023年10月12日(木) 18:45～

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 31.4K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 24.4K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 23.9K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 20.5K

【物体検出】MaskFormer

京都大学人工知能研究会KaiRA 15.9K

【物体検出】DINO

京都大学人工知能研究会KaiRA 14.6K

各ページのテキスト

2023年度後期輪読会#2 1.自然言語処理の概要理学部理学科2回生山下素数 0

自然言語処理の応用自然言語処理はコンピューターが人間のように言語を操れるようになること目指した研究(自然言語人工言語:プログラミング言語など) 自然言語処理の応用は多岐にわたる ⚫ 機械翻訳 ⚫ 仮名漢字変換 ⚫ 情報検索 ⚫ 質疑応答 ⚫ 対話システム ⚫ 自動要約 ⚫ 自然言語生成 ⚫ 文法誤り訂正など 1

自然言語処理におけるテキスト分析自然言語で書かれた文書を分析することをテキスト分析という。大量のデータから自動的に情報を抽出・分析し、新たな知識を発見知ったり、仮説を裏付けたりするエビデンスを見出す取り組みをテキストマイニングという。テキスト分析の例 ⚫ キーワード抽出 ⚫ 文書分類(感情分析など) ⚫ 文書クラスタリング ⚫ 情報抽出 2

コーパス自然言語処理の機械学習を行うためにはコーパス(テキストを収集・加工したもの)が不可欠。 ⚫ 注釈付き(タグ付き、ラベル付き)コーパスコーパスによっては各単語に品詞が付いていることがある。これらの付加的な情報を、注釈、タグ、ラベルなどという。 ->品詞や文法について掘り下げることができる。品詞を予測するモデルを作ることもできる注釈なし(ラベルなし)コーパス(生コーパス) 注釈が付いていないコーパス。ウィキペディアからダウンロードしているものなど。 ⚫ その他、多言語コーパス、単言語コーパス、対訳コーパス、パラレルコーパス (対訳コーパスのうち翻訳単位が明らかなもの)、コンパラブルコーパス(異なる言語で同じトピックについて書いたもの)などがある。 3

アノテーション具体例は本を読んでもらうことにするが、自然言語には品詞の付け方に迷うようなものがあるため、アノテーションの品質を上げるためにはガイドラインを設定する必要がある。アノテーション作業では、ガイドラインの仕様に従って作業を進めるとともに使用を逸脱するような事例や判断が難しい事例を記録しておき、アノテーションの仕様を再検討・更新していく必要がある。 4

コーパスに対する統計的な分析自然言語処理でよく用いられる仮説に、「テキスト中で頻繁に出現する単語や語句はそのテキストの中心的な話題を表す」というものがある。それについて見ていく。単語の意味よりも文法的な意味を強く示す単語を機能語と呼ぶ。(前置詞など) 逆に意味内容を強く示す単語を内容語と呼ぶ。(動詞、形容詞、副詞など) 単純に出現頻度が高い単語をランキングするだけでは、機能語が上位を占めてしまう傾向があり、コーパスの内容が分かりにくい。単語を名詞に絞ったり、日本に関する文書に絞ったりして出現頻度が高い単語をランキングしても、文章の内容を内容を示すものとしては物足りない。 =>各記事の特徴をより捉えたキーワードを見出すには、特定の文書に現れる単語に着目すればよい。その方法としてTF-IDFを紹介する 5

TF-IDF N件の文書からなるコーパスにおいて、文書dにおける単語xの出現頻度をTF(x, d), 単語xが出現する文書の数をDF(x)と書くことにし、文書dにおける単語xのTF-IDFスコアは次の式で定義される。 𝑁 𝑇𝐹 − 𝐼𝐷𝐹(𝑥, 𝑑) = 𝑇𝐹(𝑥, 𝑑) × log( ) 𝐷𝐹(𝑥) logの項は逆文書出現頻度と呼ばれる。この値はその単語が他の文書にはあまり現れず、その文書でたくさん現れる場合に高くなる。単語の出現頻度についてジップの法則が有名。ジップの法則単語xの出現頻度f_xとその出現順位r_xに対して、f_x r_xが定数となる。 6

自然言語の意味の学習自然言語の文章の意味を考えるとき、その言語の文字、単語、文法についての知識が必要。 Unicodeによって自然言語の文字を学習することはできたと言える。単語、文法についてはどうするか？文の意味を理解するための文の解析方法をここでは3つ取り挙げる。 ⚫ 形態素解析 ⚫ 構文解析 ⚫ 意味解析 7

文章の解析 ⚫ 形態素解析意味を持つ最小の言語単位を形態素と呼び、形態素の列に分割することを形態素解析という。一般的に、自然言語の文章には曖昧性が存在するため、曖昧解消が必要。日本語では単語に分かち書きをしたりする。構文解析文節と文節の修飾関係(係り受け)を解析し、係り受けの関係を示す木、係り受け木を作る解析を構文解析と呼ぶ。 ⚫ 意味解析「だれがいつどこで何をした」という情報を表す熟語項構造解析などがある。文脈があれば意味を理解することが容易になることも多い。名詞が省略されるゼロ代名詞や特定の人物や組織、場所を表す表現を表す固有表現などは意味の理解が難しいことがある。固有表現の実体を特定して曖昧性を解消することをエンティティリンキング (entity linking)と呼ぶ。 ⚫ 8

10.

まとめまとめ１まとめ２まとめ３自然言語処理の事例、アノテーション、コーパスと言った基礎的事項を学んだコーパスの文書における単語の重要性を測るTF-IDFについて学んだ形態素解析、構文解析、意味解析について学んだ 9

11.