【IT Text 自然言語処理の基礎】第1章:自然言語処理の概要

1K Views

October 14, 23

スライド概要

自然言語処理の基礎の輪読会第2回の発表スライドです。
2023年10月12日(木) 18:45~

profile-image

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

2023年度後期輪読会#2 1.自然言語処理の概要 理学部理学科2回生 山下 素数 0

2.

自然言語処理の応用 自然言語処理はコンピューターが人間のように言語を操れるように なること目指した研究(自然言語人工言語:プログラミング言語な ど) 自然言語処理の応用は多岐にわたる ⚫ 機械翻訳 ⚫ 仮名漢字変換 ⚫ 情報検索 ⚫ 質疑応答 ⚫ 対話システム ⚫ 自動要約 ⚫ 自然言語生成 ⚫ 文法誤り訂正 など 1

3.

自然言語処理におけるテキスト分析 自然言語で書かれた文書を分析することをテキスト分析という。 大量のデータから自動的に情報を抽出・分析し、新たな知識を発見 知ったり、仮説を裏付けたりするエビデンスを見出す取り組みをテ キストマイニングという。 テキスト分析の例 ⚫ キーワード抽出 ⚫ 文書分類(感情分析など) ⚫ 文書クラスタリング ⚫ 情報抽出 2

4.

コーパス 自然言語処理の機械学習を行うためにはコーパス(テキストを収集・加工したも の)が不可欠。 ⚫ 注釈付き(タグ付き、ラベル付き)コーパス コーパスによっては各単語に品詞が付いていることがある。これらの付加的な 情報を、注釈、タグ、ラベルなどという。 ->品詞や文法について掘り下げることができる。品詞を予測するモデルを作る こともできる 注釈なし(ラベルなし)コーパス(生コーパス) 注釈が付いていないコーパス。ウィキペディアからダウンロードしているもの など。 ⚫ その他、多言語コーパス、単言語コーパス、対訳コーパス、パラレルコーパス (対訳コーパスのうち翻訳単位が明らかなもの)、コンパラブルコーパス(異なる 言語で同じトピックについて書いたもの)などがある。 3

5.

アノテーション 具体例は本を読んでもらうことにするが、自然言語には品詞の付け 方に迷うようなものがあるため、アノテーションの品質を上げるた めにはガイドラインを設定する必要がある。 アノテーション作業では、ガイドラインの仕様に従って作業を進め るとともに使用を逸脱するような事例や判断が難しい事例を記録し ておき、アノテーションの仕様を再検討・更新していく必要がある。 4

6.

コーパスに対する統計的な分析 自然言語処理でよく用いられる仮説に、「テキスト中で頻繁に出現する単語や 語句はそのテキストの中心的な話題を表す」というものがある。それについて 見ていく。 単語の意味よりも文法的な意味を強く示す単語を機能語と呼ぶ。(前置詞など) 逆に意味内容を強く示す単語を内容語と呼ぶ。(動詞、形容詞、副詞など) 単純に出現頻度が高い単語をランキングするだけでは、機能語が上位を占めて しまう傾向があり、コーパスの内容が分かりにくい。 単語を名詞に絞ったり、日本に関する文書に絞ったりして出現頻度が高い単語 をランキングしても、文章の内容を内容を示すものとしては物足りない。 =>各記事の特徴をより捉えたキーワードを見出すには、特定の文書に現れる 単語に着目すればよい。その方法としてTF-IDFを紹介する 5

7.

TF-IDF N件の文書からなるコーパスにおいて、文書dにおける単語xの出現 頻度をTF(x, d), 単語xが出現する文書の数をDF(x)と書くことにし、 文書dにおける単語xのTF-IDFスコアは次の式で定義される。 𝑁 𝑇𝐹 − 𝐼𝐷𝐹(𝑥, 𝑑) = 𝑇𝐹(𝑥, 𝑑) × log( ) 𝐷𝐹(𝑥) logの項は逆文書出現頻度と呼ばれる。この値はその単語が他の文 書にはあまり現れず、その文書でたくさん現れる場合に高くなる。 単語の出現頻度についてジップの法則が有名。 ジップの法則 単語xの出現頻度f_xとその出現順位r_xに対して、f_x r_xが定数と なる。 6

8.

自然言語の意味の学習 自然言語の文章の意味を考えるとき、その言語の文字、単語、文法 についての知識が必要。 Unicodeによって自然言語の文字を学習することはできたと言える。 単語、文法についてはどうするか? 文の意味を理解するための文の解析方法をここでは3つ取り挙げる。 ⚫ 形態素解析 ⚫ 構文解析 ⚫ 意味解析 7

9.

文章の解析 ⚫ 形態素解析 意味を持つ最小の言語単位を形態素と呼び、形態素の列に分割することを形態 素解析という。一般的に、自然言語の文章には曖昧性が存在するため、曖昧解 消が必要。日本語では単語に分かち書きをしたりする。 構文解析 文節と文節の修飾関係(係り受け)を解析し、係り受けの関係を示す木、係り受 け木を作る解析を構文解析と呼ぶ。 ⚫ 意味解析 「だれがいつどこで何をした」という情報を表す熟語項構造解析などがある。 文脈があれば意味を理解することが容易になることも多い。 名詞が省略されるゼロ代名詞や特定の人物や組織、場所を表す表現を表す固有 表現などは意味の理解が難しいことがある。 固有表現の実体を特定して曖昧性を解消することをエンティティリンキング (entity linking)と呼ぶ。 ⚫ 8

10.

まとめ まとめ1 まとめ2 まとめ3 自然言語処理の事例、アノテーション、コーパスと言った基礎的事項を学んだ コーパスの文書における単語の重要性を測るTF-IDFについて学んだ 形態素解析、構文解析、意味解析について学んだ 9