大規模日本語ブログコーパスにおける言語モデルの構築と評価

476 Views

March 29, 11

スライド概要

profile-image

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

大規模日本語ブログコーパスにおける 言語モデルの構築と評価 ヤフー株式会社 奥野陽 颯々野学

2.

概要 • 大規模言語モデルのトレードオフを調 査 • Web日本語Nグラムを評価 • ブログから言語モデルを構築・評価 2

3.

発表の構成 • 背景・目的 • 大規模言語モデルの構築と評価 • 実験 3

4.

発表の構成 • 背景・目的 – 言語モデルとは – 大規模コーパスの利用 – 研究の目的 • 大規模言語モデルの構築と評価 • 実験 4

5.

背景・目的(1) • 言語モデルとは [北ら, 1999] – 文の確率をモデル化 – 仮名漢字変換などに応用 [森ら, 1999] – 訓練コーパスから推定 例: P(私の名前は中野です) > P(はです中野名前のは私) 5

6.

背景・目的(2) • 近年、大規模コーパスが普及 – Webからコーパスが入手可能に – 統計的な手法では恩恵が大きい • しかし… 6

7.

背景・目的(3) • 構築時の問題点 – 多くの計算とメモリを必要とする – 1台のコンピュータに保存できない • 利用時の問題点 – 検索などのリアルタイム処理が必要 – モデルサイズがメモリに収まらない 7

8.

背景・目的(4) • データ量と性能はトレードオフの関係 • 適切なバランスの選択が必要 研究の目的: 大規模な言語モデルを利用する上で のトレードオフを明らかにすること 8

9.

発表の構成 • 背景・目的 • 大規模言語モデルの構築と評価 – 単語N-gramモデル – スムージング方式 – クロスエントロピーによる評価 – MapReduceを用いたN-gram集計 • 実験 9

10.

単語N-gramモデル • 課題:文(単語列)の生成確率を推定 • アプローチ:マルコフモデル • 単純な最尤推定: • しかし… 10 ゼロ頻度問題

11.

Dirichletスムージング • ゼロ頻度問題に対処:スムージング • N-gram確率を(N-1)-gramを用いて補完 • 再帰的に適用し、1-gramは最尤推定 11

12.

Kneser-Neyスムージング [Kneserら, 1995] • 工夫1:低頻度語の影響を下げる • 工夫2:低次のN-gramを滑らかにする :abの後ろに続く単語の種類数 12

13.

クロスエントロピー • 評価指標:クロスエントロピー – テストコーパスを用いて評価 – 値が小さいほど性能が良い – 単位:ビット – パープレキシティの対数 13

14.

MapReduceによるN-gram集計 • 言語モデルにはN-gram頻度が必要 • 大規模コーパスの集計は並列化が必須 • Hadoop MapReduceによるN-gram集 計 • 形態素解析で分かち書き 14

15.

MapReduceとは [Jeffreyら, 2004] doc doc doc map map map reduce reduce reduce n-gram n-gram n-gram Shuffle 15

16.

擬似コード 16

17.

発表の構成 • 背景・目的 • 大規模言語モデルの構築と評価 • 実験 – Web日本語Nグラムを用いた予備実験 – 大規模ブログコーパスの集計 – 大規模言語モデルの評価 17

18.

予備実験設定 • 目的:Webとブログの違いを確認 • Web日本語Nグラム[工藤ら, 2007]を評価 • テストコーパス:Wikipediaとブログから 1000文 • パラメータ – αとDは最良の値を自動推定 – 1から10000の間で10倍おきに試した 18

19.

予備実験結果 クロスエントロピー(bit) Web日本語NグラムはBlogよりWikipediaに近い 19

20.

実験設定 • 訓練コーパス – Yahoo! ブログ検索のデータ1年分 – LZO圧縮状態で約2TB – Yahoo! 形態素解析APIと同等の処理 • Hadoopクラスタ – 20台(マスター1台+スレーブ19台) 20

21.

集計時間 コーパスサイズを変えて集計時間を測定 処理 形態素解析 ☓ ☓ ☓ ☓ ※単位は 時間:分 21 集計不可

22.

評価実験設定 • モデルサイズを変えて性能評価 – しきい値以下のN-gramを削除 – しきい値を10000から100まで変化 • 実験設定 – 訓練コーパス:ブログ860GB – テストコーパス:ブログ1000文 – スムージング:Dirichlet – パラメータ:予備実験と同様 22

23.

評価実験結果 クロスエントロピー(bit)とモデルサイズ(byte) 閾値 モバイル 23 PC クラウド

24.

具体例 「Yahoo」で始まる3-gram 24 高頻度な3-gramの上位10件

25.

参考文献 • 北研二, 辻井潤一. 確率的言語モデル. 東京大学出版会, 1999. • 森信介, 土屋雅稔, 山地治, 長尾真. 確率的モデルによる仮名漢字変 換. 情報処理学会論文誌, Vol.40, No.7, pp.2946-2953, 1999. • Kneser R., Ney H.. Improved backing-off for Mgram language modeling. ICASSP, pp.181-184, vol.1, 1995. • Jeffrey Dean, Sanjay Ghemawat. MapReduce: Simplified Data Processing on Large Clusters. OSDI, December, 2004. • 工藤拓, 賀沢秀人, Web 日本語N グラム第1版, 言語資源協会発行, 2007.

26.

結論 • Webとブログはコーパスの性質が異な る • モデルサイズと性能はトレードオフ • ユースケースに合わせた選択が必要 26

27.

今後の課題 • 言語モデルの圧縮、クラスモデル • アプリケーションでの評価 27

28.

ご清聴ありがとうございました 28