480 Views
March 29, 11
スライド概要
2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp
大規模日本語ブログコーパスにおける 言語モデルの構築と評価 ヤフー株式会社 奥野陽 颯々野学
概要 • 大規模言語モデルのトレードオフを調 査 • Web日本語Nグラムを評価 • ブログから言語モデルを構築・評価 2
発表の構成 • 背景・目的 • 大規模言語モデルの構築と評価 • 実験 3
発表の構成 • 背景・目的 – 言語モデルとは – 大規模コーパスの利用 – 研究の目的 • 大規模言語モデルの構築と評価 • 実験 4
背景・目的(1) • 言語モデルとは [北ら, 1999] – 文の確率をモデル化 – 仮名漢字変換などに応用 [森ら, 1999] – 訓練コーパスから推定 例: P(私の名前は中野です) > P(はです中野名前のは私) 5
背景・目的(2) • 近年、大規模コーパスが普及 – Webからコーパスが入手可能に – 統計的な手法では恩恵が大きい • しかし… 6
背景・目的(3) • 構築時の問題点 – 多くの計算とメモリを必要とする – 1台のコンピュータに保存できない • 利用時の問題点 – 検索などのリアルタイム処理が必要 – モデルサイズがメモリに収まらない 7
背景・目的(4) • データ量と性能はトレードオフの関係 • 適切なバランスの選択が必要 研究の目的: 大規模な言語モデルを利用する上で のトレードオフを明らかにすること 8
発表の構成 • 背景・目的 • 大規模言語モデルの構築と評価 – 単語N-gramモデル – スムージング方式 – クロスエントロピーによる評価 – MapReduceを用いたN-gram集計 • 実験 9
単語N-gramモデル • 課題:文(単語列)の生成確率を推定 • アプローチ:マルコフモデル • 単純な最尤推定: • しかし… 10 ゼロ頻度問題
Dirichletスムージング • ゼロ頻度問題に対処:スムージング • N-gram確率を(N-1)-gramを用いて補完 • 再帰的に適用し、1-gramは最尤推定 11
Kneser-Neyスムージング [Kneserら, 1995] • 工夫1:低頻度語の影響を下げる • 工夫2:低次のN-gramを滑らかにする :abの後ろに続く単語の種類数 12
クロスエントロピー • 評価指標:クロスエントロピー – テストコーパスを用いて評価 – 値が小さいほど性能が良い – 単位:ビット – パープレキシティの対数 13
MapReduceによるN-gram集計 • 言語モデルにはN-gram頻度が必要 • 大規模コーパスの集計は並列化が必須 • Hadoop MapReduceによるN-gram集 計 • 形態素解析で分かち書き 14
MapReduceとは [Jeffreyら, 2004] doc doc doc map map map reduce reduce reduce n-gram n-gram n-gram Shuffle 15
擬似コード 16
発表の構成 • 背景・目的 • 大規模言語モデルの構築と評価 • 実験 – Web日本語Nグラムを用いた予備実験 – 大規模ブログコーパスの集計 – 大規模言語モデルの評価 17
予備実験設定 • 目的:Webとブログの違いを確認 • Web日本語Nグラム[工藤ら, 2007]を評価 • テストコーパス:Wikipediaとブログから 1000文 • パラメータ – αとDは最良の値を自動推定 – 1から10000の間で10倍おきに試した 18
予備実験結果 クロスエントロピー(bit) Web日本語NグラムはBlogよりWikipediaに近い 19
実験設定 • 訓練コーパス – Yahoo! ブログ検索のデータ1年分 – LZO圧縮状態で約2TB – Yahoo! 形態素解析APIと同等の処理 • Hadoopクラスタ – 20台(マスター1台+スレーブ19台) 20
集計時間 コーパスサイズを変えて集計時間を測定 処理 形態素解析 ☓ ☓ ☓ ☓ ※単位は 時間:分 21 集計不可
評価実験設定 • モデルサイズを変えて性能評価 – しきい値以下のN-gramを削除 – しきい値を10000から100まで変化 • 実験設定 – 訓練コーパス:ブログ860GB – テストコーパス:ブログ1000文 – スムージング:Dirichlet – パラメータ:予備実験と同様 22
評価実験結果 クロスエントロピー(bit)とモデルサイズ(byte) 閾値 モバイル 23 PC クラウド
具体例 「Yahoo」で始まる3-gram 24 高頻度な3-gramの上位10件
参考文献 • 北研二, 辻井潤一. 確率的言語モデル. 東京大学出版会, 1999. • 森信介, 土屋雅稔, 山地治, 長尾真. 確率的モデルによる仮名漢字変 換. 情報処理学会論文誌, Vol.40, No.7, pp.2946-2953, 1999. • Kneser R., Ney H.. Improved backing-off for Mgram language modeling. ICASSP, pp.181-184, vol.1, 1995. • Jeffrey Dean, Sanjay Ghemawat. MapReduce: Simplified Data Processing on Large Clusters. OSDI, December, 2004. • 工藤拓, 賀沢秀人, Web 日本語N グラム第1版, 言語資源協会発行, 2007.
結論 • Webとブログはコーパスの性質が異な る • モデルサイズと性能はトレードオフ • ユースケースに合わせた選択が必要 26
今後の課題 • 言語モデルの圧縮、クラスモデル • アプリケーションでの評価 27
ご清聴ありがとうございました 28