クエリログとスニペットの単語連接頻度に基づくWeb検索クエリのセグメンテーション

284 Views

March 29, 11

#Web検索クエリ #セグメンテーション #クエリログ #スニペット #SVM

スライド概要

Yahoo!デベロッパーネットワーク

@ydnjp

スライド一覧

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで

Yahoo!デベロッパーネットワーク 195.5K

ゼロから始める転移学習

Yahoo!デベロッパーネットワーク 92.5K

ヤフーにおける WebAuthn と Passkey の UX の紹介と考察 #idcon #fidcon

idcon fidcon

Yahoo!デベロッパーネットワーク 83.5K

OpenID Connectとネイティブアプリを取り巻く仕様と動向 Yahoo! JAPANの取り組み #openid #openid_tokyo

openid openid_tokyo

Yahoo!デベロッパーネットワーク 65.8K

運用業務とスクラムは本当に組み合わせにくいのか︖運用業務が大半を占めるプロダクト開発での試行錯誤

devsumi

Yahoo!デベロッパーネットワーク 44K

ZAP - ZCPをベースとしたマルチK8sのアプリケーション実行基盤 #YJTC / YJTC21 B-3

yjtc

Yahoo!デベロッパーネットワーク 34.4K

各ページのテキスト

クエリログとスニペットの単語連接頻度に基づくWeb検索クエリのセグメンテーションヤフー株式会社三宅純平，塚本浩司，颯々野学

発表内容 • • • • 研究背景研究目的 Web検索クエリの傾向分析クエリログとスニペットの単語連接頻度に基づくクエリセグメンテーション – 提案手法の説明 – 評価実験 • SVMの点推定手法によるクエリセグメンテーションの検証 – 提案手法の説明 – 評価実験 • まとめと今後の課題 2 Yahoo! JAPAN CONFIDENTIAL

研究背景 • Web検索クエリのセグメント位置による検索結果の変動 – セグメント位置の違いによるクエリ意図の曖昧化 – 新語・流行語に対する単語分割誤り 3 嵐■トラブルメーカー嵐■トラブル■メーカーレッドストーンレッド■ストーンリンチーリンリン■チーリン iphone4 iphone■4 Yahoo! JAPAN CONFIDENTIAL

【例1】嵐■トラブルメーカー嵐の音楽PVのページ Yahoo!オークションへの誘導リンク ※2010年10月 Google検索エンジンに移行前 4 Yahoo! JAPAN CONFIDENTIAL 嵐のCD・DVDの広告

【例1】嵐■トラブル■メーカー広島大の音楽サークル個人ブログサークルページ別の曲外構工事の広告 ※2010年10月 Google検索エンジンに移行前 5 美肌の広告 Yahoo! JAPAN CONFIDENTIAL

【例2】iphone■4 ASCII.jpブログ日経トレンド 6 ※Google検索エンジンに移行後 Yahoo! JAPAN CONFIDENTIAL

【例2】iphone4 クチコミ掲示板、ニュースブログ 7 セグメント位置の違いによって検索結果の劣化が生じる ※Google検索エンジンに移行後 Yahoo! JAPAN CONFIDENTIAL

目的入力クエリに対して、検索精度が向上するクエリセグメンテーション嵐■トラブル■メーカー 8 竹内■結子■画像グランド■セフト■オートバイ■スシティ × × × ○ ○ ○ 嵐■トラブルメーカー竹内結子■画像グランド■セフト■オート■バイスシティ Yahoo! JAPAN CONFIDENTIAL

関連研究 • 一般的なクエリセグメンテーションは単語単位による統計的な意味境界の推定 new york times■subscription – Bergsmaら, 2007 • 様々なルール、単語頻度、単語表記の素性を用いたSVMによるセグメンテーション – Tanら, 2008 • クエリログとWikipediaコーパスの言語モデル尤度と相互情報量に基づくセグメンテーション分かち書きがされていない日本語では、未知語が多く含まれるWeb検索クエリへの対応は難しい 9 Yahoo! JAPAN CONFIDENTIAL

10.

Web検索クエリの傾向分析 • 入力が最も多いセグメンテーションパターン（最頻クエリ）が検索精度向上に適切か？必ずしもそうではない！ • 全体的に単語を長く連接させる傾向がある – 【ex. 】無料サンプル動画，オリンピック参加国，グランドセフトオートバイスシティ■攻略…etc – カタカナ文字列は全て連接させる傾向が高い検索精度を考慮してクエリに注意深くセグメントを入れる人は少ない 10 Yahoo! JAPAN CONFIDENTIAL

11.

クエリログとスニペットの連接頻度情報に基づくクエリセグメンテーションクエリセットクエリ頻度占有率シェラトングランデ東京ベイ 0.91 0.03 0.02 0.01 シェラトン■グランデ■東京ベイシェラトングランデ■東京ベイシェラトン■グランデ■東京■ベイクエリログから異なりセグメント位置を持つクエリセットを抽出 ①検索クエリの候補選択頻度か言語モデル尤度を基準にセグメント数の多いクエリを選択シェラトン■グランデ■東京■ベイ ② Web検索のスニペットを抽出シェラトン■グランデ■東京ベイ 11 スニペットの単語連接頻度に基づいて適切なセグメント位置の推定 Yahoo! JAPAN CONFIDENTIAL

12.

① 検索クエリの候補選択 • Web検索結果のスニペットから単語連接頻度を得るための検索クエリ候補を選択 – 最頻クエリの形態素解析 • Yahoo!Japan デベロッパーネック日本語形態素解析 WebAPIと同等のもの – 最多セグメント数による選択 • クエリセットの頻度占有率の0.1%を棄却しセグメント数が最大のクエリを選択 90 シェラトングランデ東京ベイシェラトン■グランデ■東京ベイ 3 2 シェラトングランデ■東京ベイシェラトン■グランデ東京ベイ 0.05 – 文字3gram言語モデル尤度による選択 • セグメント位置を<sp>としてカウント • 1~3gramの生起・連接の対数確率の相加平均で最大のクエリを選択 12 Yahoo! JAPAN CONFIDENTIAL n  log P( x | x max qQ i 1 i n 1 i 2 , xi 1 )

13.

② Web検索のスニペット抽出＆単語連接頻度によるセグメンテーション • Web検索のスニペットから単語頻度(unigram,bigram)を求め、セグメント位置の推定 – スコア計算にはシンプソン係数を使用(閾値は0.9) シェラトングランデ東京ベイ score = 0.7 score  13 C (シェラトングランデ) min(C (シェラトン), C (グランデ)) score = 0.6 score = 0.9 シェラトングランデ東京ベイ Yahoo! JAPAN CONFIDENTIAL

14.

評価実験の内容 • 評価方法 – 人手の正解データと提案手法によるセグメントしたクエリの一致率を評価 – 正解データ • クエリセットにおける最頻クエリの頻度占有率でバランスよく含まれるように抽出 • 正解データ作成は同じサンプルデータに対し、 2名でアノテーションを行なった • 評価基準 Query Accuracy Segment Accuracy 14 クエリの完全一致率セグメント位置の一致率 Yahoo! JAPAN CONFIDENTIAL

15.

実験条件 • 比較手法ベースライン最頻クエリ提案手法形態素解析（スニペットあり，なし）言語モデル尤度（スニペットあり，なし）最多セグメント数（スニペットあり，なし） 2010.10.01 – 31(1ヵ月) 正解データの期間正解データのサンプル数 615件正解データ同士の一致率 82.4% 言語モデルの学習データ 2010.10.01 – 31(1ヵ月) 検索結果取得数 15 20 Yahoo! JAPAN CONFIDENTIAL

16.

実験結果 Query Accuracy(%) 人手正解データ同士の一致率 (82.4%) 最頻クエリ形態素解析言語モデル尤度選択最多セグメント数選択最頻クエリよりもクエリセット内から適切なクエリを選ぶことで正解率が向上 16 Yahoo! JAPAN CONFIDENTIAL

17.

ここまでのまとめ • 検索精度が向上するクエリセグメンテーション • クエリログとスニペットの単語連接頻度から適切なクエリのセグメント位置を推定 – クエリセット内から言語モデル尤度や最多セグメントの基準にクエリ選択 – Web検索のスニペットでの単語連接頻度の考慮 – 最頻クエリより約10pt改善 • 異なりセグメント位置を持つクエリセットが必要文字や文字種、辞書単語などの素性を用いて、適切なセグメントを行えないかを検証 17 Yahoo! JAPAN CONFIDENTIAL

18.

SVMの点推定手法によるクエリセグメンテーション • 文字、文字種、辞書素性を用いてセグメンテーション位置を推定 – SVMの点推定手法による単語分割[Sassano, 2002]、[Neubigら, 2010] – 学習データはクエリログとスニペットから作成したクエリデータ – 単語辞書はipadicと日・英語のWikipedia L フィギュアスケート R 浅田真央窓幅=5 1gram : L5/ア L4/ス L3/ケ L2/ー L1/ト R1/浅 R2/田 R3/真 R4/央 2gram : L5/アス L4/スケ L3/ケー L2/ート L1/ト浅 R1/浅田 R2/田真 R3/真央 3gram : L5/アスケ L4/スケー L3/ケート L2/ート浅 L1/ト浅田 R1/浅田真 R2/田真央辞書素性 : L1/スケート R1/浅田文字種素性 : 文字素性（ひらがな、カタカナ、漢字、数字、英字、シンボル）を文字種に置き換えたもの 18 Yahoo! JAPAN CONFIDENTIAL

19.

クエリログとスニペットの連接頻度情報に基づくクエリセグメンテーションクエリセットシェラトングランデ東京ベイシェラトン■グランデ■東京ベイシェラトングランデ■東京ベイシェラトン■グランデ■東京■ベイ出力クエリを学習データとして分割精度を検証 ※ 理想的には人手正解データシェラトン■グランデ■東京■ベイ学習シェラトン■グランデ■東京ベイ 19 SVMの点推定によるクエリセグメンテーション Yahoo! JAPAN CONFIDENTIAL

20.

評価実験 • 実験内容 – 人手の正解データとの一致率を評価 – 評価基準はQuery Accuracy，Segment Accuracy • 実験条件 SVMの学習データ 2010.10.01～31の上位10万件に対して前手法を適用した結果 liblinear SVM学習器素性文字ngram，文字種ngram，辞書単語その他 20 窓幅=5, ngram=3 Yahoo! JAPAN CONFIDENTIAL

21.

実験結果 • クエリログとスニペットを用いた手法の約85%の精度を達成 – ウェブやクエリの単語頻度を素性として組み込みが今後の課題 Query-Acc(%) 言語モデル+スニペット 77.3 96.2 最多セグメント数+スニペット 78.1 96.2 SVM 言語モデル+スニペット 65.9 94.3 SVM 最多セグメント数+スニペット 66.7 94.5 ※ 学習データでの5-fold CVで約83.3% 21 Seg-Acc(%) Yahoo! JAPAN CONFIDENTIAL

22.

まとめと今後の展開 • まとめ – 検索精度が向上するクエリのセグメンテーションの提案 • クエリログのスニペットの単語連接頻度より適切なセグメンテーション位置の推定 • SVMの点推定手法によるクエリセグメンテーション • 今後の課題 – SVMの点推定によるクエリセグメンテーションの精度改善 • クエリカウントやウェブカウントの素性組み込み方法の検討 – 英語・カタカナクエリの未知語分割器としての応用 22 Yahoo! JAPAN CONFIDENTIAL

23.

おわり • ご清聴ありがとうございました 23 Yahoo! JAPAN CONFIDENTIAL