>100 Views
March 22, 21
スライド概要
言語処理学会第27回年次大会(NLP2021)のポスター発表P3-16の資料です
2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp
P3-16 ウェブ検索クエリのための部分一致文字列に対するエンティティ名称予測モデルの提案 豊田樹生, 小松広弥, 熊谷賢, 菅原晃平 {itoyota, hkomatsu, kenkumag, ksugawar}@yahoo-corp.jp ヤフー株式会社 背景 部分一致文字列の検索クエリはテイルクエリになりやすくクエリ-URLクリック頻度が取得しにくい RandomForest(RF)との線形補間による上記頻度に低依存な多観点のモデルを提案し次の貢献を行う: 1) 訓練事例の自動生成法の提案 2) 新素性の提案 3) PU学習によるラベリングの提案 4) nDCG@5の性能比較 提案手法 クリック有 1.1 クリック有無で正未付与 キー生成後ブロッキング 2.1 PU学習 (重要度上位を掲載) MinMaxClickFreq 相対的人気度 検索 伊藤 声優 1.2 素性を付与 正 正未の予測器生成後 正例だけを使って 定数cを求める クリック無 伊藤静 伊藤_声優 MinMaxContProb 相対的”声優”度 ・・・ 結果 未 テリー伊藤 伊藤_タレント KB 同一キーでブロッキング \デカすぎ/ GrubbsSmirnov 人気の外れ値度 ・・・ 未 正 正 P: 正例の集合 s: ラベルの有無 n: Pの事例数 伊藤健太郎 …,藤健_声優,伊藤_声優 未 未 “未”の事例に 重みの濃淡をつけ この事例でRFを訓練 0.6 0.1 0.8 1 1 COMB(RF+CLK)が性能トップ 改善例(CLKと比較、 カッコ内は正答の順位) (nDCG@5,クエリ150例) DM: クエリ補完モデル (Nqs + αqs) / ∑s’(Nqs’+αqs’) 枚方 公園: Nqs: クエリqでの正式名称sへのクリック頻度 枚方パークが圏外から2位に(1) αqs’: q,sが同一表記で50か500、それ以外は1 阿部 声優 : CLK: DMを多項分布化(Nqs / ∑s’Nqs’) 阿部玲子が圏外から3位に(3) RF: RandomForest 比較手法 COMB(RF + DM): RFとDMの線形補間 COMB(RF + CLK): RFとCLKの線形補間 画像の出典:いらすとや(irasutoya.com) 論文の一部訂正のお詫び 3.1節 誤:V∑を求 正: U∑を求 4.5節 誤:ジニ不純度 正: 分散