0.9K Views
December 12, 19
スライド概要
ヤフーでは、Yahoo!検索やYahoo!ニュースを始めとしたメディアサービスで、大規模なナレッジベース (世の中の概念とその関係を構造化したデータベース)を活用しています。
本セッションでは、ナレッジベースの活用事例や生成方法についてご紹介しました。
2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp
メディアサービスの基盤としての ナレッジベースの活用と生成方法について メディアカンパニー 検索統括本部 山﨑朋哉 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.
山﨑 朋哉 メディアカンパニー 検索統括本部 2016年度 新卒入社 主にナレッジベース開発を担当 学生時代はグラフ構造のデータマイニングの研究に従事 趣味はソフトテニスとぷよぷよ Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.
このセッションについて メディアサービスの基盤技術の1つである ナレッジベースの活用と作成方法について紹介します。 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.
アジェンダ 1. ヤフーとナレッジベース (KB) の関係 2. KB のイントロダクション 3. KB 生成について 4. クリアするべき課題 5. まとめ Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.
100以上のサービスを展開 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.
100以上のサービスを展開 ユーザーとコンテンツのマッチングが大切 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.
ユーザーとWeb検索コンテンツのマッチング 検索クエリ Web検索での行動ログ Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.
ユーザーとニュースコンテンツのマッチング ニュース記事の閲覧 ニュースでの行動ログ Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.
ユーザーとマルチコンテンツのマッチング Web検索 行動ログ ニュース 行動ログ Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. 従来は、各サービスの行動ログから 最適なコンテンツを配信
ナレッジベースを用いたユーザーとマルチコンテンツのマッチング 行動ログとコンテンツの 共通言語 としての Web検索 行動ログ ナレッジベース (KB) そして父になる 出演 福山雅治 ニュース 行動ログ Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. 配偶者 吹石一恵
ナレッジベースのイントロダクション Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.
ナレッジベースとは? エンティティ(世の中の物事・概念)と その 関係 を 構造化 したデータベース ファクト Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.
ナレッジベースの構造化とは? エンティティは クラス情報 と ID を持つ Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.
ナレッジベースの構造化とは? エンティティは Id:1234 クラス情報 と ID を持つ Person Id:33455 Person Id:905 Id:1334 Film Id:34 Person Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. Person Id:1759 Person
ナレッジベースの構造化とは? エンティティは Id:1234 クラス情報 と ID を持つ Person オントロジー Id:33455 Person Film Id:34 Person Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. Person 出演 Id:905 Id:1334 Thing Person Id:1759 Person 著述 Film Product Broadcast Publication
オントロジーとは? • オントロジー = 概念化の仕様 [T. R. Gruber 1993] Thing • クラス (概念) 階層とクラス間の関係を持つ Person 出演 著述 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. Film Product Broadcast Publication
なぜ KB を使うのか? • 現実世界の複雑な関係を 構造化 できる • 構造の拡張 が容易 • 推論 を行える 配偶者 浜田雅功 子供 小川菜摘 子供 ハマ・オカモト 推論 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.
一般的な KB の活用例1: 構造化検索 ユーザーの検索意図に 沿った回答を行う Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. https://search.yahoo.co.jp/search?p=ブラックジャックによろしく より引用
一般的な KB の活用例2: QAシステム オススメの 福山雅治の映画は? 「そして父になる」は いかがでしょうか。 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. 写真:アフロ https://search.yahoo.co.jp/search?p=そして父になる より引用
一般的な KB の活用例3: 推薦システムの強化 ナレッジベースを活用し、ニュース記事の推薦システムの精度を向上 Hongwei Wang+ : DKN: Deep Knowledge-Aware Network for News Recommendation, TheWebConf 2018 より引用 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.
“Knowledge Base”を引用している論文数の増加 “KB”を引用している ACM/IEEEの 新規論文数 1973年 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. 年度 2018年 参考: http://www.mkbergman.com/2244/a-common-sense-view-of-knowledge-graphs と同様の方法で検証
ヤフー検索での KB の活用 ユーザーの検索クエリ そして父になる 出演 福山雅治 配偶者 写真:アフロ 吹石一恵 ナレッジベース クエリ解釈システム Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. 検索クエリに最適な エンティティ https://search.yahoo.co.jp/search?p=福山雅治 より引用 (右図)
ヤフーでのナレッジベースの作成方法 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.
KB 生成の流れ データ抽出 スキーマ統一 エンティティマッチ エンティティ接続 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.
KB 生成の流れ: 入力データ データ抽出 構造化データ 非構造化データ Wikipedia LOD スキーマ統一 社内データ エンティティマッチ エンティティ接続 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. ・・・ Web上のデータ 入力データを同じ形式で取り込む https://ja.wikipedia.org/wiki/%E7%A6%8F%E5%B1%B1%E9%9B%85%E6%B2%BB より引用
KB 生成の流れ: 抽出後のデータ データ抽出 福山雅治 birth date 1969/2/6 spouse スキーマ統一 吹石一恵 福山雅治 エンティティマッチ エンティティ接続 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. perform そして父になる marriage 吹石一恵 吹石一恵 birth day 1982/9/28
KB 生成の流れ: オントロジーを用いたスキーマ統一 データ抽出 福山雅治 birth date 1969/2/6 spouse スキーマ統一 吹石一恵 福山雅治 エンティティマッチ エンティティ接続 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. perform そして父になる marriage 吹石一恵 吹石一恵 birth day 1982/9/28
KB 生成の流れ: オントロジーを用いたスキーマ統一 データ抽出 Person 福山雅治 生年月日 1969/2/6 配偶者 スキーマ統一 吹石一恵 Person エンティティマッチ エンティティ接続 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. オントロジー Thing 出演 福山雅治 配偶者 Person Person ・・・ そして父になる 出演 著述 Broadcast 吹石一恵 吹石一恵 生年月日 Product 1982/9/28 Publication
KB 生成の流れ: 同一のエンティティのマッチング データ抽出 Person 福山雅治 生年月日 1969/2/6 配偶者 スキーマ統一 吹石一恵 Person エンティティマッチ エンティティ接続 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. 出演 福山雅治 配偶者 Person 吹石一恵 吹石一恵 そして父になる 同一のエンティティ 生年月日 1982/9/28
KB 生成の流れ: 同一のエンティティのマッチング データ抽出 Person 福山雅治 スキーマ統一 配偶者 吹石一恵 エンティティマッチ Person 吹石一恵 エンティティ接続 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. 生年月日 1969/2/6 出演 そして父になる 生年月日 1982/9/28
KB 生成の流れ: 同一のエンティティのマッチング データ抽出 Person 福山雅治 スキーマ統一 配偶者 吹石一恵 エンティティマッチ Person 吹石一恵 エンティティ接続 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. 生年月日 1969/2/6 出演 そして父になる 生年月日 1982/9/28
KB 生成の流れ: データを統合する データ抽出 Person 福山雅治 スキーマ統一 生年月日 配偶者 吹石一恵 配偶者 エンティティマッチ Person 吹石一恵 エンティティ接続 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. 1969/2/6 出演 そして父になる 生年月日 1982/9/28
クリアするべき課題 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.
ヤフーでの KB 生成において難しいこと 1. 誤った情報の掲出を可能な限り無くす → 高い精度のエンティティマッチング・データバリデーション 2. ユーザーの多様なニーズに答える → Web上のデータから知識を獲得して KB を拡充 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. ユーザーのニーズは ロングテール 写真:アフロ
エンティティマッチングについて ルールベース手法 と グラフベース手法 の組み合わせ (Kedar Bellare+ VLDB 2013 の手法の拡張) マッチングに Precision 使用する属性 ルールベース 識別子 (ISBNなど) Good グラフベース エンティティの 持つ様々な属性 ルールベース・グラフベースともに Good 制約の調整が必要 Recall Bad Good Good Fair 99% のprecision 詳細は T.Yamazaki+: A Scalable and Plug-in Based System to Construct a Production-Level Knowledge Base, DI2KG 2019 を参照 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. 処理速度
データのバリデーションについて 既存のKBには不正確な情報が多く存在する 人手でのバリデーション機構 • ビジネスロジックやユーザーからのフィードバックに対応 自動でのバリデーション機構 • 各情報 (ファクト) の信頼度に基づくバリデーション • オントロジーの制約によるデータバリデーション • … Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.
ファクトの信頼度に基づくデータのバリデーションについて 各ファクトに 信頼度 を定義する エンティティマッチング前 福山雅治 0.7 生年月日 配偶者 0.7 1969/2/6 吹石一恵 福山雅治 0.8 配偶者 エンティティマッチング後 0.7 福山雅治 !(0.7, 0.8) 出演 0.8 そして父になる 吹石一恵 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. 生年月日 配偶者 吹石一恵 出演 0.8 1969/2/6 そして父になる
ファクトの信頼度に基づくデータのバリデーションについて 各ファクトに 信頼度 を定義する エンティティマッチング後 0.7 信頼度マージ関数 )* ! ), * = )* + -(1 − ))(1 − *) where - = 0.1 福山雅治 !(0.7, 0.8) = 0.989 信頼度が低いファクトは削除する Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. 生年月日 配偶者 吹石一恵 出演 0.8 1969/2/6 そして父になる
バリデーションされたファクトについて フ ァ ク ト 数 3.7億 KBに残す 全ファクト数 2.7億 1.2億 バリデーションされた ファクト数 3,000万 18ヶ月間の推移 T.Yamazaki+: A Scalable and Plug-in Based System to Construct a Production-Level Knowledge Base, DI2KG 2019 より引用 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.
ヤフーでの KB 生成において難しいこと 1. 誤った情報の掲出を可能な限り無くす → 高い精度のエンティティマッチング・データバリデーション 2. ユーザーの多様なニーズに答える → Web上のデータから知識を獲得して KB を拡充 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. ユーザーのニーズは ロングテール 写真:アフロ
Webからの知識獲得 • KB 中のデータを正解として、Web上のデータから知識を獲得する Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.
Webからの知識獲得 • エンティティの公式サイト情報を抽出する場合 坂の上の雲ミュージアム 公式サイト http://sakanouenoku... 秋山兄弟生誕地 公式サイト http://www.akiyama-... 愛媛県美術館 ナレッジベース Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. 情報抽出対象のページ http://www.bansuisou.org/links/ より引用
Webからの知識獲得 HTMLツリーの パターンを活用して、 KBで未知の知識を獲得 • エンティティの公式サイト情報を抽出する場合 坂の上の雲ミュージアム KBで既知 公式サイト http://sakanouenoku... 秋山兄弟生誕地 KBで既知 公式サイト http://www.akiyama-... KBで未知 愛媛県美術館 ナレッジベース Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. 情報抽出対象のページ http://www.bansuisou.org/links/ より引用
Webからの知識獲得 HTMLツリーの パターンを活用して、 KBで未知の知識を獲得 • エンティティの公式サイト情報を抽出する場合 坂の上の雲ミュージアム dl 公式サイト http://sakanouenoku... 秋山兄弟生誕地 公式サイト http://www.akiyama-... 愛媛県美術館 dt dd span a 坂の上の雲ミュージアム ナレッジベース Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. http://... KBで既知 … dt dd span a 愛媛県美術館 http://... KBで未知
Webからの知識獲得 • エンティティの公式サイト情報を抽出する場合 エンティティ名から 抽出対象の情報までの HTMLのパスを保存 span -> dt -> dd -> dl -> dd -> a dl dt dd span a 坂の上の雲ミュージアム http://... KBで既知 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. … dt dd span a 愛媛県美術館 http://... KBで未知
Webからの知識獲得 • エンティティの公式サイト情報を抽出する場合 保存したパターンのパスで、 KBで未知の情報の抽出を行う span -> dt -> dd -> dl -> dd -> a dl dt dd span a 坂の上の雲ミュージアム http://... KBで既知 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. span -> dt -> dd -> dl -> dd -> a … dt dd span a 愛媛県美術館 http://... KBで未知
Webからの知識獲得 各パターンの信頼度 • パターンの抽出結果のうち、KBで既知情報であった割合 • 例: 同じパターンから100個情報抽出でき、その内80個が既知の場合: 0.8点 例 パターン1: span -> dt -> dd -> dl -> dd -> a : 0.8点 パターン2: span -> dt -> dd -> a : 0.7点 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.
Webからの知識獲得
最終的に抽出された知識の信頼度
• 同じ知識を抽出したパターンの信頼度を以下の式でマージ
"$
! ", $ =
"$ + '(1 − ")(1 − $)
例
パターン1: span -> dt -> dd -> dl -> dd -> a : 0.8点
パターン2: span -> dt -> dd -> a : 0.7点
両パターンから抽出した同じ知識の信頼度: ! 0.8,0.7 = 0.989点
信頼度を定義することで、不正確な情報を削除できる
Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.
Webからの知識獲得 できていること • クローラーが日々ウェブを巡回しコンテンツを収集し、 ナレッジベースに新規情報を追加 クロール結果を表示 今後の課題 • 他の属性への拡張 • エンティティ自体の獲得 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. https://search.yahoo.co.jp/search?p=京都鉄道博物館 より引用 (右図)
ヤフーでの KB 生成において難しいこと 1. 誤った情報の掲出を可能な限り無くす → 高い精度のエンティティマッチング・データバリデーション 2. ユーザーの多様なニーズに答える → Web上のデータから知識を獲得して KB を拡充 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. ユーザーのニーズは ロングテール 写真:アフロ
まとめ Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.
エンティティ数の成長 8,000万↑ エンティティ数 2,500万 2017年 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. 2019年
まとめ • ヤフーでは様々なメディアサービスのデータを結びつけ、価値を創出できるような 巨大なナレッジベースを日々作成しています。 • ナレッジベースはサービスの品質を高めるポテンシャルがあり、 研究としても非常に盛んな分野です。 • ナレッジベースを活用しましょう! Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.
Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.
APPENDIX Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.
エンティティマッチングについて グラフベース手法 (Kedar Bellare+ VLDB 2013の手法の拡張) 福山雅治 そして父になる 木村拓哉 木村拓哉 福山雅治 福山雅治 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. 木村拓哉 そして父になる
エンティティマッチングについて グラフベース手法 (Kedar Bellare+ VLDB 2013の手法の拡張) 1. マッチングの対象となるエンティティを絞る (計算量削減のため) 例: クラスで絞る 福山雅治 そして父になる 木村拓哉 木村拓哉 福山雅治 福山雅治 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. 木村拓哉 そして父になる
エンティティマッチングについて グラフベース手法 (Kedar Bellare+ VLDB 2013の手法の拡張) 2. 各ブロックの中で、属性に矛盾のないエンティティに枝を張る 例: 「誕生日」属性を使用 1969年2月 福山雅治 1969年2月6日 福山雅治 1972年11月13日 木村拓哉 1972年4月15日 1969年2月6日 福山雅治 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. そして父になる 木村拓哉 木村拓哉 1972年 そして父になる
エンティティマッチングについて グラフベース手法 (Kedar Bellare+ VLDB 2013の手法の拡張) 2. 各ブロックの中で、属性に矛盾のないエンティティに枝を張る 例: 「誕生日」属性を使用 1969年2月 福山雅治 1969年2月6日 福山雅治 1972年11月13日 木村拓哉 1972年4月15日 1969年2月6日 福山雅治 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. そして父になる 木村拓哉 木村拓哉 1972年 そして父になる
エンティティマッチングについて グラフベース手法 (Kedar Bellare+ VLDB 2013の手法の拡張) 3. グラフが完全グラフならエンティティを統一し、そうでなければ分離する 福山雅治 そして父になる 木村拓哉 木村拓哉 福山雅治 福山雅治 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. 木村拓哉 そして父になる
エンティティマッチングについて グラフベース手法 (Kedar Bellare+ VLDB 2013の手法の拡張) 3. グラフが完全グラフならエンティティを統一し、そうでなければ分離する 福山雅治 そして父になる 木村拓哉 木村拓哉 福山雅治 福山雅治 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. 木村拓哉 そして父になる
様々な Linked Open Data (LOD) 1,239件 570件 12件 2007年 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. 2014年 2019年 画像: https://lod-cloud.net/
なぜ KB を使うのか? • 構造の拡張 が容易 -> オントロジーの修正 Thing Thing Person Film Product Person 出演 著述 Broadcast Publication Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. 著述 Film Product Broadcast Publication
ナレッジベースの歴史 Semantic Web Linked Data 2001 Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved.
ナレッジベースの歴史 Semantic Web : 機械が理解可能なWeb Linked Data : 相互にリンクされたデータ 2001 人が理解できるWebから 機械が理解できるWebへ by Timothy Tim John Berners-Lee Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. 写真:アフロ
ナレッジベースの歴史 Semantic Web Linked Data 2001 様々なLODと その関係 2007 LOD : Linked Open Data DBpedia : WikipediaベースのLODの1つ Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. 画像: https://lod-cloud.net/
ナレッジベースの歴史 Semantic Web Linked Data 2001 2007 Knowledge Graph LOD DBpedia Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. 2012 画像: https://googleblog.blogspot.com/2012/05/introducing-knowledge-graph-things-not.html
ナレッジベースの歴史 Semantic Web Linked Data 2007 Linked 2001 Knowledge Graph • Google による 大規模な構造化検索 Open Data (LOD) Copyright© 2019 Yahoo Japan Corporation. All Rights Reserved. 2012 2014 ヤフーでの ナレッジベース作成 プロジェクトの開始