【AAAI論文読みLT会】BIDのための検索エンジン

371 Views

August 12, 24

スライド概要

2024年8月10日に実施した、KaiRA×スクラムサイン共催の「AAAI論文読みLT会」の発表資料

profile-image

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

AAAI論文読みLT会 2024/08/10 BIDのための検索エンジン Imitation of Life: A Search Engine for Biologically Inspired Design 京都大学工学部理工化学科1回生 岡本 和優 0

2.

自己紹介 • 所属 京都大学工学部理工化学科1回生 • 興味分野 よくわからないもの全般 • 個人的な趣味 最近はいつもカレーを食べている おかもと かずまさ 岡本 和優 1

3.

アジェンダ ◼ BIDとは? ◼ BARCODEの目的 ◼ 先行研究の問題点 ◼ BARCODEの概要 ◼ 結果の評価 2

4.

アジェンダ ◼ BIDとは? ◼ BARCODEの目的 ◼ 先行研究の問題点 ◼ BARCODEの概要 ◼ 結果の評価 3

5.

BIDとは何か BID( Biologically Inspired Design )とは,自然の生物から着想を得るデザイン手法のこと たとえば,カワセミのくちばしの形状をまねることで空気抵抗が削減できる 4

6.

アジェンダ ◼ BIDとは? ◼ BARCODEの目的 ◼ 先行研究の問題点 ◼ BARCODEの概要 ◼ 結果の評価 5

7.

BARCODEの目的 本論文で提案されたBARCODEは,BIDにおける技術者の障壁を緩和した BIDは高い注目度と可能性のわりに,あまり実用化されていない 理由 • 生物の知識がないと,着目すべき生物が見つけられない • 技術者個人による偶然の発見に依存しがち • 生物に関する情報は膨大なのに,実際に役立つものは少ない →技術者が望みの性質からそれに該当する生物を検索できれば,これらの問題は解決できそう! BARCODEは自然言語で書かれたデータから,生物の情報を自動で抽出・検索できるシステム 6

8.

アジェンダ ◼ BIDとは? ◼ BARCODEの目的 ◼ 先行研究の問題点 ◼ BARCODEの概要 ◼ 結果の評価 7

9.

先行研究の問題点 既存のBIDのデータベースは手動で作成されているため拡張が困難 • AskNature 機能を表すキーワードで生物の情報を分類したデータセット • Design by Analogy to Nature Engine (DANE) 構造・行動・機能のフレームワークから記述される 生物に関する情報のライブラリ コーパスから自動で情報を抽出するBARCODEと異なり, これらは手動で作成されているためデータの拡張が難しい Innovation Inspired by Nature — AskNature 8

10.

アジェンダ ◼ BIDとは? ◼ BARCODEの目的 ◼ 先行研究の問題点 ◼ BARCODEの概要 ◼ 結果の評価 9

11.

BARCODEの全体像 BARCODEは特定の性質を持つ生物の情報をコーパスから抽出し,それをランク付けするシステム BARCODの仕事は次の2ステップに分けられる • 候補となるフレーズをコーパスから抽出する • 得られた候補をクエリとマッチングし,ランク付けする 10

12.

どのように候補を抽出するか? 動詞と目的語の組み合わせに着目して候補を抽出した コーパスの文章は長く複雑であるため, 候補となるフレーズを[動詞][目的語]の形式で抽出する 使用された手法 • QA-SQL(Semantic Role Labeling) 文章を入力すると動詞に関連する問いと答えの組を生成するモデル この問いと答えの組を[動詞][目的語]の形に変換する • spaCyによる係り受けの解析 QA-SQLだけでは,特に助動詞を含む文が抽出できない,という問題点があった →係り受けの解析により,動詞と目的語を抽出する際の柔軟性が向上した 11

13.

どのようにマッチング・ランク付けするか? 2つのモデルを組み合わせることで精度を向上させた 2つのモデルのスコアを組み合わせてマッチングとランク付けを行う 使用されたモデル • SBERT クエリと候補のフレーズの意味を捉え,その類似性を評価する • DeBERTa SBERTの問題点を補うためにこの推論モデルが用いられた SBERTの問題点 • 対義語を扱うのが難しい • 因果関係と常識を理解しないため,関係性を見落としがち 候補フレーズが前提,クエリが仮説を形成し,含意・矛盾・中立を判断する 12

14.

アジェンダ ◼ BIDとは? ◼ BARCODEの目的 ◼ 先行研究の問題点 ◼ BARCODEの概要 ◼ 結果の評価 13

15.

結果をどのように評価したか? BIDの実例が検索結果で再現されたが,その結果はクエリによって変わりやすい 結果は以下のような観点から評価された • 実際に有用な情報を与えられるか? 過去のBIDの実例が,実際に検索結果の上位に位置づけられた • クエリの形式が変わっても,結果は大きく変わらないか? クエリの代替フレーズを作成し,その結果を比較したところ • 共有する結果の数は15個のうち平均2.83個 • RBO(Rank-biased Overlap)の平均は0.13(0~1の値で評価される) →データセットのサイズが大きく,あてはまる候補が多いのが原因か? 14

16.

実際に使ってもらうと? 複数の専門家に対して,興味深い知識を提案することができた 生物工学のプロジェクトに関わる専門家3人にBARCODEを実際に使用してもらった →2/3のクエリが専門家に対して「非常に興味深い」知識を少なくとも1つ提案した #:検索結果の数 ():「非常に興味深い」結果の数 15

17.

まとめ BARCODEによってBIDが抱える問題点を緩和することができた • 目的 BIDにおける技術者の特に知識的な障壁を緩和すること • 先行研究との違い 自然言語で書かれたデータからBIDに繋がる情報を自動で抽出・検索できること • システムの概要 1.動詞と目的語に着目してコーパスから候補となるフレーズを抽出 2.セマンティック検索に推論モデルを組み合わせてマッチング・ランク付け • 結果 クエリによってばらつきがあるものの,BIDに有用な情報を実際に提案できた 16