>100 Views
November 28, 22
スライド概要
2022/11/25
Deep Learning JP
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] “Breakpoint Transformers for Modeling and Tracking Intermediate Beliefs” (EMNLP 2022) Istuki Okimura, Matsuo Lab M1 http://deeplearning.jp/ 1
アジェンダ 1 書誌情報 2 概要 3 問題意識 4 提案手法 5 実験設定 6 結果 2
1 書誌概要 タイトル: Breakpoint Transformers for Modeling and Tracking Intermediate Beliefs 出典: EMNLP2022 https://arxiv.org/abs/2211.07950 著者: Kyle Richardson, Ronen Tamari, Oren Sultanなど (The Hebrew University of Jerusalem, AllenAI,…) 選んだ理由:移りゆく事象をモデルが把握する方法を学習させるという モチベーションに興味があった 3
2 概要 • 自然言語処理において、モデルが内部でどのような信念状態を 持っているかの解釈は依然として困難であり、 特に物語理解のタスクにおいて、言語モデルがどのように世界の変化を 追跡しているのか不明な点がある。 • 本論文ではストーリーの中間地点における信念状態を学習、追跡する 新しい表現学習フレームワークであるブレイクポイントモデリングを提案。 • 既存の表現学習手法と比較して、信念状態の予測精度や処理効率、 予測の一貫性で優れることを示した。 • また、対応する質問応答モデルに組み込んだ場合でも性能が劣化しないため、 よりデバッグしやすいシステムへの発展可能性を示した。 4
3 問題意識 モデル内部の信念を理解し、解釈するのは困難な問題である • 物語理解のようなタスクにおいて、 言語モデルの世界追跡能力には不明な点がある。 • 例えば、右図のようなストーリーを受けて、 ”Where is the apple?” のような質問に答えるには 以下の能力を持つ必要がある。 ✓ 時間を通じて対象を追跡する能力 ✓ 他の知識と追跡する知識を区別する能力 • 一方で、モデルがある地点で特定の命題に関して どのような信念を持っているか (例. その時点でりんごはどこにあると考えている のか)を直接調べるのは困難である。 5
3 問題意識 モデルの任意の点における信念状態を学習、追跡できる手法を提案 • モデルがストーリーの任意の点 (ブレークポイント)において 命題への信念状態を学習するフレームワーク、 ブレークポイントモデリングを提案。 • 右図上のプログラミングのブレークポイント のように、ストーリーの中間地点においての あるべき信念状態を学習することで、 訓練時に特定の信念をモデルに教えること、 そして推論時に信念状態がデバッグできる システムを目指す。 • 中間的な状態を学習することで、最後の質問に 対し一貫した回答が生成しやすくなるはず? 6
4 提案手法 提案手法の概要 1. ストーリーの中にブレークポイント トークン[B]𝑗 を挿入する 2. ブレークポイントで考えるべき命題の集合 𝑃𝑗 = 𝑝1 , 𝑝2 … 𝑝𝑡 とそれぞれの命題に関する 真理値(true or false or unknowing)を用意する 3. 二つのエンコーダーを用いて、ブレークポイント と命題のそれぞれの埋め込み表現𝑏と𝑐𝑝𝑟𝑜𝑝 を作る 4. それぞれのブレークポイントとその命題に関する 埋め込みから、その命題に関する真理値を 予測するタスクを学習する 7
4 提案手法 ブレークポイントと命題の設定 ブレークポイント(“breakpoints”) • ストーリーの中間地点にブレークポイント を示す特殊なトークン[B]𝑗 を挿入する • ストーリーを入力するエンコーダー𝑒𝑛𝑐𝑠𝑡𝑜𝑟𝑦 によって埋め込み表現𝑏𝑗に変換される 命題(“propositions”) • 各ブレークポイント[B]𝑗 においてテキスト 命題𝑃𝑗 = 𝑝1 , 𝑝2 … 𝑝𝑡 のセットと関連づける • 命題を入力するエンコーダー𝑒𝑛𝑐𝑝𝑟𝑜𝑝に よって埋め込み表現𝑐𝑝𝑟𝑜𝑝に変換される • それぞれの命題𝑝𝑘 における状況をtrue, false, unknownの3種類のラベルが与える 8
4 提案手法 学習方法 命題推論 𝑛個のストーリーからなるデータセット𝐷に関して、 各ストーリー𝑠 𝑖 に𝑚個のブレークポイント𝐵 𝑖 が存在するとする。 それぞれのブレークポイント𝑏𝑗に対して、 𝑡個の命題𝑝𝑘 が存在し、 𝑖 それぞれのラベル𝑦𝑗,𝑘 が与えられた時、 (𝑖) そのラベルに対する論理式は𝑌𝑗,𝑘 𝑏𝑗 , 𝑝𝑘 (=True or False)で表される。 (𝑖) 𝑖 𝑌𝑗,𝑘 𝑏𝑗 , 𝑝𝑘 に対応するモデルの確率として、 Pr 𝑦𝑗,𝑘 を用いると、損失は以下の式で表される。 𝑛 𝑚 𝑡 𝑖 ℒ 𝑝𝑟𝑜𝑝 = − log Pr 𝑦𝑗,𝑘 𝑖=1 𝑗=1 𝑘=1 9
5 実験設定 用いるデータセット1: CLUTRR [Shinha et al., 2019] 概要 人間が記述した家族関係を持つストーリー上のQA 作成方法 • クリーンサブセットに対し、各文の後に ブレークポイントを追加する。 • その後、明示的なストーリーに由来する命題と CLUTRRを拡張した証明タスク用に由来する命題を 作成し、基本的な命題のセットとする。 • 基本命題から否定命題や未知命題を含む追加命題を 一般的な制約を用いて追加する。 * イベント数の長さによってi.i.dとgeneralizationの 設定を作成し、実験する。 10
5 実験設定 用いるデータセット2: bAbI QA [Weston et al., 2016] 概要 ミクロ世界のエージェントに関する ストーリー上のQA * CLUTRRより全体的にイベントが長い 作成方法 • 各文の後にブレークポイントを追加する。 • Dyna-bAbIタスク生成器[amari et al., 2022]を 用いて基本的な命題のセットを作成する。 • 基本命題から否定命題や未知命題を含む 追加命題を一般的な制約を用いて追加する。 * 標準的な設定(i.i.d)と難易度の高い設定(hard QA)で 実験する。 出典:https://arxiv.org/pdf/1502.05698.pdf 11
5 実験設定 学習設定 モデル T5ベースのBidirectional Encoder マルチタスク学習 ストーリーの最後のQAに回答できるように、損失を加えたマルチタスクの設定でも学習する。 ℒ = 𝜆1 ℒ 𝑝𝑟𝑜𝑝 + 𝜆2 ℒ𝑄𝐴 + 𝜆3 ℒ𝑔𝑒𝑛 それぞれのタスクにおけるクロスエントロピー損失とする ℒ 𝑄𝐴: 質問から応答を生成するタスク ℒ𝑔𝑒𝑛 : 1 右端のブレークポイントの埋め込みからランダムに選んだイベントを生成するタスク ℒ𝑔𝑒𝑛 : 2ブレークポイントの埋め込みからランダムな抽象化したイベントを生成するタスク 微調整されたT5モデルやBARTモデルでの結果などと比較 12
5 実験設定 評価指標 命題推論 • 全体の命題における正解率 • 命題において矛盾する命題予測の一貫性を保てた 割合を示すグローバル一貫性指標𝜌 質問応答 モデルの生成出力に対するExact Match精度 13
6 結果 CLUTRRで提案手法は命題推論の性能やサンプル効率、一貫性に優れる 命題推論 微調整されたBILSTMモデル、T5モデルを上回る性能 質問応答 i.i.dの設定では微調整されたT5やBARTを上回る、 generalizationの設定では匹敵する性能を記録 サンプル効率 全体の60%の学習データのみで、 全データで学習したベースラインと同等の性能を達成 一貫性 i.i.d設定において制約違反𝜌がおよそ6%減少 (でも30%以上違反している。。) 14
6 結果 bAbIでも命題推論の性能やサンプル効率に優れる 命題推論 微調整されたBILSTMモデルは大きく上回り、 T5モデルに匹敵する性能 質問応答 i.i.dの設定では微調整されたT5やBARTにやや劣るも、 hardQAの設定では上回る性能を記録 サンプル効率 学習時間の効率が大幅に向上し、 学習時間を54%削減した 15
感想 モチベーションが面白いと思った Chain of thoughts 的な段階的な推論を任意のドメインに展開できそうな面白さはあるが そもそも人間がアノテーションして教える必要があるのかという気持ち プログラミングとは違って、モデルの中間地点での信念状態を追跡できても、 それが必ずしも最終的なQAなどの出力と因果関係があるとは言い切れない 16
まとめ • 自然言語処理において、モデルが内部でどのような信念状態を 持っているかの解釈は依然として困難であり、 特に物語理解のタスクにおいて、言語モデルがどのように世界の変化を 追跡しているのか不明な点がある。 • 本論文ではストーリーの中間地点における信念状態を学習、追跡する 新しい表現学習フレームワークであるブレイクポイントモデリングを提案。 • 既存の表現学習手法と比較して、信念状態の予測精度や処理効率、 予測の一貫性で優れることを示した。 • また、対応する質問応答モデルに組み込んだ場合でも性能が劣化しないため、 よりデバッグしやすいシステムへの発展可能性を示した。 17
DEEP LEARNING JP [DL Papers] “Breakpoint Transformers for Modeling and Tracking Intermediate Beliefs” (EMNLP 2022) Istuki Okimura, Matsuo Lab M1 http://deeplearning.jp/