190 Views
September 27, 19
スライド概要
2019/09/27
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Attention Interpretability Across NLP Tasks Masaki Tashiro, Keio University http://deeplearning.jp/ 1
書誌情報 • Attention Interpretability Across NLP Tasks • https://arxiv.org/abs/1909.11218 • Shikhar Vashishth, Shyam Upadhyay, Gaurav Singh Tomar, Manaal Faruqui 選んだ理由 • Attentionの解釈性について興味があったから *断りのない限り, 図は論文より引用 2
概要 背景・課題 • Attentionの解釈可能性については議論があり、意味のある説 明を提供しないという説としているという説がある 提案 • NLPの複数のタスクにおけるAttentionの役割を実験すること でAttentionが意味のある説明をもたらす条件を提案 結論 • Gating unitとして解釈できるsingle sequence taskにおいて はattentionは説明を提供しない 3
背景 Attentionの解釈について • BERT rediscovers the classical NLP pipeline(ACL 2019) • Analyzing the structure of attention in a transformer language model(BlackBoxNLP, 2019) • What does BERT look at? an analysis of bertʼs attention(BlackBoxNLP, 2019) 4
背景 Attentionによる説明に対する疑問 • Attention is not Explaination(NAACL 2019) ØAttentionの変化が結果に変化を与えないことがある ØAttentionとgradientベースの⼿法の相関の低さ • Is Attention Interpretable?(ACL 2019) ØAttentionが⾼い部分を低くしても影響が⼩さい Attentionに対する疑問に対する反論 • Attention is not not explanation(EMNLP, 2019) 5
課題 • Attentionによる解釈が可能になれば、先⾏研究のように多く の情報をモデルから読み取れる可能性 • Attentionの解釈可能性に関する議論が進んでおらず説明とし て信頼できるか不明 • Attentionの解釈可能性について実験をしたタスクが少なく⼀ 般化できるのか不明 6
結論 • Attentionが単にgating unitの役割になってしまっている場合 attentionの説明は意味をなさない Attention Gating unit 7
実験したタスク ⼤きく分けて三つのタスク • Single Sequence tasks (1) SST (2) IMDB (3) Yelp 2017 • Pair Sequence tasks (1) SNLI (2) MNLI (3) CNN News Articles (4) babI • Generation tasks (1) Multi 30k (2) En-De News Commentary (3) WMT13 8
実験に利⽤したモデル Single Sequence Models • Encoder : Glove + Bi-RNN • Attention • Decode : Dense layer 9
実験に利⽤したモデル Single Sequence Models • Hierarchical attention model[Yang+ 16] 10
実験に利⽤したモデル Pair Sequence Models • Encoder : Separate RNN • Attention • Decode : Dense layer 11
実験に利⽤したモデル Pair Sequence Models • Rocktaschelらによって提案されたモデル • Premise部分とHypothesis部分のencode時に独⽴のlstmを使 うのをやめる 出典 : https://arxiv.org/abs/1509.06664 12
実験に利⽤したモデル Generation Models • Encoder : Globe + Bi-RNN • Attention (1) (2) • Decode : RNN 13
実験に利⽤したモデル • Attentionの掛け⽅の違いについて も考えるためにそれぞれのタスクにおいて self-attentionベースのモデルついても試している • Single-Headed Attention 出典 : https://arxiv.org/abs/1706.03762 14
実験に利⽤したモデル • BERT (Bidirectional Encoder Representations from Transformers) • 汎⽤的な⾔語表現モデルで総合的な⾔語理解能⼒を試す GLUEにおいて⾶躍的なスコアの向上を達成 詳しくはこちらを参考 • https://qiita.com/KosukeSzk/items/4b74b5cce84f423b7125 出典 : https://arxiv.org/abs/1810.04805 15
実験に利⽤したモデル Transformer • 2017年にAttention Is All You Need にて 提案されたモデル • 機械翻訳において主流であった RNNやLSTMを⽤いずにSOTAを達成した 出典 : https://arxiv.org/abs/1706.03762 16
実験1 : attentionのかけ⽅の変化と性能の関係 • Attentionのweightを①uniform②random③permuteした結果 性能がどのように変化するのか調べた • 条件としてattentionをtrain/infer両⽅で固定するものとinfer 時のみ固定するものを試し⽐較した 17
実験1 : attentionのかけ⽅の変化と性能の関係 タスク : Single Sequence tasks 結果 : 1. train/inferで固定するとweightの変化に頑健なモデルができ る 2. Permuteによるスコアの減少は4.2あたりでattentionの変化 が与える影響は⼩さいといえる 18
実験1 : attentionのかけ⽅の変化と性能の関係 タスク : pair sequence tasks, generation tasks 結果 : 全体的に⼤きくスコアが減少 19
実験1 : attentionのかけ⽅の変化と性能の関係 オリジナルのモデルとPermuteモデルのTVD distanceと Max attentionの関係 TVD distance … 出⼒がどの程度変わったか 20
実験1 : attentionのかけ⽅の変化と性能の関係 オリジナルのモデルとPermuteモデルのTVD distanceと Max attentionの関係 • Singleは影響が⼩さい • Max attentionが ⼤きい時に影響が ⼤きい 21
実験2 : attentionの重みとfeature importanceの関係 • Attentionの重みがmaxのものを取り除いた時とrandomに選 んで取り除いた時の予測の違いを⾒たい • オリジナルの予測をp, maxのものを除いた予測をq(i*), randomに選んで取り除いたものの予測をq(r)として JS(p, q(i*))とJS(p, q(r))の差をみる 22
実験3 : self-attentionベースのモデルにおける影響 • Self-attentionベースのモデルにおいて同様の傾向が⾒られ るのか確認した • 結果を⾒てみるとsingle sentence task(IMDB)においてもス コアの減少が⾒られた • Self-attentionが命題 4.1の 条件を満たしていなかった から 23
実験4 : Attentionによる説明の⼈⼿評価 • Attentionが最も⾼い3つを根拠として提⽰し、それが意味を 持っているかどうかを⼈⼿で評価した • その際に100個の例では上記の⽅法で根拠を選び、残りの100 個ではattentionをPermuteさせて根拠部を選んだ • どちらの例でもpermuteしてない場合は⾼いスコア 24
まとめ • Attentionが単にgating unitの役割になってしまっている場合 attentionの説明は意味をなさない • AdversarialなAttentionは試さない? 25