260 Views
April 22, 19
スライド概要
2019/04/12
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] “Attention is not Explanation (NAACL2019)” Yoshifumi Seki, Gunosy http://deeplearning.jp/
書誌情報 ● タイトル: Attention is not Explanation ● 著者:Sarthank Jain, Byron C. Wallace ○ Northeastern University ● 投稿先 ○ NAACL2019 ● 選定理由 ○ Twitter等で話題になっていた ○ Attentionの結果がExplanationだと解釈して利用するシステムを研究開発しており、クリティカルだっ た 2
大まかな概要 ● 言語処理タスクにおいてAttentionの重みは、モデルの説明性と関連すると言われて いるが明確な証明はない ● 3つのNLPタスクでAttentionを意味を検証してみる ● Gradient、Leave-One-Outで相関をみた ○ ぜんぜん相関してないから、あかんのでは? ● 異なるAttentionをあててみた ○ 並び替える -> 結果があまり変わらない ○ Attentionを大きく変えつつ、結果をあまり変えないようにAdversarial Attentionしてみる -> できた! ● AttentionのHeatmapは解釈性として使うのはほとんど意味ないのでは? 3
4
モデル: Bi-RNN ● input x \in R^{T × |V| } ○ composed one hot encoded word each position ● x_e \in R^{T × d} ○ embedding matrix Eによる埋め込み(次元d) ● h = Enc(x_e) \in R^{T × m} ○ 隠れ層 ● y = σ(θ, h_α) \in R^|y| ○ h_α = Σ α_t h_t 5
タスクとデータセット 6
AttentionとFeature Importanceの相関 ● AttentionとGradientの順序をKendall距離で比較 ○ Kendall距離: 2つのリストの不一致なものの数 ● Leave one out => 単語を系列から覗いたときの精度を比較する ○ 7
結果=> 相関係数低め 8
結果 => 分布全体、これでも低いことがわかる 9
疑問点 ● AttentionってSoftmaxかかっているから、全部の位置関係見るKendall距離ってどう なの? ○ 小さいところのごちゃごちゃした順番の違いに過剰反応しそう ● Averageの相関係数高いの当たり前だよね?MLPのWeightだから実質一緒だし ○ averageはaxivの[v1]にはない => つまり投稿バージョンにはない ■ 多分査読で、相関係数をなにかと比較すべきみたいなコメントにより追加された? ○ Attentionの相関係数が何と比べて低いのかという議論は不十分 ● LLO、RNNでやったら順序情報なくなるからAttentionの意味めっちゃ変わるので は、、、? ● 例えば一番高いのだけ一致しているとか見てみるといいのかな ○ コード公開されているので、時間見つけてやってみたい 10
Counterfactual Attention Weight ● Attention Permutation ● Adversarial Attention 11
Permuting Attention Weight ● Attentionをランダムにシャッフルして結果を求める ○ hは変えない ● 出力結果の差のMedianを求める 12
結果 => Attentionによって結果は大きく変化しない 13
Adversarial Attention ● 結果が大きく変化しないようにAttentionを変化させる 14
15
16
17
18
Discussion and Conclusion ● AttentionのHeatmapがモデルの解釈性に与える意味はあまりないと言える ● Limitation ○ Gradientが解釈性として正しいと主張するつもりはない ○ 今回の実験は一部のAttention機構のみが対象である。次はSeq2seqをやるつもり 19
お気持ち ● 言わんとすることはわからんでもないけど主張が強いのでは?と思った ○ そもそもAttentionはそこまで結果に強い影響与えないのはよく言われていて、補正としての意味合い が強い ○ 補正なんだから、Gradientとの相関強くないのはそうだし、相関のとり方もうーん ○ permutationは、hを固定してAttentionを変化させても結果があまり変わらないということだけど、これ は解釈性ではなく、Attentionがタスクの精度に与える影響の議論 ■ タスク依存、もしくは小さな改善という話なのでは ○ Adversarialはhとθ固定してそのように学習してるんだから、都合よく影響少ないとこ探せばいいよね、 という感じ。 ■ 0.69てイプシロンとして適切なの? ■ そもそも学習してるけど、どんぐらいAttention変えられたの? ● とはいえ、簡単に解釈性とかいうのはよくないのはそうだねという気持ち 20