>100 Views
January 09, 18
スライド概要
2018/01/05
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
Learning to Skim Text Gota&Gando&(UMass&Amherst)&& 1
書誌情報 ▶ https://arxiv.org/pdf/1704.06877.pdf ▶ Adams Wei Yu (CMU), Hongrae Lee (Google), Quoc V. Le (Google) ▶ ACL 2017 ▶ 概要:入力文を任意にskipするRNN architecture (LSTM-Jump)の提案 ▶ 選定理由:タイトルとabstractで興味を持ったため
Motivation ▶ RNNをNLPタスクに用いる際、入力テキストの全部 分を処理する必要がある => より長いdocumentでは処理が遅い ▶ 大抵のテキストはredundancyがある ▶ “partial reading”が出来るarchitectureを考えたい
Methodology 1. Softmax層の出力値分入力tokenをスキップ 2. 0が出力されるまで続ける 3. 0が出力されたらそのtime stepのhidden stateを対象タスクに使用 ▶ Hyperparameters: N: 最大jump数, R: 1つのジャンプ後に読む入力token数, K: 1 jumpの最大サイズ
Training method ▶ jump actionはmultinomial distribution p(ji |hi (j1:i 1 ); ✓a ) からのサンプリングによって決定される(jump幅選択のN回試行) ▶ このサンプリングのステップは微分不可能なのでREINFORCEで勾配を求める => 報酬:R (モデルの予測が正解: 1, 不正解: -1) => 分散が高くなるので工夫 (Section 2.2) ▶ (現在だとGumbel Softmax等のreparam trickでも恐らく可能)
Training method ← ✓aの目的関数 ←REINFORCEでの勾配 ←monte carloサンプリングで近似
Experiments ▶ 4種のデータセットで実験 - Synthetic dataset - Sentiment Analysis - AG News (character-level) - Q/A ▶ 全て1-layerでvanilla LSTMとの比較 詳細なパラメータ設定等はSection 3参照
Experiments (1) synthetic dataset ▶ 入力系列の最初のtokenが正解の値のindexであるようなdata ▶ 1 million train set / 10,000 validation set, 入力系列の長さT=100 ▶ そのまま訓練するとconvergeしないので T={10, 20, 30, 40, 50, 60, 70, 80, 90, 100}のdataを生成し短い順に訓練 入力系列の例
Experiments (2) sentiment analysis ▶ Rotten tomatoes - 10,662 documents - average length: 22 words, max: 56 words - 訓練時パラメータ:R=8, K=10, N=3 ▶ IMDB - 25,000 train / 25,000 test - average length: 240 words - 訓練時パラメータ:R=20, K=40, N=5 Rotten tomatoesの結果 ▶ ほぼ同精度で2x & 2.5x程度の高速化 IMDBの結果
Experiments (3) char-lvl news classification ▶ AG’s news corpusの一部を使用:Zhang et al. (2015)と同じ ▶ 30,000 train / 1900 test examples for each class ▶ d_emb=16, 1-layer LSTM w/ n_hid=64 ▶ 訓練時のパラメータ:R=30, K=40, N=5 使用character
Experiments (4) sent-lvl automatic QA ▶ Children’s Book Test dataset ▶ タスク: context (20 sentences)とquery (1 sentence) が与えられる queryの中の1語が消されている=>10候補の 中からbest fitを選択 ・・・
Experiments (4) sent-lvl automatic QA ▶ 全モデルで共通してK=5, R=1 (1文毎 にジャンプ) ▶ regular LSTMと比べて1.4%-4.4%高 いaccuracyを獲得 ▶ 最大で6.26x faster ▶ LSTM-Jumpは読む文を選択できるの でqueryの記憶が新しいうちに予測出 来たと解釈できる
Conclusions ▶ 高速に入力系列を処理できるLSTM-Jumpの提案 ▶ (T, R, Kを上手く調整すると)LSTMと同精度で高速にinference出来る ▶ jump actionパラメータの最適化はpolicy gradientで行う ▶ 大量のdocumentを処理する必要がある状況で有用かも ▶ hyperparameters ▶ attentionなど他のarchitectureとの組み合わせ ▶ REINFORCEの代わりにGumbel Softmax?