[DL輪読会]Learning to Skim Text

>100 Views

January 09, 18

#deep learning #NLP #RNN #LSTM-Jump #text skimming #hyperparameters

スライド概要

2018/01/05
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 83.4K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.3K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 53K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 38.4K

【拡散モデル勉強会】拡散モデルのサンプラーまとめ

Deep Learning JP 33.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 30.7K

各ページのテキスト

Learning to Skim Text Gota&Gando&(UMass&Amherst)&& 1

書誌情報 ▶ https://arxiv.org/pdf/1704.06877.pdf ▶ Adams Wei Yu (CMU), Hongrae Lee (Google), Quoc V. Le (Google) ▶ ACL 2017 ▶ 概要：入力文を任意にskipするRNN architecture (LSTM-Jump)の提案 ▶ 選定理由：タイトルとabstractで興味を持ったため

https://arxiv.org/pdf/1704.06877.pdf

Motivation ▶ RNNをNLPタスクに用いる際、入力テキストの全部分を処理する必要がある => より長いdocumentでは処理が遅い ▶ 大抵のテキストはredundancyがある ▶ “partial reading”が出来るarchitectureを考えたい

Methodology 1. Softmax層の出力値分入力tokenをスキップ 2. 0が出力されるまで続ける 3. 0が出力されたらそのtime stepのhidden stateを対象タスクに使用 ▶ Hyperparameters: N: 最大jump数, R: 1つのジャンプ後に読む入力token数, K: 1 jumpの最大サイズ

Training method ▶ jump actionはmultinomial distribution p(ji |hi (j1:i 1 ); ✓a ) からのサンプリングによって決定される（jump幅選択のN回試行） ▶ このサンプリングのステップは微分不可能なのでREINFORCEで勾配を求める => 報酬：R (モデルの予測が正解: 1, 不正解: -1) => 分散が高くなるので工夫 (Section 2.2) ▶ （現在だとGumbel Softmax等のreparam trickでも恐らく可能）

Training method ← ✓aの目的関数 ←REINFORCEでの勾配 ←monte carloサンプリングで近似

Experiments ▶ 4種のデータセットで実験 - Synthetic dataset - Sentiment Analysis - AG News (character-level) - Q/A ▶ 全て1-layerでvanilla LSTMとの比較詳細なパラメータ設定等はSection 3参照

Experiments (1) synthetic dataset ▶ 入力系列の最初のtokenが正解の値のindexであるようなdata ▶ 1 million train set / 10,000 validation set, 入力系列の長さT=100 ▶ そのまま訓練するとconvergeしないので T={10, 20, 30, 40, 50, 60, 70, 80, 90, 100}のdataを生成し短い順に訓練入力系列の例

Experiments (2) sentiment analysis ▶ Rotten tomatoes - 10,662 documents - average length: 22 words, max: 56 words - 訓練時パラメータ：R=8, K=10, N=3 ▶ IMDB - 25,000 train / 25,000 test - average length: 240 words - 訓練時パラメータ：R=20, K=40, N=5 Rotten tomatoesの結果 ▶ ほぼ同精度で2x & 2.5x程度の高速化 IMDBの結果

10.

Experiments (3) char-lvl news classiﬁcation ▶ AG’s news corpusの一部を使用：Zhang et al. (2015)と同じ ▶ 30,000 train / 1900 test examples for each class ▶ d_emb=16, 1-layer LSTM w/ n_hid=64 ▶ 訓練時のパラメータ：R=30, K=40, N=5 使用character

11.

Experiments (4) sent-lvl automatic QA ▶ Children’s Book Test dataset ▶ タスク： context (20 sentences)とquery (1 sentence) が与えられる queryの中の1語が消されている=>10候補の中からbest ﬁtを選択・・・

12.

Experiments (4) sent-lvl automatic QA ▶ 全モデルで共通してK=5, R=1 (1文毎にジャンプ) ▶ regular LSTMと比べて1.4%-4.4%高いaccuracyを獲得 ▶ 最大で6.26x faster ▶ LSTM-Jumpは読む文を選択できるのでqueryの記憶が新しいうちに予測出来たと解釈できる

13.

Conclusions ▶ 高速に入力系列を処理できるLSTM-Jumpの提案 ▶ （T, R, Kを上手く調整すると）LSTMと同精度で高速にinference出来る ▶ jump actionパラメータの最適化はpolicy gradientで行う ▶ 大量のdocumentを処理する必要がある状況で有用かも ▶ hyperparameters ▶ attentionなど他のarchitectureとの組み合わせ ▶ REINFORCEの代わりにGumbel Softmax？