[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS

>100 Views

February 24, 17

スライド概要

2017/2/24
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

Quasi-Recurrent Neural Networks James Bradbury, Stephen Merity, Caiming Xiong, Richard Socher 17/02/01

2.

アジェンダ • 書誌情報 • 背景 • 関連研究 • 提案モデル • 実験・結果 • 結論

3.

書誌情報 • ICLR2017 Accepted Paper • Poster Presentation • 採点(6, 7, 5, 7) • Author • Salesforce Researchのグループ • Last authorはRecursive NNのRichard Socher

4.

背景 • RNN • 深層学習で系列データを扱う場合、標準的になってきている • 並列計算ができない • ⻑い系列を扱いにくい • CNN • 系列データを扱う際にも有⽤であることが⽰されている • 並列計算が可能 • QRNN(提案⼿法) • CNN-like:並列計算を時系列、ミニバッチの次元について可能 • RNN-like:⼊⼒系列の順序全体が出⼒に影響を与える

5.

関連研究 • Strongly-typed recurrent neural networks • Convolutional-recurrent models • ByteNet • QRNN encoder-decoderモデルが似ている

6.

提案モデル • QRNN

7.

提案モデル • QRNNはCNNにおける畳み込み層とプーリング層に対応する 2層からなる • ⼊⼒として系列⻑Tでn次元のベクトルX∈RT×nを受け取り、 時系列⽅向に畳み込みを⾏う • 畳み込みの際に未来の情報を含まないようにするため、 Masked convolution(系列⽅向にfilter幅に応じたpadding)を⾏う • Z, F, Oを下の式に応じて得る • Zの活性化関数はtanh, F, Oではシグモイド関数 • *は時系列⽅向へのMasked Convolutionを表す

8.

提案モデル • Pooling • 3つのpoolingを提案 • f-pooling • fo-pooling • ifo-pooling

9.

提案モデル • Regularization • Recurrent connectionに対して提案されている正則化のうち、 zoneoutを⽤いる(variational inference-based dropoutは使えない) • Zoneoutは以下で実装可能 • Densely-connected layers • Sequence classificationタスクにおいては、QRNNの各層間に skip-connectionを⼊れた⽅が良い • Encoder-Decoder Models • Vl: l層の最終のencoding state

10.

実験・結果 • QRNNの精度および実⾏時間を検証するため下記の実験を⾏う • Sentiment Classification • Language Modeling • Character-level Neural Machine Translation

11.

実験・結果 • Sentiment classification: IMDb Dataset • 映画についてのレビューおよび採点のデータ • X: レビュー⽂章(英語、⾃然⾔語) • y: 対象についてpositive/negativeの評価(⼆値分類) • 分類精度にて評価(従来のLSTMとの実⾏時間の差も合わせて⽐較)

12.

実験・結果 • 4層のdensely-connected QRNNで最も良い精度 • 256unit/layer, 300次元word vector(GloVe embedding) • Dropout = 0.3, L2 regularization = 4 × 10-6 • Minibatch = 24, RMSprop, learning rate = 0.001, α=0.9, ε=10-8

13.

実験・結果 • IMDb sentiment analysis • LSTMと同程度の精度である⼀⽅、エポックあたりの時間は1/3程度

14.

実験・結果 • 隠れ層の可視化

15.

実験・結果 • Language modeling: Penn Treebank • コーパスの⼀種であり、各⽂に統語構造の注釈が付与されたもの • Word-level predictionを⾏う • 929k training words, 73k validation words, 82k test words • Vocabularyは10k • Perplexityにて評価(低い⽅が良い)

16.

実験・結果 • 2層、640 unit/layer(32の倍数の⽅が計算効率が良いらしい) • Penn Treebankは⽐較的⼩さいデータセットであり、 過学習を防ぐことが重要となる • 最適化はSGD + momentumで⾏い、学習率は最初の6epochの 間、1に設定された後、減衰率0.95で⼩さくなる(計72epoch)

17.

実験・結果 • Penn Treebank language modeling task • 通常のLSTM(正則化なし)と⽐較して良いperplexity • 正則化を⾏なった場合も、highly competitive

18.

実験・結果 • Batchあたりの処理時間 • Chainer default LSTM, 最適化されたcuDNNによるLSTMと⽐較して、 QRNNでは “RNN” 部分の計算時間が減少している

19.

実験・結果 • Character-level neural machine translation: IWSLT English-German spoken language translation task • Sequence-to-sequence QRNNを評価する • ドイツ語 -> 英語の翻訳(Character levelのsegmentation) • 209,772sentence pair (TEDxから) • 187 Unicode code points

20.

実験・結果 • 4層、320unit/layer、dropoutまたはL2regularizationなし • 最初の畳み込み層のfilter幅 = 6、その他はfilter幅 = 2 • 最適化はAdamにて⾏い、計10epoch実施

21.

実験・結果 • IWSLT English-German spoken language translation task • Character-level LSTMを上回る精度 • Word-level attentionによるbase lineとほぼ同程度

22.

結論 • RNNとCNNの良い部分を合わせたようなQRNNを提案 • 複数のタスクにおいて、従来のLSTMと同程度または 少し上回る性能を⽰す • Epochあたりに要する時間は25 ~ 50%程度になった