>100 Views
October 05, 17
スライド概要
Deep Learning JP:
http://deeplearning.jp/hacks/
DL輪読会資料
DL Hacks 論文紹介 Neural Machine Translation in Linear Time Nal Kalchbrenner, Lasse Espeholt, Karen Simonyan, Aaron van den Oord, Alex Graves, Koray Kavukcuoglu. TOMOKI FUKUMA
「機械翻訳」モデル ”ByteNet” ・Encoder/Decoderによる翻訳をCNNを用いて行った →計算を並列でできるようにしつつ、単語間の関係もより長く考慮 できるよう考案。 ・Source Networkは文章幅と等しい中間表現を作る →RNNは文の長さに関わらず固定長(←そもそも情報量が文の長さ に依存しないのはおかしい) ・文字ベースの翻訳モデルでは他を圧倒しstate-of-the-art の性能を出した
ByteNetがCNNを用いるメリット 高速 時系列性 情報量 ByteNet RNN CNNを用いると、並列化しやすく速い ひとつなぎの構造なので並列 (RNNでは入力と出力の長さの線形で 化できない 時間がかかる) 逆伝搬のコスト計算も、文章の長さに 逆伝搬のコスト計算は文章の は左右されず、深さのみに依存 長さに依存 長い文章中の単語間の依存性は短い pathで繋がり、より学習が容易 長い文章間の単語の依存性は 学習が困難 生成される中間表現が文章の長さによ 中間表現のサイズが一緒 って変化する
ByteNetの構造 Decoder Target Network 可変の特徴を用いて Dynamic Unfoldingで展開 Encoder Source Network 入力をCNN(Dilated Convolution)を用いて変換
TECHNIQUE USED IN THIS MODEL 1.Dilated Convolution ・フィルターとの積を取る相手の間隔を あける畳み込みのこと 2次元→ ←1次元 左側の何も写っていない場所はパディング
TECHNIQUE USED IN THIS MODEL 1.Dilated Convolution ・畳み込みにはdilationを用いることで、比較的少ない 層,少ない結合で遠い場所との相関をモデリングできる ・Dilationを用いると深さを増やすに連れ指数的に需 要野が広がる ・Dilationのrateをレイヤー毎に1から16まで2倍し ながら構成する Dilation=4 Dilation=3 Dilation=2 Dilation=1
TECHNIQUE USED IN THIS MODEL 2.Dynamic Unfolding ・source networkによって生成される特徴量は 入力の系列と同じ長さを持つ ・ステップ毎にtarget networkはsourceの特徴 量を出力しEOSが出るまで継続 ・sourceの特徴量の長さを出力が超える場合は 対応する部分をzero-paddingする
TECHNIQUE USED IN THIS MODEL 3.Masked One-Dimension Convolution ・目標出力t=t0,t1…tnがあり、tnを予測する際は Embeddingしたt0,t1…tn-1を用いる ・現在のtokenより先の情報が入らないように、それ 以降のtokenはmaskし1d dilated convolutionする
ByteNetの構造 Decoder Target Network 可変の特徴を用いて Dynamic Unfoldingで展開 Encoder Source Network 入力をCNN(Dilated Convolution)を用いて変換
Model Comparison PathsはSource Networkの長さ PathtはTarget Networkの長さ Pathが短いほど、逆方向に伝播するレイヤーの数が少なくなり、ネットワークが収束しやす くなる。
Model Comparison Negative log-likelihood results in bits/byte on the Hutter Prize Wikipedia benchmark.
Model Comparison BLEU scores on En-De WMT NewsTest 2014 and 2015 test sets.