[DLHacks 実装]Neural Machine Translation in Linear Time

>100 Views

October 05, 17

#Machine Translation #ByteNet #Convolutional Neural Network #Parallel Computing #Language Processing

スライド概要

Deep Learning JP:
http://deeplearning.jp/hacks/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 84.7K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 54.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 38.8K

【拡散モデル勉強会】拡散モデルのサンプラーまとめ

Deep Learning JP 33.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 32K

各ページのテキスト

DL Hacks 論文紹介 Neural Machine Translation in Linear Time Nal Kalchbrenner, Lasse Espeholt, Karen Simonyan, Aaron van den Oord, Alex Graves, Koray Kavukcuoglu. TOMOKI FUKUMA

「機械翻訳」モデル ”ByteNet” ・Encoder/Decoderによる翻訳をCNNを用いて行った →計算を並列でできるようにしつつ、単語間の関係もより長く考慮できるよう考案。・Source Networkは文章幅と等しい中間表現を作る →RNNは文の長さに関わらず固定長（←そもそも情報量が文の長さに依存しないのはおかしい）・文字ベースの翻訳モデルでは他を圧倒しstate-of-the-art の性能を出した

ByteNetがCNNを用いるメリット高速時系列性情報量 ByteNet RNN CNNを用いると、並列化しやすく速いひとつなぎの構造なので並列（RNNでは入力と出力の長さの線形で化できない時間がかかる）逆伝搬のコスト計算も、文章の長さに逆伝搬のコスト計算は文章のは左右されず、深さのみに依存長さに依存長い文章中の単語間の依存性は短い pathで繋がり、より学習が容易長い文章間の単語の依存性は学習が困難生成される中間表現が文章の長さによ中間表現のサイズが一緒って変化する

ByteNetの構造 Decoder Target Network 可変の特徴を用いて Dynamic Unfoldingで展開 Encoder Source Network 入力をCNN(Dilated Convolution)を用いて変換

TECHNIQUE USED IN THIS MODEL 1.Dilated Convolution ・フィルターとの積を取る相手の間隔をあける畳み込みのこと２次元→ ←１次元左側の何も写っていない場所はパディング

TECHNIQUE USED IN THIS MODEL 1.Dilated Convolution ・畳み込みにはdilationを用いることで、比較的少ない層，少ない結合で遠い場所との相関をモデリングできる・Dilationを用いると深さを増やすに連れ指数的に需要野が広がる・Dilationのrateをレイヤー毎に1から16まで2倍しながら構成する Dilation=4 Dilation=3 Dilation=2 Dilation=1

TECHNIQUE USED IN THIS MODEL 2.Dynamic Unfolding ・source networkによって生成される特徴量は入力の系列と同じ長さを持つ・ステップ毎にtarget networkはsourceの特徴量を出力しEOSが出るまで継続・sourceの特徴量の長さを出力が超える場合は対応する部分をzero-paddingする

TECHNIQUE USED IN THIS MODEL 3.Masked One-Dimension Convolution ・目標出力t=t0,t1…tnがあり、tnを予測する際は Embeddingしたt0,t1…tn-1を用いる・現在のtokenより先の情報が入らないように、それ以降のtokenはmaskし1d dilated convolutionする

ByteNetの構造 Decoder Target Network 可変の特徴を用いて Dynamic Unfoldingで展開 Encoder Source Network 入力をCNN(Dilated Convolution)を用いて変換

10.

Model Comparison PathsはSource Networkの長さ PathtはTarget Networkの長さ Pathが短いほど、逆方向に伝播するレイヤーの数が少なくなり、ネットワークが収束しやすくなる。

11.

Model Comparison Negative log-likelihood results in bits/byte on the Hutter Prize Wikipedia benchmark.

12.

Model Comparison BLEU scores on En-De WMT NewsTest 2014 and 2015 test sets.