>100 Views
October 19, 18
スライド概要
2018/10/19
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Phrase-Based & Neural Unsupervised Machine Translation (EMNLP2018 best paper) Hiroshiba Kazuyuki (DwangoMediaVillage) http://deeplearning.jp/ 1
Phrase-Based & Neural Unsupervised Machine Translation 一言で言うと 教師なし機械翻訳のSoTAを大幅に更新 著者 EMNLP2018 best paper 選択理由 自然言語のCycleGANみたいなのがどんなのか気になった URL: https://arxiv.org/abs/1804.07755 2
目次 概要 背景 教師なし機械翻訳の既存手法 手法 Unsupervised NMT (Neural Machine Translation) Unsupervised PBSMT (Phrase Based Statistical Machine Translation) 実験・評価 3
概要 教師あり機械翻訳は人間と同じくらいの性能 しかし大量の教師ペアデータが必要なため、マイナーな言語では難しい ペアではないデータは大量にある これを使って教師なし学習したい 既存手法で、教師なしタスクを教師あり学習に落とし込んだ手法がある BLEUで15ポイントぐらい 既存手法をlossの種類を少なくして簡単にした フェーズベースの機械翻訳手法を教師なしタスクに落とし込んだ これら2種を組み合わせると既存手法より12ポイント精度が上がった 4
Unsupervised machine translation using monolingual corpora only ICLR2018、著者一緒 2つの言語を教師無しで相互変換 オートエンコーダ+ドメイン判別器 再合成loss ドメイン判別loss ドメイン不変な潜在表現獲得 クロスドメインloss 言語Sを言語Tに変換し、 また言語Sに変換、その差をlossにする https://arxiv.org/pdf/1711.00043.pdf 5
Unsupervised neural machine translation ICLR2018 2つの言語を教師無しで相互変換 2つの言語でエンコーダを共有 ドメイン不変な潜在表現の獲得のため denoisingも同時に学習 入力単語をスワップ クロスドメインloss 言語Sを言語Tに変換し、 また言語Sに変換、その差をlossにする。 https://arxiv.org/pdf/1710.11041.pdf 6
提案手法:Unsupervised Neural Machine Translation さっきのUnsupervised neural machine translationの改良 単語トークン以外にも、byte-pair encodings (BPE) トークンを使用 頻出するn-gram文字列を記号に変える。未知語に強くなる。 ソース・ターゲット言語で分けず、ひとまとめにして単語embeddings作成 よりドメイン不変な潜在表現 2つの言語でデコーダも共有 言語の違いは、単語embeddingsから単語へのデコードが吸収する 7
提案手法:Unsupervised Phrase Based Statistical Machine Translation Phrase Based Statistical Machine Translation(PBSMT) 2言語の翻訳ペアデータから、フレーズごとに言語変換テーブルを作成し、 翻訳時は、変換スコアの最大化問題を解く手法 教師なしタスクを教師ありに落とし込む 単語辞書をもとにフレーズ辞書を作成し、言語S→言語T変換テーブルの初期値を作 成 変換テーブルを用いて言語Sを言語Tに変換し、仮のペアデータを作成 仮のペアデータを用いて言語T→言語S変換テーブルを作成 変換テーブルを用いて言語Tを言語Sに変換し、仮のペアデータを作成 これを繰り返す 8
実験条件 データセット English-French, English-German, English-Romanian, English-Russian, English-Urdu 後ろ3つはペアデータ数が少ない NMTでの単語embedding トークン数は60000 ウィンドウサイズ5のFastTextを使用 PBSMTでのフレーズテーブル フレーズ数はMUSE libraryを使って30万 ターゲットに対して各々200ずつテーブルを作成 9
実験条件 学習 NMT LSTMとTransformerのCell(Attention Is All You Needのネットワーク) Transformerはエンコーダ・デコーダで4層ずつ 生成時はgreedy PBSMT Mosesスクリプトを使用 毎イテレーションに500万文 フレーズ長は4 数分で終わる 10
教師なし機械翻訳の既存手法よりも良い性能 指標はBLEU 単語ごとにn-gram内で正解があった割合 既存手法よりも性能が上回った 英語→フランス語ではPBSMTが一番良かった それ以外ではPBSMT+NMTが一番良かった PBSMTの変換結果をNMTの逆変換結果にadd よくわからなかった 11
PBSMTは何回も反復すると良い 12
100000ペアデータでの教師あり機械翻訳と同程度の精度 ペアデータ数が少ない言語では、 教師あり学習よりも良い性能になった 13
その他の比較実験結果 一番上が最も良かった手法 ソース・ターゲット言語で分けて 単語embeddingsを作ると、3ポイントほど落ちる byte-pair encodings無しだと、 4ポイントほど落ちる デコーダを共通化してもあまり変わらない? 言及はされていなかった 14
まとめ Unsupervised Neural Machine Translation提案 byte-pair encodingsトークンを追加 言語共通の単語embeddings デコーダも共通化 Unsupervised Phrase Based Statistical Machine Translation提案 フェーズベースの教師あり機械翻訳手法を、ペアデータなしで適用可能に 2つの手法を合わせると既存手法の性能を大きく上回った 15