>100 Views
October 16, 20
スライド概要
2020/10/16
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] ⾳声⾔語病理学における機械学習とDNN Haruka Murakami, Matsuo Lab http://deeplearning.jp/
Learning Latent Representations for Style Control and Transfer in End-to-end Speech Synthesis • ICASSP(2019) • Ya-Jie Zhang ; Shifeng Pan ; Lei He ; Zhen-Hua Ling • 内容:end-to-endの⾳声合成モデルにVAEを導⼊し、発話スタイルの 潜在表現を教師なし学習する • 貢献ポイント:Kullback-Leibler発散崩壊を回避するためにいくつか の⼯夫をしている • 被引⽤数:26 • 選定理由:Text-to-speechの先⾏研究を⾒ていて、⽐較的最近のもの の中ではよく引⽤されていたため、変更点がシンプルに⾒えたため 2
⾳声合成の⼿法による違い 波形接続型 HMM型 DNN型 肉声感 ◎元の音声を使っている ×ロボット的 △ 抑揚 × △自然な読みができるレベ ル 弱点 大容量の波形DBが必要 計算量が多く応答性が弱 い ニーズ:明瞭性→人間の音声に近づける 2016年 WaveNetにより進歩 → Google Cloud Text-to-Speechに採用 3
Variational Autoencoder (VAE) • VAEは、潜在変数zを確率分布という構造に押し込める • AE: 教師なし学習の⼀つ。そのため学習時の⼊⼒データは訓練データ のみで教師データは利⽤しない。データを表現する特徴を獲得するた めのニューラルネットワーク。 • VAEはこの潜在変数zzに確率分布、通常z~N(0,1)z~N(0,1)を仮定 ↑の負の値再構 成誤差 KL誤差 4
提案モデル • 基本的には後述する先⾏研究 に⼀部変更を加えたモデル • 発話スタイル潜在表現z+テキ スト⽂をEncoder部分を修正 したTacotron2に⼊⼒し、得 られたメルスペクトログラム をWaveNet vocoderに⼊⼒し、 ⽣成⾳源を得る 5
Tacotron 2 • Tacotron 2 – End-to-endの⾳声合成システム • メルスペクトログラム – 実際の⾳と⼈間の⾳⾼知覚の差 異を吸収し、ヒトの⽿向けに調 整した特徴量 – ⼈間は線形スケールで周波数を 知覚せず、低周波数の⽅が差異 に敏感 – リズムや強調などの調⼦を得ら れる 6
提案モデル • ⼤きく分けて2部ある • Recognition model部(推論部) – 参照⾳源を、潜在表現の固定⻑ の短ベクトル(スタイルを表す潜 在変数z)に符号化 • End-to-end TTSモデル部 – Tacotron2を利⽤ – 潜在表現とテキストエンコーダ の状態が結合されたものを、特 定のスタイルを持つ⽣成分に変 換する FC: fully connected 幅5、512チャンネルの3つ の1次元畳み込み層と確率 0.1のゾーンアウトの双方向 LSTM層で構成 • モデル全体のlossは 7
KL collapseの回避 • 潜在変数zの事後分布 が事前分布 と⼀致し, データの特性を捉えない 現象. • 訓練中に識別可能な表現を学習する前にKL誤差が簡単にcollapseする • KL誤差の収束速度が再構成誤差の収束速度をはるかに上回り、KL損 失は即座にゼロ付近まで低下して⼆度と上昇しないため、エンコーダ が動作しなくなる • この問題の解決にKL annealingを導⼊ – 1.訓練中にKL項に可変の重みを加える;開始時はゼロに近い値→徐々に増 加させる – 2.KステップごとにKL誤差を考慮する 8
評価⼿法 • 使⽤データセット: Blizzard Challenge 2013 – 単⼀話者による様々な語りのスタイルが含まれる105時間の英語オーディオブ ックのデータセット – 学習⽤発話:58453個、テスト⽤発話:200個 – フレームシフト:12.5ms、フレーム⻑:50msで80次元のメルスペクトルグラ ムを抽出 • ベースラインモデル:GST model (Wang 2018) – Global style tokens:end-to-end⾳声合成システムのTacotron内で学習される embedding列 – 要は明⽰的なラベルなしで⾳声の因⼦を分解することができる先⾏研究 – ハイパーパラメータは先⾏研究内のセッティングを適⽤ 9
主な評価⼿法 • 1)⽣成したものをメルスペクトルグラムで⽐較 • 2)non-parallel transferとparallel transferをABXテストで⽐較 • Non-parallelデータ – テキスト→指定したスタイルの読み – non-parallelデータ;スタイルラベルのついた⾳声データ • Parallel transfer:ターゲットテキストと参照⾳源の情報元が同じも の • Non-parallel transfer:上記の情報源が異なるもの 10
潜在変数の補間 生成された音声のメルスペクトル • VAEは潜在表現間のスムーズな補間と連続的 なサンプリングをサポートして、解釈可能な 表現を得られる • これを利⽤して2つのz間の補間演算を⾏った • 結果、1つは⾼い発話率と⾼いピッチの⾳声、 もう1つは低い発話率と低いピッチの⾳声を⽣ 成することができた • このように、⽣成された⾳声のピッチと発話 率は、補間に伴って徐々に低下していること がわかる • この結果から、学習した潜在空間がスペクト ルグラムの傾向を連続的に制御していること がわかり、さらにスタイルの変化に反映され ることがわかる 11
これは何を意味するのか? • 複数の次元が独⽴した表現であることは、潜在 変数が概念のみを完全に制御し、他の要因から の変化に対して不変であることを意味する 他の次元を固定しながら、単一 の次元を操作した場合のスペク トログラムの変化 1列目:潜在次元6を-0.9, -0.1, 0.7に調整することで、ピッチ の高さのみが制御されている 2列目:ディメンション10の値 をそれぞれ0.1, 0.5, 0.9, 0.1, 0.5, 0.9にすると局所的なピッチ変 動が徐々に拡大 • 実験で、複数の次元が独⽴してピッチハイト、 局所的なピッチ変動、発話率などのスタイル属 性を制御できることが分かった • つまり、⼀つの次元を調整することで、⽣成⾳ 声の属性を変化させることができる 12
潜在変数の加法性 • ↑ピッチ⾼さ属性と局所的なピッチ変動属性の組み合わせ結果 • Zを組み合わせて⽣成された⾳声は、双⽅のdisentangleされた次元の特性を継承 していることがわかる • (a)と(b)は、1つの次元をを⾮ゼロ、他の次元をゼロとするzで⽣成されている。 • (a)のValued次元はピッチの⾼さを制御し、(b)のValued次元はピッチの変化を制 13 御する。(c)は(a)と(b)のzの和で⽣成される。
Style transfer • ⼊⼒テキストは同じ – 図は”She went into the shop . It was warm and smelled deliciously.” • ⽣成された⾳声と参照⾳声のメルス ペクトログラムはピッチの⾼さ、⼀ 時停⽌時間、発話率、ピッチの変化 などのパターンの類似性を有してい る – (と書いてあるが、⾳声の結果は⾒つ 1 行目:スタイルの異なる 3 つの録音のメロ・スペクトロ からなかった) グラム 2 行目は:録音で参照された合成音声 14
Style transferの性能評価⼿法 • Parallelとnon-paralleltransferでABXテストを実施 • Parallel – テストセットから60個の⾳声クリップとテキストをランダムに選択 • Non-parallel – 60⽂のテキストと60個の他の参照⾳声クリップを選択して⾳声を⽣成 • ベースライン⾳声:パラメータチューニングしたGSTモデル • ABX test:被験者がAとBを聞き分けられることを客観的に評価するテスト – 25⼈の英語ネイティブ – どちらの話し⽅が基準スタイルに近いか – (1)Aの⽅が良い (2)Bの⽅が良い (3)中⽴ 15
Style transferのABXテストの結果 • 提案モデルはparallel, non-parallelの両⽅において、GSTモデルよりも優れ ている(p値<10-5) • つまり、VAEが潜在的なスタイル表現をより良くモデル化できることを⽰ し、結果としてより良いstyle transferが可能であることを⽰している • 特に、non-parallelにおいて優位で、より優れた⼀般化能⼒を⽰している 16
まとめ • End-to-endのTTSモデルにVAEモジュールを導⼊ • 連続空間における発話スタイルの潜在表現を教師なし学習し、合成⾳ 声の発話スタイルをコントロール出来るようにした – 潜在空間が連続的であることを実証し、学習された潜在変数において解釈可能 な因⼦を探した • ABXテストにおいてStyle transferでGSTモデルを上回る • 今後の研究 – より説明可能な潜在表現を得ることに焦点を当てる – 単⼀話者だけでなく、複数話者にも適応を拡⼤する 17