[DL輪読会]DurIAN: Duration Informed Attention Multimodal Synthesis

210 Views

November 18, 19

#deep learning #Deep Learning #DurIAN #Multimodal Synthesis #Attention Mechanism #Speech Synthesis

スライド概要

2019/11/15
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.4K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.1K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 49.4K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.1K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 46.9K

各ページのテキスト

DEEP LEARNING JP [DL Papers] DurIAN: Duration Informed Attention Multimodal Synthesis Yoshine Hayashi, AlgoAge http://deeplearning.jp/ 1

http://deeplearning.jp/

Agenda • 書誌情報 • 概要 • 提案手法 • 実験結果 • デモ • 考察

書誌情報 • 論文名：DurIAN: Duration Attention Multimodal Synthesis • 著者：Chengzhu Yu, Heng Lu, Na Hu, Meng Yu, Chao Weng, Kun Xu, Peng Liu, Deyi Tuo, Shiyin Kang, Guangzhi Lei, Dan Su, Dong Yu • 所属：Tencent AI Lab • 公開日：4 Sept. 2019 • デモ：Sound and Video demo ※ 特に明記していない場合は上記論文、デモから引用。

概要表情と声を同時に生成するマルチモーダルの自己回帰モデル

概要従来手法の問題点 • TTSのモデルについて - NNを用いない手法はロバストだが音声の自然さに欠ける - NNを用いたend-to-endの手法は音声は自然だがロバスト性に欠ける →調査した結果end-to-endのAttention機構が原因だった • 顔と表情の同期について - 音声と表情がペアのデータを用意するのが大変

概要何をしたか • Tacotron2のAttention機構をalignment modelで置き換える →従来のTacotron2と同時間で、より自然な音声を生成可能 • 音素と韻律構造のエンコードにSkip encoderを使用 → Out-of-domainのテキストにもロバストに対応可能

概要何をしたか • Style-control手法の提案 →教師ありのスタイル変換で細かな表現の調節が可能 • Multi-band synchronized WaveRNNの提案（今回は割愛） →WaveRNNの計算コスト削減、単一CPUで実時間の6倍で生成

提案手法全体図

提案手法 ① Skip encoderで音素と韻律構造をエンコード ② Alignment modelで入力の音素とラベル音声の対応づけをする ③自己回帰モデルで音声と表情を生成 ④ Post-netで③でとらえきれなかった部分を予測

10.

提案手法 Skip Encoder ー Tacotron1のエンコーダがベース役割：音素と韻律構造を隠れ状態にエンコードする out-of-domainのテキストにもロバストにするより自然な音声を生成する

11.

提案手法 Skip Encoder ①入力されたテキストを音素に変換 • 韻律構造に合わせて境界を追加 • #Sが音節、#1が韻律語(?)など ② 音素と韻律をベクトルにembedding

12.

提案手法 Skip Encoder ③ Pre-netでエンコード（全結合層*2）学習時、確率0.5でDropout ④ CBHGモジュールでエンコード（Conv1D + highway network + bidirectional GRU）

13.

提案手法 Alignment Model ー従来のAttention機構の代わり役割：音素とラベル音声間の対応づけをするロバスト性を高める（skipやrepeatの問題を解消する）

14.

提案手法 Alignment Model ① 音素の間隔を予測するモデルで対応関係を取得学習時：音声認識でよく使われるforced alignmentという手法を使い取得予測時：別のモデル（図右下）で対応を取得 ↑pre-trained（forced alignmentから得られたものとMSE） ② 隠れ状態を複製し長さを合わせる ③ 各音素の音声との対応位置を取得

https://www.isip.piconepress.com/projects/speech/software/tutorials/production/fundamentals/v1.0/section_04/s04_04_p01.html

15.

提案手法 Decoder ーTacotron1のDecoderがベース役割：音声と表情を同時に出力する

16.

提案手法 Decoder • Post-netの前後のMel-spectrogramそれぞれについてL1Lossをとる • 表情の同時生成の手法は以下の2つがある ① マルチタスクのモデルとして学習する →音声と顔のペアのデータが必要で大変 ② duration-modelを使い、音声と顔を独立に学習させる（詳しくは記載なし） →提案手法はこちらを使用

17.

提案手法 Decoder • 表情の生成については以下がベース • face warehouse • Deep Video Portraits • Text-based editing of talking-head video

18.

提案手法 Style Control 役割：声と表情に感情をつける • 教師なし学習だと調節が大変ー潜在空間のどこが何に対応するか分からないので • 教師あり学習で、Angry, Happyといった具体的なラベルを渡す → しかしこれだと微調整は難しい

19.

提案手法 Style Control • style embeddingが潜在空間上のベクトルに対応すると仮定 →Control Scaleを調節することで細かなスタイル変換を実現（学習時は1.0で固定、推論時に変更可能）

20.

提案手法 Style Control • 音素の間隔はstyleに影響しそう →① Skip encoder後の隠れ層にconcat ② 音素をembeddingした後にconcat

21.

提案手法 Style Control • 音声のデータセット • • • • ゲーム実況者風音声合成用の男性話者の4時間分の音声データ内0.5時間にexcitingのラベルをつける内1時間に実況者のラベルをつける残り2.5時間はnormalとして扱う • 表情のデータセット • face warehouse

http://kunzhou.net/zjugaps/facewarehouse/

22.

実験音声の自然さの検証 • Male: プロの中国語話者の18hのデータを学習（16KHz）学習データに含まれない40文の生成結果を実験に使用 • Female: プロの中国語話者の7hのデータを学習（16kHz）比較的長い、out-of-domainの20文の生成結果を使用 • それぞれ20人の中国語話者に評価してもらう

23.

実験結果 • Male, FemaleともTacotron2とほぼ同じ精度評価指標：Mean Opinion Score（MOS）と呼ばれる、人間に自然さを1~5で評価させ平均したもの高いほど良く、最低1で最高5

24.

実験結果音声のロバスト性の検証 • 1000発話中skipとrepeatが何%で起きたか • 実験内ではerrorがなく、提案手法の方がロバストだという主張

25.

デモスタイルコントロールと表情生成の結果のデモ • 左からNeutral, Joyful

26.

デモスタイルコントロールと表情生成の結果のデモ • 左からAngry, Sad

27.

デモスタイルコントロールでscaleを調節した音声のデモ（表情のデモはなかった） • ラベルはexcitingで、左から*0.5, *1.0, *1.5, *2.0 • 声の高さと話す勢いに顕著に違いあり • W杯の実況者風

28.

考察 • デモを見る限りスタイル変換はかなり良くできている • Exciting以外のstyleラベルのデータについての記述は見当たらなかった • スタイル変換の評価指標がないのでどれだけ良いか分かりづらい →既存の教師あり・なしスタイル変換について近日中にまとめたい • 声と表情の同期については社外秘だったのが残念 • 表情生成のモデルも詳しくは見当たらなかった • なぜパラレルデータなしで同期できるのか知りたかった