4.2K Views
March 16, 25
スライド概要
音声処理は、音声の物理モデル化とパラメータ推定による方法から、物理的なモデルを仮定せずに深層学習によってモデル化する手法に移行した。その内容について概説する。
I'll be writing programs, papers, and ramblings.
深層学習による音声処理 ~物理なき音声のモデル化~ 伊藤 彰則 東北大学大学院工学研究科
自己紹介 Akinori Ito 伊藤彰則 工学研究科通信工学専攻教授 学部時代に人工知能を志して夢破れる 気を取り直して音声認識の研究に従事 現在の専門分野 音声認識・音声合成 音声・マルチモーダル対話システム 音声・オーディオ符号化 音声による言語学習 音楽情報処理 2018/2/25 at Lake Hoan Kiem, Hanoi, Vietnam 2
物理における現象のモデル化 ◦状況𝑋に対して 𝑓 𝑋 =0 ◦だけど実際には 𝑓 𝑋 +𝜖 =0 ◦𝑓は単純であるほどよく、𝜖は小さいほどよい ◦𝑓は現象の挙動を近似し、現象への理解を深める 深層学習の発展によって、膨大なパラメータを持つ𝑓を想定し、パラメータを データから推定することで最終的な𝜖を小さくするアプローチが増えている 3
音声処理において理論が負けてきた歴史 ◦Frederick Jelinek (1932-2010) ◦ IBM Watson Research Center→JHU ◦ “Every time I fire a linguist, the performance of the speech recognizer goes up.” ◦ 音声認識においては、かつて音声学・言語学に基づくモデル化が 行われていたところ、1990~2000年代から統計モデルが利用さ れはじめ、認識性能が向上した 言語学的 フォルマント 音素 文法 パターン距離 統計的 スペクトル概形 Diphone/Triphone N-gram HMM 4
音声における物理(1) ◦音声生成のソースフィルタモデル 声帯音源波 𝑆(𝜔) 声道伝達関数 𝑇(𝜔) 口唇放射特性・室伝達関数 𝑅(𝜔) 観測信号 𝑋 𝜔 = 𝑆 𝜔 𝑇 𝜔 𝑅(𝜔) • 声道は動くので時不変システムではない が、短い時間(数十ms)では線形時不変シ ステムで近似できると仮定 5
音声における物理(2) ◦ スペクトルの概形は声道伝達関数 𝑇(𝜔)に概ね対応し、微細構造は声帯 音源波𝑆(𝜔)に由来する ◦ スペクトルを概形と微細構造に分解し て処理する ◦ CELP符号化など ◦ スペクトルの概形を音声認識の特徴 量として使う ◦ MFCCなど 6
古典的方法:ボコーダ ◦音声の分解と再合成 7
深層学習による生成モデル ◦ 【従来法】信号処理によってスペクトルなどの特徴量から音声 波形を生成するモデル 特徴量と波形には数学的な関係が必要 ◦ スペクトルなどの特徴量から、深層学習によって波形を生成す るモデル • 特徴量と波形には統計的な関係があ ◦ WaveNet ればよい • 関係はデータから学習 ◦ Hifi-GAN 8
深層学習における生成モデル: WaveNet ◦音声波形生成のための初めての深層学習モデル [van Oord+ 2016] CNNの一種 Dilated Convolutionが特徴 9
深層学習における生成モデル: WaveNet ◦深層学習モデルなので様々なことができる スペクトログラム WaveNet 音素ラベル 波形 WaveNet 波形 従来はスペクトログラムと波形の数理的関係性(フーリエ変換など)に基づいて相互に変 換されていたが、WaveNetではそのような明確な関係がなくても良い。例えばスペクトログ ラムと波形が別な人の声でも良い 10
深層学習における生成モデル ◦Hifi-GAN [Kong+ 2020] ◦ CNN Transposeでスペクトログラムを時間的に引き伸ばす ◦ ResNetで最終的な波形を生成 ◦ 敵対的生成ネットワーク(GAN)の利用 音声波形 ResBlock ResBlock ResBlock CNN Transp. CNN Transp. CNN メルスペクトログラム 11
ボコーダの違いによる音声品質の比較 リファレンス ニューラルボコーダ 信号処理ベース ボコーダ P Govalkar et al., A Comparison of Recent Neural Vocoders for Speech Signal Reconstruction, Proc. 10th ISCA Speech Synthesis Workshop, 2019. DOI: 10.21437/SSW.2019-2 12
聴感上の自然性とモデル化 ◦ソースフィルタモデルによって、高品質かつ了解可能な音 声を生成することができていたが、「人間と区別できない」 というレベルにはならなかった ◦完全にデータドリブンな方法(ニューラルボコーダ)によっ て、人間に極めて近い音声が生成できるようになった ◦「聞いてわかる声」と「人間の声」の違いは、従来のモデ ル化における 𝜖 に含まれている 13
End-to-end Text-to-Speech ◦ 文字の処理から波形生成ま でを巨大な一つのネット ワークで行う WaveNet CNN x 5 ◦ Tacotron2 [Shen+ 2017] Linear Location Sensitive Attention biLSTM LSTM x 2 CNN x 3 Pre-net Character Embedding Text 14
深層学習による認識の特徴量抽出 …の前に 自然言語処理において単語を多次元ベクトルで表 現する技法(単語埋め込み) ◦自然言語の単語には物理はないので最初から統計だけ 使う ◦似た使われ方をする単語は多次元空間上で似た座標に マッピングされるようにする ◦意味的に近い単語は空間上でも近くなる ◦ “king” – “man” + “woman” ≒ “queen” 15
自己教師あり学習/word2vec ◦自分自身を教師信号として使 う学習法 ◦ ラベル付きデータを必要としない ◦ 高性能な特徴抽出器のための事前学 習として使われる ◦word2vec ◦ 単語ベクトル計算の代表的手法 ◦ 周辺の単語から当該単語を推定する ◦ 当該単語でない単語を予測しにくくする (対照学習) [Mikolov+ 2013] 16
深層学習による特徴量抽出: Wav2vec 2.0 Q Q Transformer Q CNN ◦ 自己教師あり学習を利用 ◦ 波形からCNNで特徴量抽出 ◦ ベクトル量子化によって特徴量 をシンボル化 ◦ 当該時刻のベクトルをマスク ◦ Transformerを使った周辺情報か らの予測 ◦ Word2vecと類似の対照学習 Contrastive loss Q Q [Baevski+ 2020] 同様のアーキテクチャによるモデルにHuBERT [Hsu+ 2021]やContentVec [Qian+ 2022] などがある 17
深層学習による特徴量抽出: Wav2vec 2.0 周波数 (kHz) ◦ Wav2vec 2.0は自己教師あり 学習+実際の音声認識によ る学習のみを行っているが、 初段のネットワークでは周波 数分析のようなことを行って いる Wav2vec 2.0 Gammatone filter P. Vieting, R. Schlüter and H. Ney. “Comparative Analysis of the wav2vec 2.0 Feature Extractor.” arXiv preprint abs/2308.04286 (2023) フィルタ番号 18
End-to-end Speech-to-Text ◦Wav2vec 2.0で特徴抽出したあ と、長さの違う系列を出力する 処理(CTC loss)を入れることで 文字列を直接出力することが できる Wav2vec network 19
音楽の音源分離 ◦アンサンブル演奏の音信号を楽器ごとに分離する ◦ 単一チャネル/複数チャネル ◦信号処理に基づく方法 ◦ 異なる楽器の音が異なるスペクトル構造を持つことを利用してモデル化 ◦ NMF[Ozerov+ 2008], ILRMA[Sawada+ 2019], … ◦深層学習に基づく方法 ◦ MLP+RNN[Huang+ 2014] ◦ Open-Unmix (Bidirectional LSTM)[Stöter+ 2019] ◦ Demucs (CNN/U-Net) [Défossez+ 2019] ◦ Wave-U-Net (CNN/U-Net+BiLSTM) [Stoller+ 2020] ◦ KUIELab-MDX-Net (CNN/U-Net+Mixer) [Kim+ 2021] 20
Demucs [Défossez+ 2019] ◦ 音源分離モデル ◦ 時間領域のモデル化 ◦ 波形を直接入力 ◦ 6つの1D CNNからなるU-Net構造 ◦ ボトルネック層に双方向LSTM Mixture Drums Vocals 21
おわりに ◦音声処理の最近の動向として深層学習が使われている ことについて述べた ◦ 物理モデル化からネットワークエンジニアリングへ ◦ もともと物理がない分野(画像認識など)でDNNが成功→ 物理モデルがある分野でもDNNが勝つ局面へ ◦ 人間は物理モデルが無視してしまった部分にも敏感 ◦問題点 ◦ ネットワークエンジニアリングに物理的センスが役立つのか ◦ うまく動いているネットワークは現象の理解に資するのか 22