第13回岡山大学AI研究会(2024年12月10日・原)

1.4K Views

December 13, 24

スライド概要

関連スライド

各ページのテキスト
1.

音声・音響分野における 深層学習技術の紹介 原直 学術研究院環境生命自然科学学域 hara@okayama-u.ac.jp 第13回岡山大学AI研究会,2024.12.11

2.

はじめに ◼ 自己紹介 ◆ 原直(はらすなお) ◼ 主な研究の興味 ◆ 音声・音響応用システムに関する研究 ◆ 環境音の認識と応用に関する研究 ◆ 深層学習に基づく音声合成器の高度化に関する研究 ◆ 機械学習に基づくライフログ処理に関する研究 ◆ 時系列データの信号処理と機械学習に関する研究 2

3.

目次 音声・音響分野における深層学習技術の紹介 ◼ 音声に対する機械学習の基本アイデア ◼ 音声合成技術の変遷 ◼ 音声特徴量・音響特徴量の変遷 今日の目標 音声・音響分野での深層学習モデルの “お気持ち”を理解すること!! 3

4.

音声に対する機械学習の基本アイデア 7

5.

8 系列から系列への変換問題 (言語的な)文字列 Time (char.) Sequence of one-hot encoded phoneme ASR TTS Sequence of acoustic feature(s) Time (frame) 音声情報処理特論 (音響的な)信号列

6.

9 ◼ 系列-系列のマッチング問題はちょっと難しい 候補1 𝑆 (1) あ 候補2 𝑆 (2) あ 候補3 𝑆 (3) あ い し ぎ 𝑥1 𝑥2 𝑥3 𝑥4 か た じゃ ⋯ わ ら わ は び ず れ よー

7.

RNNs and CNNs ◼ 音声信号は時系列信号 ⇒ 時間変化を捉えうる構造がほぼ“必須” ◼ RNN: Recurrent Neural Network ◆ 隠れ層に再帰(と時間遅れ)構造を持たせたNN ◆ 隠れマルコフモデルのNN的解釈 ◼ CNN: Convolutional Neural Network ◆ 各層を全結合ではなく,局所結合としたNN • 画像入力では 2-D CNN が良く使われている ◆ フレーム窓処理のNN的解釈 音声情報処理特論 11

8.

12 Elman-net RNNs ◼ 1つ前の時刻のサンプルに潜在変数が依存 ◆Left-to-right HMMと等価 ◼ 長時間離れた過去の情報の伝播は苦手 Unfolding 音声情報処理特論 → LSTM, GRUの開発

9.

Prediction network with RNNs ◼ ひとつ前の時刻の予測結果を,次の時刻の入 力として利用する ◼ Prediction ➔ Sequence generation <GO> または <BoS> [Graves+13] A. Graves, “Generating sequences with Recurrent Neural Networks,” arXiv1308.0850. 音声情報処理特論 13

10.

Seq2seq modeling: Encoder-decoder RNNs Encoder 入力特徴量が持つ情報を 潜在変数としてエンコード 参考:潜在変数,隠れ変数 Latent/Hidden variable 音声情報処理特論 14 Decoder エンコードされた潜在変数を 補助情報とし,再帰的に推論

11.

Attention-based encoder-decoder RNNs • Attention の導入 – Encoderの情報を蓄積し,Decoderで適宜利用する – 長期の情報を扱いながらデコードする処理が可能となった • 音声認識の観点で見れば,以下の役割がより明確になった – Encoder = 音響モデル – Decoder = 言語モデル 音声情報処理特論 15

12.

テキスト音声合成モデルの変遷 17

13.

Tacotron [Wang+17] [Wang+17] Y. Wang et al., “Tacotron: Towards End-to-End Speech Synthesis,” Interspeech 2017. (arXiv 1703.10135) 音声情報処理特論 20

14.

22 Tacotron2 [Shen+18] [Shen+18] J. Shen et al., “Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions,” ICASSP 2018. (arXiv 1712.05884) Tacotron2 ベースの モデルは,たいてい 以下の処理流れ 音声波形 ↑ Mel-to-Wave (Neural Vocoder) ↑ Text-to-Mel ↑ 音声情報処理特論 テキスト

15.

26 Deep Generative Model ◼ 潜在空間 (Latent space) への写像 (encode) と逆写像 (decode) ◆ GAN (Generative Adversarial Network) ◆ VAE (Variational AutoEncoder) [Kingma+13] ◆ Glow (Generative Flow) [Kingma+18] 図はブログ記事より引用. Lilian Weng, “Flow-based Deep Generative Models,” 2018. https://lilianweng.github.io/posts/20 18-10-13-flow-models/

16.

27 ◼ Flow TTS [Miao+20] ◆ Flow-based generative TTS model ◆ Flow 構造を持つ Glow によるTTS C. Miao, et al., “Flow-TTS: A Non-Autoregressive Network for Text to Speech Based on Flow,” ICASSP2020.

17.

28 ◼ Glow TTS [Kim+20] ◆ Decoder は Flow 構造 ◆ 学習時はLoss計算のためにテキスト埋め込みとのDP (DP=動的計画法 / cf. HMMのViterbi計算) Training J. Kim et al, “Glow-TTS: A Generative Flow for Text-to-Speech via Monotonic Alignment Search”, arXiv, Oct. 2020. Inference

18.

29 *ESPnet2 でも利用可 ◼ VITS [Kim+21] ◆ Variational Inference with adversarial learning for endto-end Text-to-Speech ◆ Decoder 部は Adversarial Loss による学習 参考 VCも実現可能 Training Inference J. Kim, et al., “Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech,” arXiv 2106.06103, 2021.

19.

特徴量抽出: HMM時代からDNN/AI時代へ FEATURE EXTRACTION: FROM HMM TO DNN/AI ERA 音声情報処理特論 31

20.

Non-DNN audio feature extraction Speech ◼ MFCC (or, PLP) Mel-frequency cepstral coefficient ◆ Traditional feature for Automatic Speech Recognition ◆ It might be a sufficient choice for most cases ◼ Mel-filter bank (aka Mel-spectrogram) ◼ openSMILE [Eyben+ 2013, Eyben+ 2010] ◆ Speech & Music Interpretation Music by Large feature-space Extraction ◼ MPEG-7 Audio LLD [Kim+ 2005] ◆ International standard for media content description ◆ LLD extractor is covered by Essentia [Bogdanov+ 2013] • LLD: Low-level descriptor 音声情報処理特論 32

21.

Audio features by ◼ Audio Features by https://pytorch.org/audio/stable/transforms.html 音声情報処理特論 33

22.

Speech Representation Learning Models with Self-Supervised Learning (SSL) 34 ◼ Feature extraction is a kind of “Representation Learning (表現学習)” task • E.g. word2vec, BERT on Natural Language Processing • E.g. VGG, ResNet, etc. on Image Processing ◼ Self-supervised learning (SSL) ◆Training method for non labeled data • Wav2vec 2.0 [Baevski+20] … Meta • HuBERT [Hsu+21] • WavLM [Chen+22] … Microsoft 音声情報処理特論

23.

35 ◼ 音声SSLモデルの利用例:主観評価の予測 ◆ UT-MOS [Saeki+22] T. Saeki et al., “UTMOS: UTokyo-SaruLab System for VoiceMOS Challenge 2022,” Interspeech 2022.

24.

環境音認識タスク ASC: 音場面の分類 (Acoustic Scene Classification) SED: 音響イベント検出 (Sound Event Detection) * 画像はDCASE Challenge2013ホームページより引用

25.

General-purpose Audio Representation 汎用音響信号表現 ◼ 環境音認識の分野で発展中のトピック ◆ “幅広い問題解決に役立つ音響信号の汎用表現” [仁泉22,仁泉24] ◼ モデルの例 ◆ Baseline: CNN-LSTM構造に基づくモデル ◆ VGGish [Hershey+17] ◆ PANNs (Pretrained Audio Neural Networks) [Kong+19] ◆ AST (Audio Spectrogram Transformer) [Gong+21] ◆ CLAP (Contrastive Language-Audio Pretraining) • By Microsoft [Elizalde+ICASSP23] • By LAION AI [Wu+ICASSP23] 37

26.

38 ◼ PANNs [Kong+19] ◆ Wavegram • 1D-CNNに基づく時間波形 からの特徴量抽出 ◆ Log-mel spectrogram • フーリエ変換に基づく時間周波数表現

27.

39 ◼ AST [Gong+21] ◆ 画像分野における Vision-Transformer を踏襲

28.

40 ◼ CLAP (by Microsoft) [Elizalde+ICASSP23] ◆ Contrastive learning: 同じ情報源は近く,違う情報源は 遠く写像されるように各Encoderを学習する方式 ◆ 128,010 のオーディオ・テキストペアから学習 本文より引用 > The models are implemented with PyTorch’s Distributed Data-Parallel > and use 16GB V100 GPUs with scaling from 8 to 24 GPUs.

29.

Data augmentation (or resampling) 42 ◼ Imbalanced dataset は古くからの問題 ◆ Over-/Under- sampling for imbalanced dataset ◆ SMOTE (Synthetic Minority Over-sampling Technique) [Chawla+02] ◼ Augmentation ◆ 例:雑音下音声認識において,雑音を足した音を学習 データに混ぜることで性能向上を図る ◆ Mixup [Zhang+18] • 2つのデータを混ぜる(入力音もラベルも) ◆ SpecAugment [Park+19] • スペクトログラムの伸縮,マスキング,etc. これらは,PANNsでも 利用されており,その 効果が確認されている

30.

43 参考文献 [Saeki+22] T. Saeki et al., “UTMOS: UTokyo-SaruLab System for VoiceMOS Challenge 2022,” Interspeech 2022. [仁泉+22] 仁泉, “音を扱いやすくする汎用音響信号表現につい て,” 音響学会(秋)招待講演,2022. [仁泉+24] 仁泉, “一般の音を学習する音響信号表現の最前線,” 音響学会誌, Dec. 2024. [Elizalde+ICASSP23] B. Elizalde et al., “CLAP learning audio concepts from natural language supervision”, ICASSP 2023. [Wu+ICASSP23] Y. Wu et al., “Large-scale Contrastive LanguageAudio Pretraining with Feature Fusion and Keyword-to-Caption Augmentation,” ICASSP 2023. [Chawla+02] N. V. Chawla, et al., “SMOTE: synthetic minority over-sampling technique,” Journal of Artificial Intelligence research, 2002. [Hershey+17] S. Hershey, et al., “CNN Architectures for Large- [Zhang+18] Scale Audio Classification,” ICASSP 2017. H. Zhang, et al., “mixup: Beyond empirical risk (arXiv:1609.09430) minimization,” ICLR 2018. [Kong+19] Kong et al, “PANNs: Large-Scale Pretrained Audio Neural Networks for Audio Pattern Recognition,” arXiv:1912.10211, 2019. [Gong+21] Y. Gong et al, “AST: Audio Spectrogram Transformer,” Interspeech 2021. [Park+19] D.S. Park, et al., “SpecAugment: A simple data augmentation method for automatic speech recognition,” Interspeech 2019.

31.

まとめ ◼ 音声・音響分野における深層学習技術の紹介 ◼ 音声に対する機械学習の基本アイデア ◼ 音声合成技術の変遷 ◼ 音声特徴量・音響特徴量の変遷 44