第13回岡山大学AI研究会（2024年12月10日・原）

2K Views

December 13, 24

#深層学習 #音声処理 #音響処理 #音声合成 #環境音認識

スライド概要

Sunao Hara

@naoh16452

スライド一覧

ダウンロード

関連スライド

学振特別研究員になるために～2025年度申請版

学振 dc1 dc2 jsps pd

大上雅史 747.6K

研究に使える便利なフリーソフト ImageJ

imagej 放射線技師

片山豊 343.9K

大規模言語モデルに追加学習で専門知識を教える試み (2023, arXiv:2312.03360)

Kan Hatakeyama 286.9K

StampFlyで学ぶマルチコプタ制御

伊藤恒平 277.8K

ZAZA株式会社_会社紹介

ZAZA株式会社 247.2K

東京大学 3Dスキャン勉強会「フォトグラメトリ」

フォトグラメトリ vr 3dデジタルアーカイブ

龍 lilea 244.9K

各ページのテキスト

音声・音響分野における深層学習技術の紹介原直学術研究院環境生命自然科学学域 hara@okayama-u.ac.jp 第13回岡山大学AI研究会，2024.12.11

はじめに ◼ 自己紹介 ◆ 原直（はらすなお） ◼ 主な研究の興味 ◆ 音声・音響応用システムに関する研究 ◆ 環境音の認識と応用に関する研究 ◆ 深層学習に基づく音声合成器の高度化に関する研究 ◆ 機械学習に基づくライフログ処理に関する研究 ◆ 時系列データの信号処理と機械学習に関する研究 2

目次音声・音響分野における深層学習技術の紹介 ◼ 音声に対する機械学習の基本アイデア ◼ 音声合成技術の変遷 ◼ 音声特徴量・音響特徴量の変遷今日の目標音声・音響分野での深層学習モデルの “お気持ち”を理解すること！！ 3

音声に対する機械学習の基本アイデア 7

8 系列から系列への変換問題（言語的な）文字列 Time (char.) Sequence of one-hot encoded phoneme ASR TTS Sequence of acoustic feature(s) Time (frame) 音声情報処理特論（音響的な）信号列

9 ◼ 系列-系列のマッチング問題はちょっと難しい候補1 𝑆 (1) あ候補2 𝑆 (2) あ候補3 𝑆 (3) あいしぎ 𝑥1 𝑥2 𝑥3 𝑥4 かたじゃ ⋯ わらわはびずれよー

RNNs and CNNs ◼ 音声信号は時系列信号 ⇒ 時間変化を捉えうる構造がほぼ“必須” ◼ RNN: Recurrent Neural Network ◆ 隠れ層に再帰(と時間遅れ)構造を持たせたNN ◆ 隠れマルコフモデルのNN的解釈 ◼ CNN: Convolutional Neural Network ◆ 各層を全結合ではなく，局所結合としたNN • 画像入力では 2-D CNN が良く使われている ◆ フレーム窓処理のNN的解釈音声情報処理特論 11

12 Elman-net RNNs ◼ １つ前の時刻のサンプルに潜在変数が依存 ◆Left-to-right HMMと等価 ◼ 長時間離れた過去の情報の伝播は苦手 Unfolding 音声情報処理特論 → LSTM, GRUの開発

Prediction network with RNNs ◼ ひとつ前の時刻の予測結果を，次の時刻の入力として利用する ◼ Prediction ➔ Sequence generation <GO> または <BoS> [Graves+13] A. Graves, “Generating sequences with Recurrent Neural Networks,” arXiv1308.0850. 音声情報処理特論 13

10.

Seq2seq modeling: Encoder-decoder RNNs Encoder 入力特徴量が持つ情報を潜在変数としてエンコード参考：潜在変数，隠れ変数 Latent/Hidden variable 音声情報処理特論 14 Decoder エンコードされた潜在変数を補助情報とし，再帰的に推論

11.

Attention-based encoder-decoder RNNs • Attention の導入 – Encoderの情報を蓄積し，Decoderで適宜利用する – 長期の情報を扱いながらデコードする処理が可能となった • 音声認識の観点で見れば，以下の役割がより明確になった – Encoder = 音響モデル – Decoder = 言語モデル音声情報処理特論 15

12.

テキスト音声合成モデルの変遷 17

13.

Tacotron [Wang+17] [Wang+17] Y. Wang et al., “Tacotron: Towards End-to-End Speech Synthesis,” Interspeech 2017. (arXiv 1703.10135) 音声情報処理特論 20

14.

22 Tacotron2 [Shen+18] [Shen+18] J. Shen et al., “Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions,” ICASSP 2018. (arXiv 1712.05884) Tacotron2 ベースのモデルは，たいてい以下の処理流れ音声波形 ↑ Mel-to-Wave (Neural Vocoder) ↑ Text-to-Mel ↑ 音声情報処理特論テキスト

15.

26 Deep Generative Model ◼ 潜在空間 (Latent space) への写像 (encode) と逆写像 (decode) ◆ GAN (Generative Adversarial Network) ◆ VAE (Variational AutoEncoder) [Kingma+13] ◆ Glow (Generative Flow) [Kingma+18] 図はブログ記事より引用． Lilian Weng, “Flow-based Deep Generative Models,” 2018. https://lilianweng.github.io/posts/20 18-10-13-flow-models/

https://lilianweng.github.io/posts/2018-10-13-flow-models/

16.

27 ◼ Flow TTS [Miao+20] ◆ Flow-based generative TTS model ◆ Flow 構造を持つ Glow によるTTS C. Miao, et al., “Flow-TTS: A Non-Autoregressive Network for Text to Speech Based on Flow,” ICASSP2020.

17.

28 ◼ Glow TTS [Kim+20] ◆ Decoder は Flow 構造 ◆ 学習時はLoss計算のためにテキスト埋め込みとのDP (DP=動的計画法 / cf. HMMのViterbi計算) Training J. Kim et al, “Glow-TTS: A Generative Flow for Text-to-Speech via Monotonic Alignment Search”, arXiv, Oct. 2020. Inference

18.

29 *ESPnet2 でも利用可 ◼ VITS [Kim+21] ◆ Variational Inference with adversarial learning for endto-end Text-to-Speech ◆ Decoder 部は Adversarial Loss による学習参考 VCも実現可能 Training Inference J. Kim, et al., “Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech,” arXiv 2106.06103, 2021.

19.

特徴量抽出: HMM時代からDNN/AI時代へ FEATURE EXTRACTION: FROM HMM TO DNN/AI ERA 音声情報処理特論 31

20.

Non-DNN audio feature extraction Speech ◼ MFCC (or, PLP) Mel-frequency cepstral coefficient ◆ Traditional feature for Automatic Speech Recognition ◆ It might be a sufficient choice for most cases ◼ Mel-filter bank (aka Mel-spectrogram) ◼ openSMILE [Eyben+ 2013, Eyben+ 2010] ◆ Speech & Music Interpretation Music by Large feature-space Extraction ◼ MPEG-7 Audio LLD [Kim+ 2005] ◆ International standard for media content description ◆ LLD extractor is covered by Essentia [Bogdanov+ 2013] • LLD: Low-level descriptor 音声情報処理特論 32

21.

Audio features by ◼ Audio Features by https://pytorch.org/audio/stable/transforms.html 音声情報処理特論 33

https://pytorch.org/audio/stable/transforms.html

22.

Speech Representation Learning Models with Self-Supervised Learning (SSL) 34 ◼ Feature extraction is a kind of “Representation Learning (表現学習)” task • E.g. word2vec, BERT on Natural Language Processing • E.g. VGG, ResNet, etc. on Image Processing ◼ Self-supervised learning (SSL) ◆Training method for non labeled data • Wav2vec 2.0 [Baevski+20] … Meta • HuBERT [Hsu+21] • WavLM [Chen+22] … Microsoft 音声情報処理特論

23.

35 ◼ 音声SSLモデルの利用例：主観評価の予測 ◆ UT-MOS [Saeki+22] T. Saeki et al., “UTMOS: UTokyo-SaruLab System for VoiceMOS Challenge 2022,” Interspeech 2022.

24.

環境音認識タスク ASC: 音場面の分類 (Acoustic Scene Classification) SED: 音響イベント検出 (Sound Event Detection) * 画像はDCASE Challenge2013ホームページより引用

25.

General-purpose Audio Representation 汎用音響信号表現 ◼ 環境音認識の分野で発展中のトピック ◆ “幅広い問題解決に役立つ音響信号の汎用表現” [仁泉22,仁泉24] ◼ モデルの例 ◆ Baseline: CNN-LSTM構造に基づくモデル ◆ VGGish [Hershey+17] ◆ PANNs (Pretrained Audio Neural Networks) [Kong+19] ◆ AST (Audio Spectrogram Transformer) [Gong+21] ◆ CLAP (Contrastive Language-Audio Pretraining) • By Microsoft [Elizalde+ICASSP23] • By LAION AI [Wu+ICASSP23] 37

26.

38 ◼ PANNs [Kong+19] ◆ Wavegram • 1D-CNNに基づく時間波形からの特徴量抽出 ◆ Log-mel spectrogram • フーリエ変換に基づく時間周波数表現

27.

39 ◼ AST [Gong+21] ◆ 画像分野における Vision-Transformer を踏襲

28.

40 ◼ CLAP (by Microsoft) [Elizalde+ICASSP23] ◆ Contrastive learning: 同じ情報源は近く，違う情報源は遠く写像されるように各Encoderを学習する方式 ◆ 128,010 のオーディオ・テキストペアから学習本文より引用 > The models are implemented with PyTorch’s Distributed Data-Parallel > and use 16GB V100 GPUs with scaling from 8 to 24 GPUs.

29.

Data augmentation (or resampling) 42 ◼ Imbalanced dataset は古くからの問題 ◆ Over-/Under- sampling for imbalanced dataset ◆ SMOTE (Synthetic Minority Over-sampling Technique) [Chawla+02] ◼ Augmentation ◆ 例：雑音下音声認識において，雑音を足した音を学習データに混ぜることで性能向上を図る ◆ Mixup [Zhang+18] • 2つのデータを混ぜる（入力音もラベルも） ◆ SpecAugment [Park+19] • スペクトログラムの伸縮，マスキング，etc. これらは，PANNsでも利用されており，その効果が確認されている

30.

43 参考文献 [Saeki+22] T. Saeki et al., “UTMOS: UTokyo-SaruLab System for VoiceMOS Challenge 2022,” Interspeech 2022. [仁泉+22] 仁泉, “音を扱いやすくする汎用音響信号表現について,” 音響学会（秋）招待講演，2022. [仁泉+24] 仁泉, “一般の音を学習する音響信号表現の最前線,” 音響学会誌, Dec. 2024. [Elizalde+ICASSP23] B. Elizalde et al., “CLAP learning audio concepts from natural language supervision”, ICASSP 2023. [Wu+ICASSP23] Y. Wu et al., “Large-scale Contrastive LanguageAudio Pretraining with Feature Fusion and Keyword-to-Caption Augmentation,” ICASSP 2023. [Chawla+02] N. V. Chawla, et al., “SMOTE: synthetic minority over-sampling technique,” Journal of Artificial Intelligence research, 2002. [Hershey+17] S. Hershey, et al., “CNN Architectures for Large- [Zhang+18] Scale Audio Classification,” ICASSP 2017. H. Zhang, et al., “mixup: Beyond empirical risk (arXiv:1609.09430) minimization,” ICLR 2018. [Kong+19] Kong et al, “PANNs: Large-Scale Pretrained Audio Neural Networks for Audio Pattern Recognition,” arXiv:1912.10211, 2019. [Gong+21] Y. Gong et al, “AST: Audio Spectrogram Transformer,” Interspeech 2021. [Park+19] D.S. Park, et al., “SpecAugment: A simple data augmentation method for automatic speech recognition,” Interspeech 2019.

31.

まとめ ◼ 音声・音響分野における深層学習技術の紹介 ◼ 音声に対する機械学習の基本アイデア ◼ 音声合成技術の変遷 ◼ 音声特徴量・音響特徴量の変遷 44