4.9K Views
May 01, 24
スライド概要
Style-Bert-VITS2の スケーリング則に対する検証実験 2024/05/01 ようさん
目次 1. 2. 3. 4. 自己紹介 チームのゴール 背景と事前調査・検証 学習内容と結果 2
自己紹介 名前 : ようさん ● Unityエンジニア ○ ゲーム ○ (VR/MR) ● 趣味でTTSやLLM周り X(Twitter) @ayousanz 3
4
チームのゴール ● TTS(Bert-VITS2)のモデルにスケーリング則が適当でき るのか、 モデルサイズを大きくした際にどのくらい精度に影響 があるのかの検証
背景 ● 現状のSBV2はイントネーションの再現が完璧とは言え ない ● ユースケースとしてスピードよりも精度を重視したい場 合がある
事前調査・検証 「Textbooks Are All You Need」 品質が高いデータセットの場合、 品質が低いものよりもデータ量が数倍少なくても いいモデルができるという内容の論文
事前調査・検証 「Scaling Laws for Neural Language Models」 モデルのサイズ、データセット量、計算量を上げると精度 が良くなるという内容
事前調査・検証 Llama-VITS: Enhancing TTS Synthesis with Semantic Awareness 先端のエンドツーエンドTTSフレームワークであるVITSモデルにLlama2からの 意味的埋め込みを統合しています。
事前調査・検証 Scaling law is the key to LLMs. How about scaling law for multimodality (e.g., audio, visual)? https://x.com/xutan_tx/status/1783154647903113453 We plot some speech synthesis/recognition models and speech scaling law. Seems most synthesis models are OVER-parameterized compared to the compute-optimal model/data allocation.
事前調査・検証 前回のハッカソンで二つのチームがTTSモデルの事前学習の作成 yodasやreazon-speechなどのコーパスを使用して学習していた。 ただ合成した音声はコーパス側に影響を受けていた
事前調査・検証 高品質なコーパス × 少量の場合 事前学習時の 音声コーパスは、 合計8時間程度
事前調査・検証 高品質なコーパス × 少量の場合 事前学習モデルに イリシアちゃんコーパスでfine tuingしたもの
事前調査・検証 fish-speech v1が15万時間の学習モデルを公開 (モデルはβみたいです)
学習内容と結果 1. デフォルトサイズで学習(0.03 ~ 0.1B相当) 2. モデルを大きくしたもので学習(0.3b相当)
学習内容と結果 "inter_channels": 192, "inter_channels": 256, "hidden_channels": 192, "hidden_channels": 256, "filter_channels": 768, "filter_channels": 2048, "n_heads": 2, "n_heads": 16, "n_layers": 6, "n_layers": 24, パラメータ参考: rinna/japanese-gpt2-medium
学習内容と結果 学習率: 2e-4 バッチサイズ : 1
学習内容と結果 デフォルトサイズ(0.03 ~ 0.1b) 0.3b相当サイズ
学習内容と結果 デフォルトサイズ 0.3b相当サイズ
まとめ ● VRAMが24GBの場合、0.3b相当が限界(かも) ● speechMOSの傾向はまだ上がりそう ● 学習時間が足りず検証は終えていない → 最低でも200時間程度の追加学習は必要そう