NMFを用いたギター音源からベース音源の生成

NMFを用いたギター音源からベース音源の生成北原研究室修士二年香西智雄

研究背景  ギターリストの中にはギターで作曲を楽しむ人が居る。  だが、編曲するとなると、音楽知識を要する。  知識いらずで自動バンド編曲してくれるシステムがあればより音楽を楽しむ幅を広げられる。  その初歩として、入力のギター音源に対応するベース音源を生成するシステムを作る。予測入力出力

3.

関連研究関連研究具体例課題点以前までの音楽生成研究 Suno AI(2023)、Juke Box(2020)、Muse Net(2019) 入力が文字ベース Audio-to-Audioでの音楽生成研究 Diff.A.Riff(2024)、 StemGen(2024) ギターを主軸にしている編 Midi-to-Tab(2024)、曲研究 TapToTab(2024)、 Song2Guitar(2017) データセットがMIDIもしくは高品質な音源に依存している高品質なタブ譜の生成やソロギター譜の生成の研究がほとんどこれらの課題点を解決するため本研究では、オーディオ音源の実楽曲をデータセットとして扱い、 Audio-to-Audioでギター音源からベース音源の生成を目指す。

4.

入力想定するギター音源と期待する出力ベース音源の品質  ギター、ベース共に大きく分けて、3レベルに定義する。ギターベースレベル1 スローテンポコード進行がシンプル繰り返しが多いスローテンポコード進行がシンプルルート弾きが多いレベル2 ハイテンポ動きの少ないリフがあるアルペジオがあるハイテンポ多様なフレーズレベル3 変拍子短いスパンで転調を繰り返すスラップ等の技術が入っている  本研究では、ギター、ベース共にレベル2までを目標として取り組む。

5.

非負値因子行列分解（NMF）  オーディオ音源から特徴量を抽出する手法はスペクトログラムなどが考えられる。  スペクトログラムは演奏内容と音色の情報が混在し、NNでの学習は難しい。  この問題を解決するため、NMFを採用する。  NMFとは、非負値行列を二つの非負値行列に近似分解する手法。  𝑿 ≈ 𝑾 ∙ 𝑯 𝑿 :非負値行列  NMFをスペクトログラムに適用し、情報を分割する。 𝑯 :アクティベーション行列 𝑾 :基底行列周波数軸時間軸 ∙ NMF 基底基底（音色）音色の情報を持つ演奏内容の情報を持つ

6.

VAE エンコーダ部学習データクロマグラムデコーダ部全結合畳み込み Z 発音強度畳み込み調正解データ Reshape 結合逆畳み込みベースの全音域を含む基底行列半教師有 NMF アクティベーション行列

7.

VAE エンコーダ部学習データクロマグラムデコーダ部全結合畳み込み Z 発音強度畳み込み調正解データ Reshape 結合逆畳み込みベースの全音域を含む基底行列半教師有 NMF アクティベーション行列

8.

VAE エンコーダ部学習データクロマグラムデコーダ部全結合畳み込み Z 発音強度畳み込み調正解データ Reshape 結合逆畳み込みベースの全音域を含む基底行列半教師有 NMF アクティベーション行列

9.

VAE エンコーダ部学習データクロマグラムデコーダ部全結合畳み込み Z 発音強度畳み込み調正解データ Reshape 結合逆畳み込みベースの全音域を含む基底行列半教師有 NMF アクティベーション行列

10.

VAE エンコーダ部学習データクロマグラムデコーダ部全結合畳み込み Z 発音強度畳み込み調正解データ Reshape 結合逆畳み込みベースの全音域を含む基底行列半教師有 NMF アクティベーション行列

11.

ベースの全音域を含む基底行列  共通の音色に基づくアクティベーション行列を作成するためにベースの全音域をカバーした基底行列を作成する。  問題点  一つの基底が複数の音色の情報を持ち、その基底が活性化するたびに複数の音が鳴る。  この問題を解決するため、ベースの各音高の基音周波数から作成された倍音テンプレートを使い、NMFに調和制約を課す。周波数軸倍音テンプレート周波数軸ベース音源のスペクトログラム NMF 基底行列の初期値に使用 F2を構成する周波数 D2を構成する周波数基底基底行列 C2を構成する周波数 B0~G4までカバー（ベースの全音域） C2 D2 基底 F2 それぞれの基底が一つの音に対応

12.

ベースの全音域を含む基底行列  共通の音色に基づくアクティベーション行列を作成するためにベースの全音域をカバーした基底行列を作成する。  問題点  一つの基底が複数の音色の情報を持ち、その基底が活性化するたびに複数の音が鳴る。  この問題を解決するため、ベースの各音高の基音周波数から作成された倍音テンプレートを使い、NMFに調和制約を課す。周波数軸倍音テンプレート周波数軸ベース音源のスペクトログラム NMF 基底行列の初期値に使用 F2を構成する周波数 D2を構成する周波数基底基底行列 C2を構成する周波数 B0~G4までカバー（ベースの全音域） C2 D2 基底 F2 それぞれの基底が一つの音に対応

13.

ベースの全音域を含む基底行列  共通の音色に基づくアクティベーション行列を作成するためにベースの全音域をカバーした基底行列を作成する。  問題点  一つの基底が複数の音色の情報を持ち、その基底が活性化するたびに複数の音が鳴る。  この問題を解決するため、ベースの各音高の基音周波数から作成された倍音テンプレートを使い、NMFに調和制約を課す。周波数軸倍音テンプレート周波数軸ベース音源のスペクトログラム NMF 基底行列の初期値に使用 F2を構成する周波数 D2を構成する周波数基底基底行列 C2を構成する周波数 B0~G4までカバー（ベースの全音域） C2 D2 基底 F2 それぞれの基底が一つの音に対応

14.

ベースの全音域を含む基底行列  共通の音色に基づくアクティベーション行列を作成するためにベースの全音域をカバーした基底行列を作成する。  問題点  一つの基底が複数の音色の情報を持ち、その基底が活性化するたびに複数の音が鳴る。  この問題を解決するため、ベースの各音高の基音周波数から作成された倍音テンプレートを使い、NMFに調和制約を課す。周波数軸倍音テンプレート周波数軸ベース音源のスペクトログラム NMF 基底行列の初期値に使用 F2を構成する周波数 D2を構成する周波数基底基底行列 C2を構成する周波数 B0~G4までカバー（ベースの全音域） C2 D2 基底 F2 それぞれの基底が一つの音に対応

15.