ギター音源からベース音源の生成：NMFを用いた改善の検討

198 Views

November 25, 24

#音楽情報処理 #音源生成 #非負値因子行列分解 #NMF #VAE

スライド概要

Kitahara Lab

@kthrlab

スライド一覧

日本大学文理学部情報科学科北原研究室。「Technology Makes Music More Fun」を合言葉に、音楽をはじめとするエンターテインメントの高度化に資する技術の研究開発を行っています。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

音楽を題材に情報科学を研究する

Kitahara Lab 12.5K

卒論発表

Kitahara Lab 3.6K

Attentionメカニズムを取り入れた音楽生成モデルの性能評価に関する研究

transformer

Kitahara Lab 2.6K

自由度が徐々に上がる作曲ソフトウェア

Kitahara Lab 2.5K

ハモリパート練習支援システムのための音響信号を対象とした副旋律生成の検討

Kitahara Lab 2.2K

ストリートダンスにおけるアクセントの踊り分けの分析

Kitahara Lab 1.7K

各ページのテキスト

ギター音源からベース音源の生成：NMFを用いた改善の検討日本大学大学院香西智雄、小口純矢、北原鉄朗

研究背景  ギターリストの中にはギターで作曲を楽しむ人が居る。  だが、編曲するとなると、音楽知識を要する。  知識いらずで自動バンド編曲してくれるシステムがあればより音楽を楽しむ幅を広げられる。  その初歩として、入力のギター音源に対応するベース音源を生成するシステムを作る。予測入力出力

入力想定するギター音源と期待する出力ベース音源の品質  ギター、ベース共に大きく分けて、3レベルに定義する。ギターベースレベル1 スローテンポコード進行がシンプル繰り返しが多いスローテンポコード進行がシンプルルート弾きが多いレベル2 ハイテンポ動きの少ないリフがあるアルペジオがあるハイテンポ多様なフレーズレベル3 変拍子短いスパンで転調を繰り返すスラップ等の技術が入っている  本研究では、ギター、ベース共にレベル2までを目標として取り組む。

今までの取り組み  ギターのクロマグラムからベースのスペクトログラムを推測させるCNNを作成して行っていた。  結果として、単調なベースラインの生成しかできなかった。  実際の音源  入力： mix：  ベース音のスペクトログラムを直接CNNで学習させたことが要因の一つだと考えられる。  そこで、スペクトログラムに混在する演奏情報を分解するアルゴリズムである非負値因子行列分解（NMF）を適用し、演奏内容を抽出させて学習させることで、ギターの演奏内容を踏まえたベース音源の生成ができると考えた。

今までの取り組み CNN 学習データフィルター層クロマグラム変換逆フィルター層特徴量圧縮復元特徴量抽出正解データこの部分にNMFを適用フーリエ変換予測結果一致するよう学習する

非負値因子行列分解（NMF）  NMFとは、スペクトログラムを二つの行列に分解する手法。  基底行列：各音の音色を表す  アクティベーション行列：各音の発音時刻・強さを表す  主に音源分離で使われることが多い。基底行列 NMF アクティベーション行列

提案システムギタ｜音源クロマグラム特徴量抽出発音強度予測アクティベーション行列 VAE ベースの全音域を含む基底行列振幅スペクトル行列位相復元ベース音源

ベースの全音域を含む基底行列の作成  本来、NMFは一つの楽曲に適用し、その楽曲に特化した基底行列・アクティベーション行列を作成する。  そのため、それぞれ別の楽曲から取った基底行列・アクティベーション行列を掛け合わせても、音源は復元できない。楽曲1 NMF 基底行列楽曲2 NMF アクティベーション行列  そこで、ベースの全音域を含む基底行列を作成し、その基底行列を用いて、半教師有りNMFでアクティベーション行列を作成する。

ベースの全音域を含む基底行列の作成  ベースの全音域を含む楽曲を作成した。作成ソフト pretty_midiライブラリ音域 B0～C5 使用したベースの音色エレキベースの指弾き・ピック弾き  作成した音源に対して、NMFを適用し、ベースの全音域を含む基底行列を作成する。  音源が複数ある場合は、音源の振幅スペクトルを結合させて、一つの音源として扱う。

10.

VAE VAE デコーダ部全結合層エンコーダ部学習データクロマグラム畳み込み層発音強度畳み込み層 Concate nate 逆畳み込み層正解データベースの全音域を含む基底行列半教師有り NMF 潜在変数リシェイプ層アクティベーション行列

11.

データセット  ヤマハミュージックデータショップで売られているThe Bealtesの演奏楽器用のMIDIデータ26曲からベース、ギター音源をwav音源に変換したものを扱った。学習データ数 14曲検証データ数 12曲 BPM 120 wav変換時に使用したライブラリ FluidSynthライブラリ soundfont FluidR3_GM.sf2

12.

実験  以下の条件でモデルの精度を検証した。 1. 学習データにローパスフィルタを適用した音源と、さらにローパスフィルタ＋低周波数を強調した音源 2. 学習データにハイパスフィルタを適用した音源と、さらにハイパスフィルタ＋高周波数を強調した音源 3. 検証データ  実験条件1・2は、学習データに対してどれだけ変化を加えたら、モデルの予測結果に影響が出るのかを検証する。  実験条件1・2に関しては、学習データ内の三つの音源に対して、フィルタを適用した。

13.

評価指標  以下の評価指標で生成されたベース音源を評価した。 1. 生成されたベース音源のリズムが合っているかどうか（リズム一致率）  音源のピーク検出を行い、検出されたピークがビートグリッド（8分音符間隔）と一致している割合で評価した。 2. 入力のギターコードの構成音を含んだベース音を生成できているか  ギターのクロマグラムからエネルギーが強い上位三つの音高に、ベースのクロマグラムのエネルギーが最も強い音高が含まれているかの全体の割合で評価した。（クロマ一致率）  実験条件1・2に関しては、予測アクティベーション行列と正解アクティベーション行列との一致率で評価した。（アクティベーション一致率）

14.

実験結果：実験条件1 生成音源の30秒～38秒間の発音強度  ローパスフィルタのみ  入力：  mix：リズム一致率 96% アクティベーション一致率 87% 赤点線：ビートグリッド、青線：発音強度元音源のクロマ分布（期待値）生成音源のクロマ分布

15.

実験結果：実験条件2 楽曲の30秒～38秒間の発音強度  ハイパスフィルタのみ  入力：  mix：リズム一致率 95% アクティベーション一致率 82% 赤点線：ビートグリッド、青線：発音強度元音源のクロマ分布（期待値）生成音源のクロマ分布

16.

実験結果：実験条件3  入力：  mix：リズム一致率 74% クロマ一致率 59% 楽曲の30秒～38秒間の発音強度赤点線：ビートグリッド、青線：発音強度元音源のクロマ分布（期待値）生成音源のクロマ分布入力音源(ギター)の8～12秒間のクロマグラム生成音源の8～12秒間のクロマグラム

17.

実験結果：実験条件3  入力：  mix：リズム一致率 63% クロマ一致率 78% 楽曲の30秒～38秒間の発音強度赤点線：ビートグリッド、青線：発音強度元音源のクロマ分布（期待値）生成音源のクロマ分布入力音源(ギター)の8～12秒間のクロマグラム生成音源の8～12秒間のクロマグラム

18.

結論  NMFによる、ギター音源からベース音源を生成する手法の改善を行った。  学習データに対してフィルタをかけた結果は多少の劣化は生じるがベースライン自体の生成は出来ていた。  検証データに対する結果は、完全にギターの演奏内容を踏まえたベースラインが生成できていたとは言えない結果となった。  今後はLSTMの導入、NMFの分解精度の向上などをやっていきたい。