モーフィングを用いたドラムループ素材の生成

2.1K Views

October 11, 24

#モーフィング #ドラムループ #VAE #CNN #音楽生成

スライド概要

2023年度卒業研究発表

Kitahara Lab

@kthrlab

スライド一覧

日本大学文理学部情報科学科北原研究室。「Technology Makes Music More Fun」を合言葉に、音楽をはじめとするエンターテインメントの高度化に資する技術の研究開発を行っています。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

音楽を題材に情報科学を研究する

Kitahara Lab 13.8K

卒論発表

Kitahara Lab 4.4K

自由度が徐々に上がる作曲ソフトウェア

Kitahara Lab 3.1K

ハモリパート練習支援システムのための音響信号を対象とした副旋律生成の検討

Kitahara Lab 3K

NMFを用いたギター音源からベース音源の生成

Kitahara Lab 3K

Attentionメカニズムを取り入れた音楽生成モデルの性能評価に関する研究

transformer

Kitahara Lab 2.9K

各ページのテキスト

モーフィングを用いたドラムループ素材の生成川原瑞樹日本大学

背景ループシーケンサ：数小節程度の音素材をつなげて作曲ソフトウェアドラムループのようなリズミカルな素材はポピュラー楽器であり、曲の特徴を形作る音色、効果音の多様性が楽曲のバリエーションに影響を与える

背景課題音素材に限りがある自分の求める音素材が常に見つかるとは限らない多様な音素材を生成を可能にしよう！

目的モーフィング音源を生成することで、限られた音素材から多様な音素材を作る２つの音源の中間的な音源

関連研究との違い・ Li-Chia Yang, Szu-Yu Chou, Yi-Hsuan Yang, MidiNet: A Convolutional Generative Adversarial Network for Symbolic-domain Music Generation（2017） → 畳み込みニューラルネットワーク（CNN）を使用した音楽生成・小林瑞季, 浜中雅俊, 新しいGTTMメロディモーフィング手法の提示 (2019) → GTTMに基づくメロディモーフィング手法の自動化・河原英紀, 生駒太一, 森勢将雅, 高橋徹, 豊田健一, 片寄晴弘, 歌唱音声モーフィングに基づく声質と歌い回し転写の知覚的検討, (2017) → 高品質音声分析変換合成システムSTRAIGHTに基づくモーフィングによって、歌手の歌いまわしを転写するドラム音をモーフィングによって多様な音素材を生成することに特化するものは見つからなかった

提案手法 VAE（変分オートエンコーダ）と CNN（畳み込みニューラルネットワーク）を組み合わせたモデルでモーフィングを実現する

提案手法 VAE データの特徴を抽出し、新しいデータを生成するための深層学習モデル CNN VAEの圧縮・復元の際にフィルタを通すことで画像の特徴を学習

提案手法モーフィングの実現 CNN（圧縮） CNN（復元）音源A モーフィング音源音源B スペクトログラム

モーフィング音源 CNN-VAEによって得られたモーフィング音源音源A 音源B モーフィング音源

10.

データセット SoundPool というWAVE形式の3 秒間の音楽ループ素材データ数 224個ジャンルテクノ＆トランス楽器パートドラム

11.

実験 1．曲作りに使えるかどうか 2．機械学習モデルによって生成されたと思われるのはどちらか 3．元音源との類似度評価 4．新しい音源が生成されたか１～３についてWeb 上のクラウドソーシングサービスを用いて評価した

12.

実験 1．曲作りに使えるかどうか 2．機械学習によって生成されたと思われるのはどちらか機械学習による音源、市販音源をランダムを対に提示音源 A 音源 B 聴いて以下の項目を選択する１．曲作りに使える A or B ２．機械学習モデルによって生成された A or B 実験参加者：145名×10回評価

13.

実験 1．曲作りに使えるかどうか理想の結果機械学習による音源を選んだ割合の平均： 0.5 曲作りの使える品質、市販の音源同等の品質である

14.

結果と考察１．曲作りに使えるかどうか平均 0.419 標準偏差 0.223

15.

実験 2．機械学習モデルによって生成されたと思われるのはどちらか理想の結果機械学習による音源を選んだ割合の平均： 0.5 曲作りの使える品質、市販の音源同等の品質である機械学習による音源を選んだ割合の平均： 0.5以下機械学習による音源が市販の音源よりも市販の音源らしい

16.

結果と考察 2．機械学習モデルによって生成されたと思われるのはどちらか平均標準偏差 0.374 0.180

17.

実験 3．元音源との類似度評価機械学習によるモーフィング音源、モーフィング前の元音源A、Bを提示音源 X 音源 A 音源 A、音源 B 、どちらに近いかを選択する音源 B

18.

実験 3．元音源との類似度評価選択肢 Aに近いどちらかといえばAに近いどちらかといえばBに近い Bに近い実験参加者：201名×10回評価全ての評価数値の平均を出す評価数値 1 2 3 4

19.

実験 3．元音源との類似度評価理想の結果 2以上3未満の割合が大きい平均評価数値割合 1 以上2 未満 0% 2以上3 未満 100 % 3 以上4 未満 0% 機械学習によるモーフィング音源は元音源 A、B の中間的な音源といえる

20.

結果と考察 3．元音源との類似度評価平均評価数値割合 1 以上2 未満 28% 2以上3 未満 48% 3 以上4 未満 24%

21.

実験 4．新しい音源が生成されたか機械学習で生成されたモーフィング音源 X （100個）とデータセットの音源との類似度を調べる音源Xのそれぞれに対して、最も似ているものの類似度を計算する音源 A 音源 B 音源 X データセット

22.

実験 4．新しい音源が生成されたかデータセットからランダムに選ばれた音源とデータセットの音源との類似度を調べるランダムに選ばれた100個の音源のそれぞれに対して、最も似ているものの類似度を計算するそれらの平均値を求めるデータセットからランダムに選ばれた音源データセット

23.

実験 4．新しい音源が生成されたか理想の結果「生成音源とデータセット内の類似度」が低いほど、生成された音源はデータセット内のどの音源とも類似していない

24.

結果と考察 4．新しい音源が生成されたか平均最大類似度データセット内 0.870 生成音源とデータセット内 0.935

25.

まとめ・市販の音素材に対して曲作り、品質に対して劣らない・モーフィングの元となる2 つの音源のどちらかに類似するケースは少ないこと・データセットに存在しない新しい音源が生成されている可能性は少ない

26.

今後の課題より多様なジャンルや楽器、スタイルに対応できるように、モデルの改良や新しい学習手法を検討する必要