モーフィングを用いたドラムループ素材の生成

>100 Views

October 11, 24

スライド概要

2023年度卒業研究発表

profile-image

日本大学 文理学部 情報科学科 北原研究室。 「Technology Makes Music More Fun」を合言葉に、音楽をはじめとするエンターテインメントの高度化に資する技術の研究開発を行っています。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

モーフィングを用いたドラムループ素材の生成 川原瑞樹 日本大学

2.

背景 ループシーケンサ : 数小節程度の音素材をつなげて作曲ソフトウェア ドラムループのようなリズミカルな素材は ポピュラー楽器であり、曲の特徴を形作る 音色、効果音の多様性が楽曲のバリエーションに影響を与える

3.

背景 課題 音素材に限りがある 自分の求める音素材が常に見つかるとは限らない 多様な音素材を生成を可能にしよう!

4.

目的 モーフィング音源を生成することで、 限られた音素材から多様な音素材を作る 2つの音源の中間的な音源

5.

関連研究との違い ・ Li-Chia Yang, Szu-Yu Chou, Yi-Hsuan Yang, MidiNet: A Convolutional Generative Adversarial Network for Symbolic-domain Music Generation(2017) → 畳み込みニューラルネットワーク(CNN)を使用した音楽生成 ・ 小林瑞季, 浜中雅俊, 新しいGTTMメロディモーフィング手法の提示 (2019) → GTTMに基づくメロディモーフィング手法の自動化 ・ 河原英紀, 生駒太一, 森勢将雅, 高橋徹, 豊田健一, 片寄晴弘, 歌唱音声モーフィングに基づく声質と歌 い回し転写の知覚的検討, (2017) → 高品質音声分析変換合成システムSTRAIGHTに基づくモーフィングによって、歌手の歌いまわしを転 写する ドラム音をモーフィングによって多様な音素材を生成すること に特化するものは見つからなかった

6.

提案手法 VAE(変分オートエンコーダ)と CNN(畳み込みニューラルネットワーク) を組み合わせたモデルでモーフィングを実現する

7.

提案手法 VAE データの特徴を抽出し、新しいデータを生成するための深層学習モデル CNN VAEの圧縮・復元の際にフィルタを通すことで画像の特徴を学習

8.

提案手法 モーフィングの実現 CNN(圧縮) CNN(復元) 音源A モーフィング音源 音源B スペクトログラム

9.

モーフィング音源 CNN-VAEによって得られたモーフィング音源 音源A 音源B モーフィング音源

10.

データセット SoundPool というWAVE形式の3 秒間の音楽ループ素材 データ数 224個 ジャンル テクノ&トランス 楽器パート ドラム

11.

実験 1.曲作りに使えるかどうか 2.機械学習モデルによって生成されたと思われるのはどちらか 3.元音源との類似度評価 4.新しい音源が生成されたか 1~3についてWeb 上のクラウドソーシングサービスを用いて評価した

12.

実験 1.曲作りに使えるかどうか 2.機械学習によって生成されたと思われるのはどちらか 機械学習による音源、市販音源をランダムを対に提示 音源 A 音源 B 聴いて以下の項目を選択する 1.曲作りに使える A or B 2.機械学習モデルによって生成された A or B 実験参加者:145名×10回評価

13.

実験 1.曲作りに使えるかどうか 理想の結果 機械学習による音源を選んだ割合の平均 : 0.5 曲作りの使える品質、市販の音源同等の品質である

14.

結果と考察 1.曲作りに使えるかどうか 平均 0.419 標準偏差 0.223

15.

実験 2.機械学習モデルによって生成されたと思われるのはどちらか 理想の結果 機械学習による音源を選んだ割合の平均 : 0.5 曲作りの使える品質、市販の音源同等の品質である 機械学習による音源を選んだ割合の平均 : 0.5以下 機械学習による音源が市販の音源よりも市販の音源らしい

16.

結果と考察 2.機械学習モデルによって生成されたと思われるのはどちらか 平均 標準偏差 0.374 0.180

17.

実験 3.元音源との類似度評価 機械学習によるモーフィング音源、モーフィング前の元音源A、Bを提示 音源 X 音源 A 音源 A、音源 B 、どちらに近いかを選択する 音源 B

18.

実験 3.元音源との類似度評価 選択肢 Aに近い どちらかといえばAに近い どちらかといえばBに近い Bに近い 実験参加者:201名×10回評価 全ての評価数値の平均を出す 評価数値 1 2 3 4

19.

実験 3.元音源との類似度評価 理想の結果 2以上3未満の割合が大きい 平均評価数値 割合 1 以上2 未満 0% 2以上3 未満 100 % 3 以上4 未満 0% 機械学習によるモーフィング音源は元音源 A、B の中間的な音源といえる

20.

結果と考察 3.元音源との類似度評価 平均評価数値 割合 1 以上2 未満 28% 2以上3 未満 48% 3 以上4 未満 24%

21.

実験 4.新しい音源が生成されたか 機械学習で生成されたモーフィング音源 X (100個)とデータセットの音源との類 似度を調べる 音源Xのそれぞれに対して、最も似ているものの類似度を計算する 音源 A 音源 B 音源 X データセット

22.

実験 4.新しい音源が生成されたか データセットからランダムに選ばれた音源とデータセットの音源との類似度を調 べる ランダムに選ばれた100個の音源のそれぞれに対して、最も似ているものの類 似度を計算する それらの平均値を求める データセットからランダムに選ばれた音源 データセット

23.

実験 4.新しい音源が生成されたか 理想の結果 「生成音源とデータセット内の類似度」 が低いほど、生成された音源はデータ セット内のどの音源とも類似していない

24.

結果と考察 4.新しい音源が生成されたか 平均最大類似度 データセット内 0.870 生成音源とデータセット内 0.935

25.

まとめ ・市販の音素材に対して曲作り、品質に対して劣らない ・モーフィングの元となる2 つの音源のどちらかに類似するケースは少ないこと ・データセットに存在しない新しい音源が生成されている可能性は少ない

26.

今後の課題 より多様なジャンルや楽器、スタイルに対応できるように、モデルの改良や新し い学習手法を検討する必要