[DL輪読会]MuseGAN: Multi-track Sequential Generative Adversarial Networks for Symbolic Music Generation and Accompaniment

135 Views

August 09, 19

#deep learning #MuseGAN #音楽生成 #GAN #深層学習 #ピアノロール

スライド概要

2019/08/09
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 84.7K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 54.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 38.8K

【拡散モデル勉強会】拡散モデルのサンプラーまとめ

Deep Learning JP 33.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 32K

各ページのテキスト

DEEP LEARNING JP [DL Papers] MuseGAN:Multi-track Sequential Generative Adversarial Networks for Symbolic Music Generation and Accompaniment Shu Kumata, Matsuo Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

はじめに • 本論⽂を選んだ理由 • ⾳楽⽣成に興味がある • GANベースのモデルで⼊出⼒がピアノロール形式 • 書誌情報等 • Author • Hao-Wen Dong,* Wen-Yi Hsiao,* Li-Chia Yang, and Yi-Hsuan Yang (*equal contribution) • Academia Sinica(China) • AAAI2018

Agenda • 概要 • 背景 • 既存研究 • 新規性 • 提案⼿法 • 実験と結果 • まとめ

概要 • GANをベースとした複数楽器(Multi-track)にまたがる楽曲を⽣成するモデル MuseGAN を提案している論⽂ • ⼊出⼒データがピアノロール形式のsymbolicな⾳楽⽣成 • e.g. WaveNetは⾳源そのままを⼊出⼒としている • GeneratorもDiscriminatorもCNNで構成

背景 • 既存研究 • RNNをベースにした⼿法が多く⾏われてきた。 • 近年、GANを⽤いた⼿法も増えてきた。 • ただ、問題を簡単にして、解いているものが多い • ⼀楽器かつ単⾳の⾳楽を⽣成する • 単⾳のメロディを組み合わせて複数の⾳のメロディを⽣成する、など • 新規性 • 複数楽器かつ複数の⾳(コード等)を⽣成する。

提案⼿法 • 2x3=6パターンのモデルを提案 • 複数楽器についてのモデリング⼿法 3パターン • 時間依存(⾳楽の⼀貫性)についてのモデリング⼿法 2パターン

提案⼿法 ‒複数楽器‒ 1trackに対して1generator, 1discriminator track数に関わらず、1generator. 1discriminator 即興のセッションのイメージ (Jam: ジャズの即興演奏) ⼀⼈の作曲家が作曲するイメージ 1trackに対して1generator。track 数に関わらず1discriminator。 track間の⽣成に⼀貫性を持たせるためにinter-track random vector も与える。 Jamming ModelとComposer Modelのハイブリッド

提案⼿法 ‒時間依存‒ ⾳楽をノイズからのみ⽣成する。(from scratch) ノイズ𝒛を𝐺#$%& でシーケンスにすることで、⼀貫性を持たせる。動画⽣成で似たアイデアが⽤いられている(Saito, Matsumoto, and Saito 2017) ノイズに加えて、1track(実験ではピアノの⾳)だけ𝑦として与えることで、⼀貫性を持たせる。 ⃗ AIと共同で⼈間が⾳楽を作成することに応⽤できる。

提案⼿法全体像説明した6つのパターンのモデルを1つで⽰すとこうなる

10.

実験 ‒データ‒ • ⼊出⼒データはMIDIデータから変換したピアノロール形式 • Lakh MIDI dataset(LMD)(Raffel 2016) • データの前処理として、⾳が少ないものやロック以外のジャンルを削除

11.

実験 ‒評価指標‒ EB ⾳が無い割合 pitch class(ド, ド#, ...)が単位時間あたりどれくらい UPC 使われているか Intra-track QN 32分⾳符以上の⾳の割合 DP ドラムの8beat, 16beatの割合 Tonal Distance(Harte, Sandler, and Gasser 2006) Inter-track TD と呼ばれるtrack間の調和度を測る指標。値が⼩さい程良い。上記の5つの指標について実際の⾳楽と⽐較を⾏う

12.

実験結果 Intra-track Jamming modelで⽣成された⾳楽がより実際の⾳楽に近い値を⽰した →⼀つのgeneratorが⼀つの楽器だけを考慮すれば良いから ※Ablated model: batch normalizationを適⽤しなかったcomposer model

13.

実験結果 Inter-track Composer/Hybrid modelで⽣成された⾳楽が実際の⾳楽より良い値を⽰した

14.

実験結果 • https://salu133445.github.io/musegan/results

https://salu133445.github.io/musegan/results

15.

感想 • 指標が難しい • その指標が良ければ本当にいい⾳楽なの？ • 被験者に回答してもらう形式もいいけど、⼈によって好みは異なる • ⽬的も難しい • いい⾳楽を作ることが⽬的なのか？ • 新しい今までにない⾳楽を作ることが⽬的なのか？