[DL輪読会]MuseGAN: Multi-track Sequential Generative Adversarial Networks for Symbolic Music Generation and Accompaniment

>100 Views

August 09, 19

スライド概要

2019/08/09
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] MuseGAN:Multi-track Sequential Generative Adversarial Networks for Symbolic Music Generation and Accompaniment Shu Kumata, Matsuo Lab http://deeplearning.jp/ 1

2.

はじめに • 本論⽂を選んだ理由 • ⾳楽⽣成に興味がある • GANベースのモデルで⼊出⼒がピアノロール形式 • 書誌情報等 • Author • Hao-Wen Dong,* Wen-Yi Hsiao,* Li-Chia Yang, and Yi-Hsuan Yang (*equal contribution) • Academia Sinica(China) • AAAI2018

3.

Agenda • 概要 • 背景 • 既存研究 • 新規性 • 提案⼿法 • 実験と結果 • まとめ

4.

概要 • GANをベースとした複数楽器(Multi-track)にまたがる楽曲を⽣ 成するモデル MuseGAN を提案している論⽂ • ⼊出⼒データがピアノロール形式のsymbolicな⾳楽⽣成 • e.g. WaveNetは⾳源そのままを⼊出⼒としている • GeneratorもDiscriminatorもCNNで構成

5.

背景 • 既存研究 • RNNをベースにした⼿法が多く⾏われてきた。 • 近年、GANを⽤いた⼿法も増えてきた。 • ただ、問題を簡単にして、解いているものが多い • ⼀楽器かつ単⾳の⾳楽を⽣成する • 単⾳のメロディを組み合わせて複数の⾳のメロディを⽣成する、など • 新規性 • 複数楽器かつ複数の⾳(コード等)を⽣成する。

6.

提案⼿法 • 2x3=6パターンのモデルを提案 • 複数楽器についてのモデリング⼿法 3パターン • 時間依存(⾳楽の⼀貫性)についてのモデリング⼿法 2パターン

7.

提案⼿法 ‒複数楽器‒ 1trackに対して1generator, 1discriminator track数に関わらず、1generator. 1discriminator 即興のセッションのイメージ (Jam: ジャズの即興演奏) ⼀⼈の作曲家が作曲するイメージ 1trackに対して1generator。track 数に関わらず1discriminator。 track間の⽣成に⼀貫性を持たせる ためにinter-track random vector も与える。 Jamming ModelとComposer Modelのハイブリッド

8.

提案⼿法 ‒時間依存‒ ⾳楽をノイズからのみ⽣成する。(from scratch) ノイズ𝒛を𝐺#$%& でシーケンスにすることで、⼀貫 性を持たせる。 動画⽣成で似たアイデアが⽤いられている(Saito, Matsumoto, and Saito 2017) ノイズに加えて、1track(実験ではピアノの⾳)だ け𝑦として与えることで、⼀貫性を持たせる。 ⃗ AIと共同で⼈間が⾳楽を作成することに応⽤でき る。

9.

提案⼿法 全体像 説明した6つのパターンのモデルを1つで⽰すとこうなる

10.

実験 ‒データ‒ • ⼊出⼒データはMIDIデータから変換したピアノロール形式 • Lakh MIDI dataset(LMD)(Raffel 2016) • データの前処理として、⾳が少ないものやロック以外のジャン ルを削除

11.

実験 ‒評価指標‒ EB ⾳が無い割合 pitch class(ド, ド#, ...)が単位時間あたりどれくらい UPC 使われているか Intra-track QN 32分⾳符以上の⾳の割合 DP ドラムの8beat, 16beatの割合 Tonal Distance(Harte, Sandler, and Gasser 2006) Inter-track TD と呼ばれるtrack間の調和度を測る指標。値が⼩さい 程良い。 上記の5つの指標について実際の⾳楽と⽐較を⾏う

12.

実験結果 Intra-track Jamming modelで⽣成された⾳楽がより実際の⾳楽に近い値を⽰した →⼀つのgeneratorが⼀つの楽器だけを考慮すれば良いから ※Ablated model: batch normalizationを適⽤しなかったcomposer model

13.

実験結果 Inter-track Composer/Hybrid modelで⽣成された⾳楽が実際の⾳楽より良い値 を⽰した

14.

実験結果 • https://salu133445.github.io/musegan/results

15.

感想 • 指標が難しい • その指標が良ければ本当にいい⾳楽なの? • 被験者に回答してもらう形式もいいけど、⼈によって好みは異なる • ⽬的も難しい • いい⾳楽を作ることが⽬的なのか? • 新しい今までにない⾳楽を作ることが⽬的なのか?