>100 Views
March 15, 19
スライド概要
2019/03/15
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JPGANSYNTH: ADVERSATIAL NEURAL AUDIO SYNTHESIS [DL Papers] Rei Mizuta, Graduate School of Mathematical Sciences, UT http://deeplearning.jp/ 1
書誌情報 • 著者:Jesse Engel, Kumar Krishna Agrawal, Shuo Chen, Ishaan Gulrajani, Chris Donahue, Adam Roberts • Google AIの方々 • ICLR 2019 waiting review • openreview.netでの査読コメントを見る限りacceptされそう? 2
目的 • audio(=波形データ)で曲を学習、合成したい。 – ピアノの曲をヴァイオリンで再生するなど。 • audioデータは1秒に数万サンプリングされているが、周期的という特徴をうまく 捉えて学習したい。具体的には次のいずれかの戦略を使いたい – Dilatedもしくは様々なスケールで畳み込む – (窓)フーリエ変換後のベクトルをinputにする • 既存手法より上手に合成したい – 音程が変わっても、音色に一貫性を持たせたい 3
要点 (1)GANを使ってaudioを合成する手法で既存手法(WaveNet,WaveGAN)と比べて 実験でいい評価を得た。特に既存手法の改善点として合成後の音声データはス ペクトルに偏りがあることを明らかにした。 (2)技術的な新規性は、周波数の位相の代わりに位相のずれを測るInstantaneous Frequencyという量に注目したことである。これによってより画像データに近 いベクトルを生成した。 4
目次 1. 既存手法 1. WaveNet 2. WaveGan 3. 各手法の評価 1. データセットと評価指標 2. アーキテクチャ 3. 結果 2. 提案手法 1. Instantaneous Frequency 4. まとめと感想 5
1.1 WaveNet Speech Synthesisに使われている既存手法としてWaveNet(Oord et al. ‘16)が ある。 .wav形式だと最高で65536(16bit) このネットワークの特徴は • 入力がaudio、出力がaudio*256(本来は65536通りだが減らす)の確率値 • 固定長 • Dilationを使う 6
1.1 WaveNet Speech Synthesisに使われている既存手法としてWaveNet(Oord et al. ‘16)が ある。 このネットワークの特徴は • 入力がaudio、出力がaudioサイズの確率 • 固定長 • Dilationを使う hが特徴に関わるベクトルとして、Vで特徴を学習 7
1.2 WaveGan • Audioデータに対してDCGANの手法を使って学習する。画像と音声データの違 いとして、周期的であることを考慮して、畳み込み層のレイヤーをDCGANよ り増やす。 DCGANでの5*5の畳み込み層の代わりにWaveGANでは25*1の畳み込みをする 8
目次 1. 既存手法 1. WaveNet 2. WaveGan 3. 各手法の評価 1. データセットと評価指標 2. アーキテクチャ 3. 結果 2. 提案手法 1. Instantaneous Frequency 4. まとめと感想 9
2.1 Instantaneous Frequency • (上)曲の一部をフーリエ変換した後の位相およびIFの表。(下)位相及びIFを各周 波数ごとに並べた「画像」 – IFの方が時間方向に周期的な要素が少なくより画像データに近いベクトルになっていると考え られる 10
目次 1. 既存手法 1. WaveNet 2. WaveGan 3. 各手法の評価 1. データセットと評価指標 2. アーキテクチャ 3. 結果 2. 提案手法 1. Instantaneous Frequency 4. まとめと感想 11
3.1. データセットと評価指標 • 300000曲のデータセット(NSynth)。1曲は1000個の異なる楽器のうち一つの みの演奏からなり、4秒間を64000箇所サンプリングする。 • このうちacoustic instrumentのみ、32~1000Hzの間にある70370曲で8割を学 習、2割をtestに使う • 評価指標について、6種類あるが論文中で可視化されている2つのみ紹介する – (Human Evaluation) 二つ聞かせてどちらが良いか答えさせる – (Number of Different Bins;NDB) (Richardson & Weiss ‘18)で論じられている。画像をボ ロノイ図にしてクラスタリングしたのちカテゴリに入った数の差を測る 12
3.2. アーキテクチャ • magendaのデータ1曲が64000サンプルサイズであるのに対し、まず1024サイ ズの窓で256箇所(窓)フーリエ変換する。周波数は512通りとる。結果的に (256,512,2)サイズの「画像」が得られる。さらにオプションとして次のものを 試す。 – (Phase) 最後の2サイズは(log振幅、位相) – (IF) 最後の2サイズは(log振幅、位相のInstantaneous Frequency) • (IF-Mel) log振幅、位相のInstantaneous Frequency共にMel尺度にする Mel尺度算出式 – (H) 2048サイズの窓で128箇所のFTをし(128,1024,2)サイズの画像を得る • 「画像」から曲に変換するのは”the approximate inverse linear transformation”を使うらしい(実装を見ないとわからない)。 13
3.3. 結果 提案手法に様々なオプションを 付けて実験。ほとんどの場合で 既存手法を上回る 既存手法(青色)はスペクトルに大きな偏りがある。 元データのスペクトル(のクラスタ)の分布は折れ線 14
3.3. 結果 赤色:既存手法、スペクトルに大きな偏りがある 15
3.3. 結果 • 論文より抜粋 • 実際に聞いてみましょう(スライドの最後にリンク有) 16
目次 1. 既存手法 1. WaveNet 2. WaveGan 3. 各手法の評価 1. データセットと評価指標 2. アーキテクチャ 3. 結果 2. 提案手法 1. Instantaneous Frequency 4. まとめと感想 17
まとめと感想 (1)audioデータを窓フーリエ変換したあと位相成分の微分を取ることで周期的でな い(=画像に近い)ベクトルを生み出すことができた。 (2)GANSynthでは(1)で生み出したベクトルに対してGANを使うことにより曲の合 成を行った。 [感想] - SpecGAN(WaveGANの論文にある別手法)との比較がない。特にスペクトルの分 布が気になる。 18
参考文献等 • WaveNetのデモ – https://magenta.tensorflow.org/nsynth-fastgen, 19/3/15閲覧 • WaveGAN – http://createwith.ai/paper/20180216/1192, 解説 19/3/15閲 覧 – https://chrisdonahue.com/wavegan_examples/, デモ 19/3/15閲覧 • GANSYNTH – https://openreview.net/forum?id=H1xQVn09FX, 論文 – https://goo.gl/magenta/gansynth-demo, デモ 19