歌唱者ダイアライゼーションに向けた 歌唱者識別手法の比較

>100 Views

October 11, 24

スライド概要

profile-image

日本大学 文理学部 情報科学科 北原研究室。 「Technology Makes Music More Fun」を合言葉に、音楽をはじめとするエンターテインメントの高度化に資する技術の研究開発を行っています。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

グループ楽曲における 歌唱者識別システム 北原研究室 田中 麻衣

2.

背景・目的 だれがどこを歌っているか聞き分けるのは難しい  音源からパート識別できるシステム「歌唱者ダイアライゼーション」

3.

関連技術 関連研究 今回 話者ダイアライゼーション 誰がどこでしゃべっている かを識別する技術 セグメントごとの歌唱者識別 歌唱者ダイアライゼーション 背景音があると歌声の特徴 量抽出は難しい カラオケ音源を使用した音 源分離手法を用いて実験 カラオケ音源を使わない音 源分離モデルで背景音を除 去 セグメントの長さによる影 響の検証

4.

手法 学習を必要としない手法 クラスタリング 学習を用いる手法 学習モデル 音源分離したボーカル音源 音源分離したボーカル音源 LIUM セグメント 0.5s, 1s,2s 0.5s, 1s,2s セグメント セグメント セグメント MFCC MFCC MFCC クラスタ リング クラスタ クラスタ セグメント 特徴量 抽出 特徴量 抽出 MFCC セグメント MFCC MFCC 学習済み モデル クラスタ ラベル ラベル ラベル

5.

実験条件 使用音源 入出力データ • 男性ボーカル2人組「ゆず」 の楽曲25曲を使用 • 音源分離モデル「demucs」 でボーカル音源抽出 • 入力:特徴量MFCC • 出力:4クラス データセット • 年代順割当データセット • ランダム割当データセット

6.

学習モデル LSTM CNN

7.

結果:クラスタリング • セグメントが短いほど高精度 セグメントが長いと、パートが混在し誤認識される LIUMによるセグメントは2s以上 LIUM 0.5s 1s 2s

8.

結果:学習を必要としない手法 • 「未練歌」は評価値が低い 背景音の影響で誤認識 無音 同時歌唱 ラ 歌唱者A ラ ベ ル r ベ ル r 歌唱者B 時間(10ms) 未練歌 (2s) 時間(10ms) 未練歌 (0.5s)

9.

実験結果:学習モデル(年代順割当) • LSTMでは1sで最も良い正解率 • CNNでは1s、2sでの中央値が高い LSTM 0.5s LSTM 1s LSTM 2s CNN 0.5s CNN 1s CNN 2s

10.

実験結果:学習モデル(年代順割当) • 「天国」の正解率は全モデルで8割以上 パート割りが単純 無音 同時歌唱 ラ 歌唱者A ベ ル r 歌唱者B 時間(10ms) 天国 CNN (2s)

11.

実験結果:学習モデル(ランダム割当) • LSTMでは1sで最も正解率の中央値が高い • CNNはセグメントが長いほど正解率が上がった LSTM 0.5s LSTM 1s LSTM 2s CNN 0.5s CNN 1s CNN 2s

12.

実験結果:学習モデル(ランダム割当) • CNN(2s)における「天国」「保土ヶ谷バイパス」「桜木町」 の正解率が9割以上 パート割りが単純 背景音がほぼ残っていない 無音 同時歌唱 ラ ベ 歌唱者A ラ ベ ル r ル r 歌唱者B 時間(10ms) 保土ヶ谷バイパス CNN (2s) 時間(10ms) 桜木町 CNN (2s)

13.

結論 • 背景音除去の精度が識別精度にかかわっている • 使用モデルによって精度の上がるセグメント長が異なる これから • 識別結果の平滑化 • 推定されたパート割を見ながら楽曲鑑賞するアプリの開発

14.

ご清聴 ありがとうございました