>100 Views
February 18, 22
スライド概要
2022/02/18
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP An Iterative Framework for Self-supervised Deep Speaker Representation Learning [DL Papers] Hiroshi Sekiguchi, Morikawa Lab http://deeplearning.jp/ 1
書誌情報 • “An Iterative Framework for Self-supervised Deep Speaker Representation Learning ” Danwei Cai!, Weiqing Wang!, Ming Li!† !Department of Electrical and Computer Engineering, Duke University, Durham, USA †Data Science Research Center, Duke Kunshan University, Kunshan, China 2021 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP 2021) , pp.6728-6732 https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9414713 • 概要 – 話者認識(Speaker Recognition)の分野で、①Contrastive learning+clustering +purifying+擬似ラベルベースspeaker classficationを用いて、② 上記を繰 り返し学習することで、従来のContrastive learningよりも、よい話者表現が 得られた。 – この表現を、話者認識の一応用である話者照合(Speaker Verification)タス クで適用したところ、話者認証性能が、単純なContrastive learningよりも向 上した。 • 動機:複数音声分離に話者同定の技術を組み込むことで音声分離 の向上を検討 2
アジェンダ • • • • • 背景 提案手法 評価 まとめ 感想 3
背景: Speaker Recognitionとは • Speaker Recognition(話者認識) – Speaker Recognition(話者認識):人間の声から個人を認識(識別や認証などを含 む)する技術 – 種類として、Speaker Verification(話者照合)、Speaker Identification(話者識別)が ある Speaker Recognition Speaker verification Speaker Identification 本論文の対象技術分野 • Speaker Verification(話者照合): 登録してある本人の話者データと一致するかどうかを判断す る技術 • Speaker Identification(話者識別): 登録してある他人数のデータの誰の声かを特定する – いずれも、話者の表現学習(Representation Learning)に帰着 4
背景:話者表現学習とは • 話者の表現力学習の種類 – 話者の平均特徴からの差を話者毎の特徴vectorとする: i-vector – DNNによる特徴量抽出 • Supervisedな方法: →アノテーションの労力は高い • Unsupervisedな方法(特にSelf-Supervisedな方法) – Generativeなアプローチ → 波形レベルの再構成は不要 – Discriminativeなアプローチ→Contrastive Learning 5
現状の課題、達成したい目的と提案方策 • 現状の課題 – 従来のContrastive Learningのみの学習で得た表現力には、ラベルにノイズが入 り込んでおり、クラスタリング性能と下流タスク性能を劣化させている • 達成したい目的 – ラベルノイズを低減し、話者照合タスクの性能を向上させる話者表現の獲得 • 提案方策 – 提案方策①)擬似ラベルの純粋化(purify):信頼度の低い擬似ラベルを持つデー タは学習から排除 – 提案方法②) Contrastive learning → clustering → purify → speaker classification という、一連の手続きを複数回繰り返すことにより、表現力が増す – ①と②を併用して、よりよい話者表現を獲得する 6
提案手法-全体1 • 学習 Xi ,i=1,…,N’ ⑧ Augmentation (addition, reverberation) Xi ,i=1,…,N Xi,1 Xi,2 Xi,1 i=1,..M Speaker utterance xi i=1,…N M<Nで、2M がContrastive learningの batchの大きさ ① Augmentation (addition, reverberation) Xi,2 i=1,..M Background noise ⑨Feature Extraction (80-Mel Spectrogram) ⑩ Embedding ( ResNet x2/ Pooling/FC) ④Feature ⑤ Extraction Embedding (40-Mel (ResNet/ Spectrogram) Pooling/FC) Frozen係数θ ③ ②Feature Contrastive Extraction Learning (40-Mel (ResNet/ Spectrogram) Pooling/FC) Mel Spec 2-D Feature map time ⑪ Classifier( FC?) Cross entropy loss Lspk ⑥Clustering ⑦ K-Means Purify 128次元 純化した Embedding 擬似ラベル 擬似ラベル vector (N個) (N’個) N’<N Contrastive Loss LCSL • ①~⑪を1roundとして、複数 round繰り返す • Network係数は、次Roundに持ち越 すが、Clusteringの結果は持ち越さ ない。Clusteringは各Roundでゼロ から学習する。 7
提案手法-全体2 • 話者照合テスト(下記の図は、発表者の推測)← 下流タスク? (例)「話者XはAか?」@ A氏の銀行口座アクセス 話者X の テスト音声 ⑨Feature Extraction (80-Mel Spectrogram) ⑩ Embedding (ResNetx2/ Pooling/FC) Frozen係数θ Clusterラベ ル照会 話者Xの embedding 距離 真偽 判断 真 or 偽 話者Aの centroid 話者A 8
提案手法-要素1
① Augmentation: aug(・)
– 背景ノイズを加算:
環境ノイズ、音楽、テレビ音、
バブルノイズ(複数話者の背景会話)
– 部屋の残響を施す
② ③Mel Spectrogram + Contrastive Learning
–
–
–
–
–
–
Training Set D = { x1,….,xN } , N:発声総数
Batch B = { x1,….,xM}, DからM個 (M<N)の発声をrandomにサンプリング
xiの2つの異なるsegment(2~4秒):xi,1, xi,2
𝑓Θ :Mel Spectrogram extraction + 34-layer ResNet + Pooling + FC
xi,1, xi,2のembedding:zi,1, zi,2,feature mapの統計量,
Loss:
9
提案手法-要素2 ⑥ Clustering – K-Means • 𝑧𝑖 = 𝑓Θ (𝑥𝑖 ) • 𝐶 ∈ 𝑅 𝑑𝑥𝑘 :centroid 行列, 𝑑: embedding次元数, 𝑘: クラスタ数 • 𝑦𝑖 ∈ 1, … , 𝑘 : 𝑧𝑖 に対するクラスタ割り当て(擬似ラベル) 𝑓Θ (・) • 𝐶𝑦𝑖 : centroid 行列𝐶の𝑦𝑖 番目の列ベクトル • 𝐶を右記の最小化問題から求める • 最適割り当て: {𝑦1 , … , 𝑦𝑁 }, 𝑁: 総サンプル数、を求める ⑦ purify – 擬似ラベルの信頼度: − 𝑧𝑖 − 𝐶𝑦𝑖 2 2 – 信頼度の低いサンプル順に、総サンプルN個の割合𝑝 0 ≤ 𝑝 ≤ 1 分のサンプル数を、次の⑧⑨ ⑩⑪で構成されるclassificationの学習対象から除く – さらに、結果としてクラスタ内に残るサンプル数が 𝑆 より小さいクラスタに属するサンプルも、 次の⑧⑨⑩⑪で構成されるclassificationの学習対象から除く – 最初の数roundはpもSも大き目で、信頼度の高いサンプルのみを次の学習に残す 10
提案手法-要素3 • ⑧⑨⑩⑪ 信頼度の高い擬似ラベルでのspeaker classification学習 – 信頼度の高い擬似ラベルを持つ学習データ 𝑥𝑖 , 𝑦𝑖 , 𝑖 = 1, … , 𝑁 ′ 𝑁′: 信頼度の高いサンプル数 – 𝑓Θ (・):Mel Spectrogram extraction + 2x (34-layer ResNet) + Pooling + FC – Embedding: 𝑧𝑖 = 𝑓Θ (𝑎𝑢𝑔(𝑥𝑖 )) – Classify: 𝑔𝑤(・): 𝑊 はclassifyのNetwork係数 – Loss: 𝑔𝑤(・) 𝑓 (・) Θ 𝑔𝑤𝑗 (𝑧𝑖 ) : クラススコアベクトル𝑔𝑤(𝑧𝑖 ) のj番目の要素 – Θと𝑊を同時に学習 11
評価方法 • 話者照合タスクの性能で評価 • データーセット ① 話者表現学習 ◼ Voxceleb2データセット ◼ ◼ 話者数:5,994人、発声数:1,092,009 セラブのインタビューvideoの音声部を使用。Videoとラベルは使用しない ② 話者照合テスト ◼ ◼ 3種類のデータセット Voxcelb1 ◼ ◼ Voxcelb 1-E ◼ ◼ 話者数:40人、発声数:37,720 話者数:1251人、発声数:581,480 Voxcelb 1-H ◼ 話者数:1190人、発声数:552,536 ③ Augmentation用ノイズデータ ◼ MUSAN データセット ◼ 背景ノイズを加算:環境ノイズ、音楽、テレビ音、バブルノイズ(複数話者の背景会話) ◼ ◼ 部屋の残響を加える 話者音声とのSNR:0~20dBをランダムに設定、加える時間的頻度は0.6の割合 12
評価尺度 • クラスタリング性能の尺度 – – – – – Normal mutual information(NMI): 𝑈: ラベルのG.T., 𝑉: 予測した擬似ラベル 𝐼(𝑈, 𝑉): 𝑈と𝑉間の相互情報量 𝐻 ・ : 𝑒𝑛𝑡𝑟𝑜𝑝𝑦 𝑈と𝑉の分布が近い: 1に近い, 𝑈と𝑉の分布が独立:0に近い 0 ≤ 𝑁𝑀𝐼 ≤ 1 • 話者照合の尺度 – Equal Error Rate (EER): 本人拒否率(False negative)と他人受け入れ率(False positive)が同率になるように調整した時の率 → 小さい方が良い – minDCF(Detection Cost Function): cost x 本人拒否率+costx他人受け入れ率 → 小さい方が良い 13
実験設定 • ①②③ Contrastive learning – – – – Mel spectrogram特徴量: 40次元/フレーム 1フレーム:25msec Hamming Window, 10msecシフト 発声セグメント xi,j : 2~4秒の音声 学習: • Batch size: 256 • 最適化:Adam, 初期学習レート:0.001, 温度係数τ:0.1 • ⑥ clustering – Cluster数( ハイパーパラメータ):6000 • ⑧⑨⑩⑪信頼度の高い擬似ラベルでのspeaker classification学習 – – – – 擬似ラベルをG.T.とした教師あり学習 Mel spectrogram特徴量80次元/フレーム Embedding NNに、dropoutあり:過学習防止のため 学習: • 最適化:SDG, 学習率:0.1→学習停滞時に1/10に減少 14
評価結果1 • Purifyの効果 – Roundを進める際に、初期の数round は、厳しめに高信頼度のサンプルのみ に絞って、Classifyの学習を行う。 Roundが増えるにつれて、信頼度の値 が少々低いサンプルも入れて、 Classifyの学習に使う発声数を増やす (p↓、S↓) – NMIが各roundのpurify前と後で、改善 される⇒roundの進行と伴に、クラス タリング性能が向上している – Purifyは、クラスタリングの性能向上 に寄与している 減少 減少 増加 向上 Purify Purify 前 後 15
評価結果2 minDCF EER • 話者照合テスト性能 – minDCF、ERRともに、3つの datasetで、roundが進むにつれ て性能向上する – Round1では、classify学習に使 うサンプル数が全サンプル数の 32%にも関わらず、高信頼性の サンプルのみを使っているので、 minCDF, ERR(21.4%改善)とも に大幅に向上している – Roundを複数回実行することは、 クラスタリング性能の向上、ひ いては、話者照合システムの性 能の向上になる – Fully supervised手法には劣る 増 加 真 の ク ラ ス タ 数 に 近 づ く 増 加 (= 向 上 ) 減少(=向上) 16
評価結果3 • クラスタリング進捗の可視化(t-SNE): 6話者の場合 – Roundの進行とともに、クラスタリング、ク ラスタリングの密度が濃くなる 17
まとめと感想 • まとめ – Contrastive learning+clustering+purifying+擬似ラベルベースのspeaker Classificationを複数回繰 り返すことで、Contrastive learning単体よりも、話者表現能力が増加し、クラスタリング性能及 び話者照合性能を向上させることができた – Purifyの効果が、擬似ラベルのノイズによる性能劣化を回避し、round回数の進行と伴に、クラ スタリング及び話者照合性能を両方を、向上させることができた – 今後の研究としては、 • 除外すべき信頼度の低いサンプルを選択する洗練された手法の研究:カリキュラム学習、ラベル平滑化 • 各roundのClustering結果を、次のclustering結果に生かす方策 • 感想 – 学習の計算コスト・時間の記述がなかったのが気になる – Roundを複数回繰り返すと良くなる理論的な根拠はあるのか。その公算があると思えたヒラメ キはどこから? 18
END 19