119 Views
April 26, 19
スライド概要
2019/04/26
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation 筑波大学 岡村 柾紀
どういうものか ・騒音や複数話者の声の中から特定話者の音声を抽出するモデル ・学習に数千時間の動画データセット(AVSpeech)を用いた ・学習データに抽出したい音声がなくても良い(これ以前は必要だった) ・学習データが画像+音声(以前は音声のみ)
学習データ ・騒音がない=綺麗な音声 ・3~10秒の動画 ・4700時間 ・15万人 ・話者が1人 ・29万のYoutube video(e.g.Ted tasks)
構造
構造(Input Visual)
Input Video ・前処理として、Google APIを用いて顔検出を行う ・1スピーカーにつき75枚の画像を得る visual CNN
構造(Input Audio )
Input Audio ・短時間フーリエ変換(STFT)を行うことで画像として扱う ・小さい音が大きい音に消されないように「べき乗則圧縮」を行う (べき乗の性質は、小さいものほど多く、大きいものほど少なくなる?) Audio CNN
構造(Audio・Visual fusion)
Audio・Visual fusion ・Audio と visual の特徴マップを結合する ・Bidirectional LSTM を通す ・3層の全結合層を通す
構造(Output)
Output ・特定話者を抽出するためのmaskを出力 ・maskには「complex ratio mask」を使用する ・inputした短時間フーリエ変換直後のスペクトログラムとマスクを掛け合わす ・逆短時間フーリエ変換(ISTFT)で音信号に戻す
ネットワークモデル(1) ・最後の層以外にReLUを適用 and sigomid ・全ての畳み込み層後にBatchNormaraization ・Dropoutは使わない ・batch size=6 ・Adam optimizer ・leannig_rate =0.0003
ネットワークモデル(2) ・75層のvisual input ・all audioを16kHz にresampling ・stereo audioはmono に変えれる ・ハミング窓の長さは25ms ・input audio size=257x298x2 スカラー ・べき乗圧縮した綺麗な音声データのスペクトログラムとoutputにより得られた スペクトログラムの2乗誤差でlossを計算
工夫点 ・大きな(loud)音を取り除くためにべき乗則圧縮を使う。ノイズ音にも ・音と画像のsampling rate の食い違いを防ぐためにupsampling を行う sampling rateを(100Hz)に合うようにする。 ・複数の人が写っている場合:それぞれのnetworkで同じ重みを共有 BLSTMを通す前に複数のlearned visual streamをconcat ・complex ratio mask(cRM)を使う
評価 ・SDRで評価する (BBS Eval toolboxを用いて) 信号対ひずみ比(Signal-to-Distortion Ratio)。 SDR=10log10{(目的信号の全区間でのパワー)/(目的信号-生成信号の全区間でのパワー)} により,生成した信号が目的とする信号に対してどの程度歪んでいるかを評価する。 (http://d.hatena.ne.jp/andy1024/20120529/1338420918により)
色々な実験
まとめ ・リアルタイムでは機能しないと書いていて、何故なのかが僕にはわかっていな い。 ・画像と音を組み合わせてのCNNは面白いなと思った。 ・特定話者の音声抽出の応用として調べてみたところ =>「Mediated Ear」(http://mediated-ear.com/)というものがあり詳しく知りたい。 ・間違いがあれば、ご指摘していただければ嬉しいです。