3K Views
August 28, 22
スライド概要
論文内容の概略です
Tachibana RO et al. (2020) PLoS ONE.
https://doi.org/10.1371/journal.pone.0228907
聴覚・音声の行動神経科学が専門。小鳥やヒト、ネズミの音声コミュを研究しています。ヒトの音楽能力についても少し研究しています。
USVSEG 齧歯超音波発声の検出手法 橘 亮輔 論文: Tachibana RO, Kanno K, Okabe S, Kobayasi KI, Okanoya K (2020) USVSEG: A robust method for segmentation of ultrasonic vocalizations in rodents. PLOS ONE 15(2) e0228907
文脈①:小鳥の歌解析(本職) • 音区間自動切り出し、教師あり識別 • 線型サポートベクタマシン • 532次元の音響特徴量空間 • 教師60秒分(~400個)だけで、 1日分のデータ(~3万個)の分類。 Linear SVM label ‘A’ 識別 境界 other マージン Tachibana et al. (2014) PLoS ONE 2
文脈②:齧歯USV研究への接近 • 他の動物の音声解析技術 • 生物学・心理学・動物行動学の人たちが結構困っている • ノイズと声の分離 • 声の音響特徴量 • 主にネズミ(マウス・ラット・他)、次にマーモセット • ASDモデルのコミュニケーション • 母子間コミュニケーション • 友人のマウス研究者にたいする技術協力 • 流し録音から音声個所を切り出し+特徴量計算 • 録音環境・機材からみなおし • ネズミの超音波発声 • • • • (ultrasonic vocalization: USV) への興味 齧歯の音声はだいたい超音波 (20~100 kHz) 求愛行動中の音声系列にはなんらかのパターンがある 齧歯USVは非学習性だが、発達による変化はあるかも 小鳥の歌との類似性? 3
目的 USVをいっぱい録音して測定の信頼度を上げたい しかしこれまでは、 • ノイズに埋もれがち • 手作業で切り出すのは大変 そこで、 • ノイズを低減しながら、USVの発声区間をきっちり 取り出してくるプログラムが欲しい なお、個人的なこだわりとして • 音響的に解釈可能な方法がいいなあ (“AI”とかじゃなくて…) 4
敵を知る①:マウスUSV • 成体の求愛時・仔マウスの体温低下時 • 40-100 kHz A_140513Aco59_2Home1 Frequency (kHz) 120 100 80 60 40 20 0 10 11 12 13 14 15 16 17 18 19 20 Frequency (kHz) 120 100 80 60 40 20 0 13.8 14 14.2 14.4 14.6 Time (s) 14.8 15 15.2 15.4 15.6 5
敵を知る②:ラットUSV Frequency (kHz) • 嬉しいとき(40-60 kHz) 120 120 100 100 80 80 60 60 40 40 20 20 0 29 30 31 32 33 0 29.1 29.2 29.3 29.4 29.5 29.6 29.7 29.8 29.9 30.0 30.1 Time (s) Time (s) • 嫌なとき(20-25 kHz) Frequency (kHz) 120 100 80 60 40 20 0 25 26 27 28 29 30 Time (s) 31 32 33 34 6
• ノイズのスペクトルは大体broad • ケージひっかき音、床敷きガサガサ • USVは周波数的にすごく局所的 Amplitude 敵を知る③:USVと背景雑音 USV noise Frequency 7
戦略 • 要求 • • • • サンプリングレート:250 kHz 時間ステップ:0.5 ms 時間窓:2 ms 周波数解像度:500 Hzくらい(50 kHzに対して1%) → FFTサイズ:512 • 方針 USV noise Frequency 平坦化 Amplitude Amplitude • USV成分(周期的・局所的)を目立たせるような処理をする • なんらかの方法で閾値設定し、これを超えたものをUSVとする • 背景ノイズを「平坦」にすることで、閾値の定義をシンプルにする USV 閾値 noise Frequency 8
時間窓をどうするか 55 kHz正弦波+白色雑音 • 普通の窓だとスペクトル ピークがいっぱい生じる • サイドローブと背景雑音 の干渉? • 移動平均すると信号の ピークが減る Hann窓 Hann窓でのスペクトル SNR 6 dB 0 0 -10 -10 -20 -20 -30 -30 -40 20 0 dB time 40 60 80 100 -40 20 0 0 -10 -10 -20 -20 -30 -30 -40 20 -3 dB 6点移動平均 40 60 80 100 -40 20 0 0 -10 -10 -20 -20 -30 -30 -40 20 40 60 80 Frequency (kHz) 100 -40 20 40 60 80 100 40 60 80 100 40 60 80 100 Frequency (kHz) 9
せや、窓いっぱいつこたろ • 直交する窓をいっぱい使う • 多重窓 multitaper method • 個々の窓をかけてはFFTし、 振幅スペクトルを合算する →スペクトルのバタつき減る • 窓系列はエネルギが特定の幅に 集中するよう設計 • 「離散扁長回転楕円体系列 (DPSS)」「Slepian系列」 • 窓の数だけFFTするので遅い • 窓の数だけピークが太くなる ① ② ③ ④ ⑤ ⑥ time 10
多重窓はいいぞ • ピークは太くなるが、見つけやすい 多重窓 Hann窓 SNR 6 dB 0 0 -10 -10 -20 -20 -30 -30 -40 -40 20 0 dB 40 60 80 100 0 0 -10 -10 -20 -20 -30 -30 -40 20 40 60 80 100 20 40 60 80 100 20 40 60 80 100 -40 20 -3 dB 55 kHz正弦波 +白色雑音 40 60 80 100 0 0 -10 -10 -20 -20 -30 -30 -40 -40 20 40 60 Frequency (kHz) 80 100 Frequency (kHz) 11
さらに、平坦化 • 背景ノイズの概形を推定して差っ引くことで平らにする • 周波数方向: • 各時刻のスペクトルについて、ケプストラムの低次成分を差分 (high-pass liftering) • 時間方向: • スペクトルの中央値を差分 12
提案法の全体像 13
閾値どうする? • 平坦化スペクトログラムの振幅分布をみると… • 背景雑音が正規分布(の対数) っぽい。このSDを基準に閾値を決定。 • 背景ノイズレベルに応じて実際の閾値(dB値)が変わる。 14
やってみた • aa 15
比較してみた • 多重窓 vs 単一窓(Hann窓) • 平坦化 vs 白色化(長時間スペクトル差分) • 平坦化がよい。SNが悪いときに多重窓がより良い。 (正解データ作成のため共著者らが人力で切り出しまくった努力の結晶である!) 16
おわりに • 齧歯USVの医学生物学研究は広がりがある。 計測解析に音響知識がいるので結構大変かも。 • まず切り出しが大変、次に分類が大変 • 小鳥研究者はずっとそれらと戦ってきたのだ • 分類を他に任せて、切り出すだけの方法を作った • USV用の解析プログラムは色々提案されているが(VoICE, MUPET, DeepSqueak等) 、切り出しに焦点を絞ったのがポイント • 多重窓はなかなか使える子、平坦化は視覚的によい • ホントはピーク周波数推定などに色々アイディアを盛り込んだ が、それはまたいつか・・・ • 数学をもっと分かってればやりたいことは色々あるが (ピーク推定に導関数を使うとか、複素多重窓を使うとか) 論文アクセス: https://doi.org/10.1371/journal.pone.0228907 使用法サイト: https://sites.google.com/view/vocalcommuj/resource 17