USVSEG：齧歯超音波発声の検出手法

3.6K Views

August 28, 22

#超音波発声 #齧歯類 #音響解析 #信号処理 #USVSEG

スライド概要

論文内容の概略です
Tachibana RO et al. (2020) PLoS ONE.
https://doi.org/10.1371/journal.pone.0228907

Ryosuke Tachibana 橘亮輔

@rtachi-lab

スライド一覧

聴覚・音声の行動神経科学が専門。小鳥やヒト、ネズミの音声コミュを研究しています。ヒトの音楽能力についても少し研究しています。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

ウェーブレット変換の基礎と応用事例：連続ウェーブレット変換を中心に

Ryosuke Tachibana 橘亮輔 221.3K

超音波による⾻質評価と信号処理：瞬時周波数の応⽤

Ryosuke Tachibana 橘亮輔 2.8K

学振特別研究員になるために～2025年度申請版

学振 dc1 dc2 jsps pd

大上雅史 751.3K

研究に使える便利なフリーソフト ImageJ

imagej 放射線技師

片山豊 347.3K

StampFlyで学ぶマルチコプタ制御

伊藤恒平 302.3K

大規模言語モデルに追加学習で専門知識を教える試み (2023, arXiv:2312.03360)

Kan Hatakeyama 289.5K

各ページのテキスト

USVSEG 齧歯超音波発声の検出手法橘亮輔論文： Tachibana RO, Kanno K, Okabe S, Kobayasi KI, Okanoya K (2020) USVSEG: A robust method for segmentation of ultrasonic vocalizations in rodents. PLOS ONE 15(2) e0228907

文脈①：小鳥の歌解析（本職） • 音区間自動切り出し、教師あり識別 • 線型サポートベクタマシン • 532次元の音響特徴量空間 • 教師60秒分（~400個）だけで、 1日分のデータ（~3万個）の分類。 Linear SVM label ‘A’ 識別境界 other マージン Tachibana et al. (2014) PLoS ONE 2

文脈②：齧歯USV研究への接近 • 他の動物の音声解析技術 • 生物学・心理学・動物行動学の人たちが結構困っている • ノイズと声の分離 • 声の音響特徴量 • 主にネズミ（マウス・ラット・他）、次にマーモセット • ASDモデルのコミュニケーション • 母子間コミュニケーション • 友人のマウス研究者にたいする技術協力 • 流し録音から音声個所を切り出し＋特徴量計算 • 録音環境・機材からみなおし • ネズミの超音波発声 • • • • (ultrasonic vocalization: USV) への興味齧歯の音声はだいたい超音波 (20~100 kHz) 求愛行動中の音声系列にはなんらかのパターンがある齧歯USVは非学習性だが、発達による変化はあるかも小鳥の歌との類似性？ 3

目的 USVをいっぱい録音して測定の信頼度を上げたいしかしこれまでは、 • ノイズに埋もれがち • 手作業で切り出すのは大変そこで、 • ノイズを低減しながら、USVの発声区間をきっちり取り出してくるプログラムが欲しいなお、個人的なこだわりとして • 音響的に解釈可能な方法がいいなあ（“AI”とかじゃなくて…） 4

敵を知る①：マウスUSV • 成体の求愛時・仔マウスの体温低下時 • 40-100 kHz A_140513Aco59_2Home1 Frequency (kHz) 120 100 80 60 40 20 0 10 11 12 13 14 15 16 17 18 19 20 Frequency (kHz) 120 100 80 60 40 20 0 13.8 14 14.2 14.4 14.6 Time (s) 14.8 15 15.2 15.4 15.6 5

敵を知る②：ラットUSV Frequency (kHz) • 嬉しいとき（40-60 kHz) 120 120 100 100 80 80 60 60 40 40 20 20 0 29 30 31 32 33 0 29.1 29.2 29.3 29.4 29.5 29.6 29.7 29.8 29.9 30.0 30.1 Time (s) Time (s) • 嫌なとき（20-25 kHz) Frequency (kHz) 120 100 80 60 40 20 0 25 26 27 28 29 30 Time (s) 31 32 33 34 6

• ノイズのスペクトルは大体broad • ケージひっかき音、床敷きガサガサ • USVは周波数的にすごく局所的 Amplitude 敵を知る③：USVと背景雑音 USV noise Frequency 7

戦略 • 要求 • • • • サンプリングレート：250 kHz 時間ステップ：0.5 ms 時間窓：2 ms 周波数解像度：500 Hzくらい（50 kHzに対して1%） → FFTサイズ：512 • 方針 USV noise Frequency 平坦化 Amplitude Amplitude • USV成分（周期的・局所的）を目立たせるような処理をする • なんらかの方法で閾値設定し、これを超えたものをUSVとする • 背景ノイズを「平坦」にすることで、閾値の定義をシンプルにする USV 閾値 noise Frequency 8

時間窓をどうするか 55 kHz正弦波＋白色雑音 • 普通の窓だとスペクトルピークがいっぱい生じる • サイドローブと背景雑音の干渉？ • 移動平均すると信号のピークが減る Hann窓 Hann窓でのスペクトル SNR 6 dB 0 0 -10 -10 -20 -20 -30 -30 -40 20 0 dB time 40 60 80 100 -40 20 0 0 -10 -10 -20 -20 -30 -30 -40 20 -3 dB 6点移動平均 40 60 80 100 -40 20 0 0 -10 -10 -20 -20 -30 -30 -40 20 40 60 80 Frequency (kHz) 100 -40 20 40 60 80 100 40 60 80 100 40 60 80 100 Frequency (kHz) 9

10.

せや、窓いっぱいつこたろ • 直交する窓をいっぱい使う • 多重窓 multitaper method • 個々の窓をかけてはFFTし、振幅スペクトルを合算する →スペクトルのバタつき減る • 窓系列はエネルギが特定の幅に集中するよう設計 • 「離散扁長回転楕円体系列（DPSS)」「Slepian系列」 • 窓の数だけFFTするので遅い • 窓の数だけピークが太くなる ① ② ③ ④ ⑤ ⑥ time 10

11.

多重窓はいいぞ • ピークは太くなるが、見つけやすい多重窓 Hann窓 SNR 6 dB 0 0 -10 -10 -20 -20 -30 -30 -40 -40 20 0 dB 40 60 80 100 0 0 -10 -10 -20 -20 -30 -30 -40 20 40 60 80 100 20 40 60 80 100 20 40 60 80 100 -40 20 -3 dB 55 kHz正弦波＋白色雑音 40 60 80 100 0 0 -10 -10 -20 -20 -30 -30 -40 -40 20 40 60 Frequency (kHz) 80 100 Frequency (kHz) 11

12.

さらに、平坦化 • 背景ノイズの概形を推定して差っ引くことで平らにする • 周波数方向： • 各時刻のスペクトルについて、ケプストラムの低次成分を差分（high-pass liftering） • 時間方向： • スペクトルの中央値を差分 12

13.

提案法の全体像 13

14.

閾値どうする？ • 平坦化スペクトログラムの振幅分布をみると… • 背景雑音が正規分布(の対数) っぽい。このSDを基準に閾値を決定。 • 背景ノイズレベルに応じて実際の閾値（dB値）が変わる。 14

15.

やってみた • aa 15

16.

比較してみた • 多重窓 vs 単一窓（Hann窓） • 平坦化 vs 白色化（長時間スペクトル差分） • 平坦化がよい。SNが悪いときに多重窓がより良い。（正解データ作成のため共著者らが人力で切り出しまくった努力の結晶である！） 16

17.

おわりに • 齧歯USVの医学生物学研究は広がりがある。計測解析に音響知識がいるので結構大変かも。 • まず切り出しが大変、次に分類が大変 • 小鳥研究者はずっとそれらと戦ってきたのだ • 分類を他に任せて、切り出すだけの方法を作った • USV用の解析プログラムは色々提案されているが（VoICE, MUPET, DeepSqueak等) 、切り出しに焦点を絞ったのがポイント • 多重窓はなかなか使える子、平坦化は視覚的によい • ホントはピーク周波数推定などに色々アイディアを盛り込んだが、それはまたいつか・・・ • 数学をもっと分かってればやりたいことは色々あるが（ピーク推定に導関数を使うとか、複素多重窓を使うとか）論文アクセス： https://doi.org/10.1371/journal.pone.0228907 使用法サイト： https://sites.google.com/view/vocalcommuj/resource 17