>100 Views
April 11, 19
スライド概要
2019/04/08
Deep Learning JP:
http://deeplearning.jp/hacks/
DL輪読会資料
DEEP LEARNING JP [DL Papers] “Spiking network optimized for noise robust word recognition approaches human-level performance and predicts auditory system hierarchy” <LT> Hiroshi Sekiguchi, Morikawa Lab http://deeplearning.jp/ 1
アジェンダ • • • • • • 論文緒言 聴覚生理学で見られる階層的聴覚路(内耳~聴覚大脳皮質)の特性 Hierarchical Spiking neural network シミュレーションの目的 評価 まとめ 2
論文緒言 • タイトル:“Spiking network optimized for noise robust word recognition approaches human-level performance and predicts auditory system hierarchy” • 著者:Fatemeh Khatami and Monty A. Escabí • 所属:Dept. of Biomedical Engineering, Depart. of Electrical and Computer Engineering, and Dept. of Psychological Sciences, University of Connecticut, Storrs, CT • 要旨 – 環境音や障害音声などの雑音下における聴覚の目標音声聞き取り能力は、そのメカニズムが未 だ解明できていない. – 聴覚生理学で見られる,階層的聴覚路(内耳~聴覚大脳皮質)の時間分解能・周波数選択性・ 励起電圧閾値の層間変化傾向は,雑音下音源分離に重要働きをしているという.この層間変化 傾向が.各層の音声信号コーディングをSpiking Neural Networkモデルで表現して雑音下で単語 認識を最適にした際のネットワーク特性で再現できることを示す. – 雑音環境下での聴覚の特性は、 同環境下で言語の認知を得る過程で形成されると考えられる • 紹介するにあたっての動機 – 聴覚脳神経系の階層的聴覚路前半部が司る聴覚音声特徴量抽出機能の抽出方法を種々探してい る.これを使って、重畳音声の分離の特徴抽出部としたい. 3
聴覚生理学で見られる階層的聴覚路(内耳~聴覚大脳皮質)の特性 • 聴覚路: 複数層のネットワーク 各層の物理特性が層間で、特定の傾向で連続的に変化する • 物理特性:・時間解像度:層間の違いは大きい 内耳に近い層:1000Hz,大脳皮質に近い層:~25Hz ・周波数選択性 層間の変化は少ない. 前層の特定の入力 時間解像度τ の組み合わせを 脳 外 内 選択する機構あり. 周 界 音 ( STFT) 第1層 波第2層P𝑟 (𝑦|𝑧): ・・・・ 数 解 像 度 第N層 聴覚大脳皮質近い 内耳に近い 階層的聴覚路 聴 覚 信 号 4
Hierarchical Spiking neural network (HSNN)(1) • 聴覚生理学的に触発されたNetwork • 蝸牛での周波数分析に類似したBPF群 • 各層のNeuronの位置は蝸牛の 周波数要素の並びをそのまま周到 • 各層のNeuronはシノプシスに類似 して前層と2種類の結合で繋がる • 励起結合(Excitatory Connection) 𝐸 • 𝑤𝑙,𝑚,𝑛 = 1 2 /σ2 𝐸 ・𝑒 −(𝑥𝑙,𝑚 −𝑥𝑙+1,𝑛) 2𝜋σ2𝐸 • 抑制結合(Inhibitory Connection) 𝐼 • 𝑤𝑙,𝑚,𝑛 = 1 2 /σ2 𝐼 ・𝑒 −(𝑥𝑙,𝑚 −𝑥𝑙+1,𝑛 ) 2𝜋σ2𝐼 • 時間解像度(τ𝑙 )→ τ𝐼 = 1.5 τ𝐸 ,τ𝐸 = τ𝑙 • 周波数選択性(σ𝑙 )→ σ𝐼 = 1.5 σ𝐸 , σ𝐸 = σ𝑙 • 励起電圧閾値(𝑁𝑙 ) • 6層HSNNの出力:Spike Pattern • 時間-周波数での励起強度パターン • 単語認識分類器: • シンプルなベイジアン分類器 5
Hierarchical Spiking neural network (HSNN)(2) • 音声データ:TI46LDC Corpus,英語10数字,合計8名(男女各4名), 10回発声/話者・数字 → データ数:10単x8話x10=800発声 • 音声+障害音声(babble speech): SNR=-5,0,5,10,15,20dB 同じ話者の異なる単語の発声 異なる話者の同じ単語の発声 蝸 牛 時 点 Spike Pattern 6
Hierarchical Spiking neural network (HSNN)(2) • Modified leaky integrate-and –fire (LIF) neuronの動作 • 𝑙 + 1層のLIF Neuron 𝑛のintracellular電圧: 𝐸 𝐼 𝑣𝑙+1,𝑛 𝑡 = σ𝑚 𝑤𝑙,𝑚,𝑛 ・ℎ𝐸𝑃𝑆𝑃 𝑡 ∗ 𝑠𝑙,𝑚 𝑡 − β σ𝑚 𝑤𝑙,𝑚,𝑛 ・ℎ𝐼𝑃𝑆𝐸 𝑡 ∗ 𝑠𝑙,𝑚 (𝑡) • 同intercellularに流れ込む電流注入量:𝑖𝑙+1,𝑛 𝑡 = 𝑣𝑙+1,𝑛 𝑡 ∗ ℎ−1 𝑡 + 𝑧(𝑡) • そのLIF neuronが励起する条件: 𝑖𝑙+1,𝑛 𝑡 ∗ ℎ−1 𝑡 = 𝑣𝑙+1,𝑛 𝑡 + 𝑧 𝑡 ∗ ℎ(𝑡) 𝑤ℎ𝑒𝑛 𝑣𝑙+1,𝑛 𝑡 + 𝑧 𝑡 ∗ ℎ(𝑡) ≥ 𝑁𝑡 = 0 𝑤ℎ𝑒𝑛 𝑣𝑙+1,𝑛 𝑡 + 𝑧 𝑡 ∗ ℎ(𝑡) < 𝑁𝑡 • 𝑠𝑙,𝑚 𝑡 : 𝑙層 𝐿𝐼𝐹 mのpresynaptic spike列 • ℎ𝐸𝑃𝑆𝑃 𝑡 :Exitatory 時間カーネル関数 • ℎ𝐼𝑃𝑆𝐸 𝑡 :Inhibitor時間カーネル関数 𝐸 ・ 𝑤𝑙,𝑚,𝑛 :excitatory NN係数 𝐼 ・ 𝑤𝑙,𝑚,𝑛 :inhibitor NN係数 1 • ℎ(𝑡): 𝑒 −𝑡Ττ 𝑢 𝑡 細胞膜の時間インパルス応答,𝑢 𝑡 :ステップ応答, τ = τ𝑙 𝑐 • 𝑁𝑡 :(𝑉𝑇 − 𝑉𝑟 )/σ𝑉,𝑙 励起電圧閾値,𝑉𝑇 : −45𝑚𝑉 閾値, 𝑉𝑟 : −65𝑚𝑉 細胞膜弛緩電位 7
Hierarchical Spiking neural network (HSNN)(4) • 6層HSNNの出力:Spike Pattern • 時間-周波数での励起強度パターン: r ∈ 𝑅𝑁 ∗𝑀 , 𝑟 = { 𝑟𝑛,𝑖 } = {0,1}:neuron n, 時間𝑖の出力 • 分類器:ベルヌーイ ナイーブ ベイズ分類器 • 𝑟:パターン800個を学習パターン:799個,Validationデータ:1個として、800回の Cross Validationを行い、ベイズ分類器を学習と認識率を得る。 • 数字のカテゴリ𝑦とした時、学習は以下の𝑝𝑑,𝑛,𝑖 を学習して求める. 𝑟 𝑛,𝑖 𝑦 = argmax ς𝑛,𝑖 𝑝𝑑,𝑛,𝑖 ・ 1 − 𝑝𝑑,𝑛,𝑖 1−𝑟𝑛,𝑖 𝑑={0,⋯9} ここで、𝑝𝑑,𝑛,𝑖 は、ベイズ尤度(特定の数字𝑑が𝑠𝑝𝑖𝑘𝑒(1)を特定の時間空間ビン (neuron 𝑛で時間𝑖で)生成する確率)である. 8
シミュレーションの目的 • HSNNをノイズ環境下で単語認識で学習したとき、HSNNの各層の時間 的解像度、周波数的解像度、励起電圧閾値の相対的な変化が、聴覚生理 学で階層的聴覚路で見られるそれらに相当する変化に、類似の傾向を持 つかを評価したい. • 具体的には、τ1 ,σ1 ,𝑁1 を与えられた定数として τ𝑙 = τ1 ・α𝑙−1 σ𝑙 = σ1 ・γ𝑙−1 𝑁𝑙 = 𝑁1 ・λ𝑙−1 とした時,単語認識が最大になるα,γ,λの値を求める. • この値が、聴覚生理学で階層的聴覚路で見られる,それらの変化の傾向 と合致しているかを確認する. 9
評価方法 SNRを 選ぶ α,γ,λを選ぶ そのSNRの, 数字10単語x8話者x10回発声=800発声 を使う.799発声を学習データとして 𝑝𝑑,𝑛,𝑖 を学習したのちに,1発声を Validationデータにして認識率を得る.799 対1の組み合わせを順に変えて800回の Cross Validationで認識率の平均を得る. 最も高い認識 率を出すα,γ, λ の組をその SNRでの Optimal model と呼ぶ. 10
評価結果(1) 学習の結果 α≈ 2, γ ≈ 1, λ ≈ 1 がすべてのSNRに対し て言える 時間解像度が上 層になるに従い、 時間分解は低く なる.周波数解 像度と励起電圧 閾値は不変 11
評価結果(2) 学習済 モデル のデータ 学習モデルの STRFの特性の傾 向が猫の聴覚生 理学データと類 似している 猫の聴覚 の生理学 データ 12
まとめ • 雑音環境下でも聴覚は音声聞き取り能力がある. • 階層的聴覚路(内耳~聴覚大脳皮質) をHierarchical Spiking neural networkでモデル化して,同環境下の単語認識の正解率が最適になるよう に学習したとき,時間分解能(τ𝑙 ),周波数選択性(σ𝑙 ),励起電圧閾値(𝑁𝑙 ) の層間の変化を示すハイパーパラメータ,α,γ,λは,α ≈ 2,γ ≈ 1, λ ≈ 1となり,τは緩和し、σとNは変化が無いことが分かった.これは, 聴覚生理学で見られる傾向と類似している. • Hierarchical Spiking neural networkから計算した各層の周波数時間受容野の、 時間分解能,時間遅延,周波数分解能は、猫の階層的聴覚路で得た該当 値と傾向が類似している • よって、雑音環境下での聴覚の特性は、 同環境下で言語の認知を得る過 程で形成されると考えられる 13
END 14