[DL輪読会]音声言語病理学における機械学習とDNN

101 Views

July 31, 20

#deep learning #Deep Learning #Speech Pathology #Machine Learning #Voice Disorders #Feature Extraction

スライド概要

2020/07/31
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 84.7K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 54.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 38.8K

【拡散モデル勉強会】拡散モデルのサンプラーまとめ

Deep Learning JP 33.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 32K

各ページのテキスト

DEEP LEARNING JP [DL Papers] 音声言語病理学における機械学習とDNN Haruka Murakami, Matsuo Lab http://deeplearning.jp/

http://deeplearning.jp/

A Survey on Machine Learning Approaches for Automatic Detection of Voice Disorders 他4本を読みました。 • Journal of Voice(2019) • Sarika Hegde , *Surendra Shetty, *Smitha Rai, and †Thejaswi Dodderi, *Udupi, and yMangaluru, India • 内容：近年の音声言語病理学(Pathological voice)における機械学習を用いた音声障害の検出の様々な事例を紹介 • 選定理由：コンピューター発声にコンテキストを付けたいと思っており、現状どんな研究があるかを調べたかった、肺へのダメージを測れる研究があったりするのかを知りたかった 2

Vocology = Voice + Biology • 音声言語病理学という分野らしい • 発声には肺、声帯を要として各種呼吸器系器官が関わる他、言語にする際には脳の働きも関わってくるため、発声音声の診断は単に喉の健康状態の測定だけでなく、様々な病気を検知できる可能性がある http://gc.sfc.keio.ac.jp/class/2002_14630/slides/10/35.html 3

http://gc.sfc.keio.ac.jp/class/2002_14630/slides/10/35.html

Voice disorder • 定義：年齢、性別、社会集団が同じような声と “質”、”音程”、”大きさ”、”滑らかさ”が解離しているもの • 例：声帯病変ーコミュニケーションに影響 – 対処：音声療法の基本は、発声時の喉頭筋と喉頭上筋の緊張を最適化することで、発声効率を改善し、声帯病変の改善を図ること • 課題：従来の診断ではビデオ検査や喉頭鏡検査/ストロボスコピーなどの侵襲的な検査をしているが実施が難しくコストも高い。 • →音響的・知覚的特徴をプロファイリングする(1980年代初頭〜) – 音声治療前後のパフォーマンスの変化を比較するための効率的なツールになる – 自動音声認識システムのための音声データベースの開発にも役立つ 4

具体的な病変種別 • 様々な声帯病変の中でも、重層的な声帯への音の外傷的な影響により、集団性の病理学的疾患が非常に多く見られる。持続的な組織の炎症や外部からの影響により、しばしば声帯結節や声帯ポリープが発生する。声帯の閉鎖は不完全であり、発声効率が悪く、嗄れる • 逆に、筋緊張性発声障害や機能性発声障害のように、声帯の病変はないが、声帯疲労、声質の低下、喉頭緊張の亢進などが観察される。 • 適応症状：パーキンソン病(PD)、喉頭病理、口唇口蓋裂(CLP)、結節、ポリープ、角化症、内転子など 5

(参考)声に表れる障害種別 • コミュニケーション学的障害 – 音声障害、言語障害、社会的コミュニケーション障害、認知コミュニケーション障害、嚥下障害の5つに分類される • 音声障害分類マニュアルによると、声帯の機能亢進・機能低下の病態は – – – – – – – – – – – (i)声帯結節、声帯ポリープなどの構造的病変 (ii)急性喉頭炎などの炎症性疾患 (iii)外傷や外傷に基づくもの (iv)甲状腺機能亢進症や甲状腺機能低下症などの全身性疾患 (v)逆流障害や気管支炎などの非喉頭気道消化器疾患 (vi)精神医学的・心理学的疾患これらの疾患は、声帯が機能的に変化しているものに分類されています。 (vii) 神経学的疾患例えば、内転子麻痺、外転子麻痺、外転子麻痺、および痙攣性発声障害、（８）筋電図のようなその他の障害 (ix) 診断されていないが、それ以外は特定されていない。 6

よく行われている従来手法(ML)の処理 • １．専門家が音声データ(各ファイル)に(正常/病的)のラベル付け • ２. 各ファイルの生の音声データを短いフレームに分割、各フレームを処理して特徴量を抽出 • ３．その抽出された特徴量を入力として利用 • 訓練データとテストデータはランダムで分割 • モデルの性能評価：分類精度 • 使用データベース：Massachusetts Eye and Ear Infirmary (MEEI)、 Saarbruecken Voice Database (SVD)、Arabic Voice Pathology Database (AVPD)などの標準的なデータベースを利用している研究者が多い – 録音された音声には、母音の持続音韻と連続音韻のどちらかが含まれている。 7

特徴抽出方法(１) • 音響分析とは、音声に含まれる音の情報を測定することです。音響分析の結果は、音声障害の重症度を測定するために使用することができる。音声信号の音響分析に関連する測定方法のいくつかは以下の通りである。 • (i) 基本音程の周期とピーク振幅の摂動。 • (ii) 信号に含まれる音声ノイズ。 • (iii)周期的な波形の変動。 • (iv) 平均周波数特性。 • (v) 信号の遷移特性。 • Multidimensional Voice Program (MDVP)という音響解析のための標準的なソフトウェアで33個の音声パラメータ(周波数依存、強さ、ノイズ由来の要素など）を推定できる 8

特徴量抽出(２)：MFCCについて • 旋律周波数ケプストラル係数（MFCC）は、人間の聴覚系の知識を利用した標準的な特徴抽出法 • 1フレーム12,13のMFCC特徴量を抽出するための一般的な手順は • i. 離散フーリエ変換係数の計算 • ii. メル間隔をおいた三角フィルタによるフィルタリング • iii. サブバンドエネルギーの計算 • iv. 離散余弦変換係数の計算 9

10.

特徴量抽出(３)：線形予測係数 • 線形予測(LP)分析では、最初のステップとしてソース信号を逆フィルタリング • ソース信号は、スペクトルを計算するために使用 • 計算されたスペクトルは、正常声と病的声の両方のエネルギー分布を調べるために利用 • LPの数はのLP分析では、係数が重要な要素の一つとなっています。 • フォルマントピークを決定するためになぜなら • これにより、音声信号からのフォルマントの効果を正確に推定することができます。 10

11.

特徴量抽出(４)： • 離散ウェーブレット変換 – 音声を周波数領域に変換、時間ー周波数の解析を行う。病的な声の高域特性の解析も可能 • 声門流量信号のパラメータ – 音声信号の逆フィルタリングを行うことで、声道の影響や口からの音声放射を除去して、音声信号の特性を保持することで、声門流信号を得ることができます。 • 次元削減 – (i) 主成分分析（PCA） (ii) 線形判別分析（LDA) (iii) 遺伝的アルゴリズム – (iv) 高次特異値分解 (v) Relief – (vi) Minimum redundancy maximum relevance (vii)フィッシャー識別率? （FDR) 11

12.

従来のMLの手法など • 隠れマルコフモデル(HMM)、ガウス混合モデル(GMM)、サポートベクターマシン(SVM)、人工ニューラルネットワーク(ANN)、決定木、林耳分類器、K-meansクラスタリング、複合分類器など. • ChildersとBae18は、喉頭病理を検出するための2つの方法を開発した。(1)線形予測符号化(LPC) ベクトルとVQを用いたピッチ同期および非同期メタッドを用いたスペクトル歪み測定法、(2)時間間隔と振幅差測定法を用いた電気喉頭蓋計(EGG)信号の分析法。精度は75.9%と69.0%。 • (Cairns,)Teager Energy Operatorと呼ばれる非線形演算子に基づいて、音声中の高次性を検出する非侵襲的手法。確率分布関数に基づいて正常音声と超鼻声を分類。最大分類精度は94.7%。 • (Accardo and Mumolo) フラクタル次元パラメータ，エネルギー比，ゼロクロス特徴量を用いたアルゴリズムを記述し、これらの特徴量の分散行列を用い、正常音声と病的音声を比較。フラクタル次元、エネルギー比、ゼロ交差特徴量はそれぞれ96.1%、92.1%、94.1%の分類精度 • (Parsa and Jamieson)は、健常声と病的声を分類するための特徴量として、信号対雑音比、高調波対雑音比[HNR]、雑音エネルギー、周波数領域HNR、ピッチ増幅度、スペクトル平坦度比を検討した。本研究では、(i)測定値の確率分布、(ii)測定値の順位、(iii)各測定値の受信動作特性を比較することで、2つの異なるクラスの測定値を分類した。得られた最高の分類率は96.5%でした。 Hadjito- dorovら22は、正常話者と病的話者の入力ベクトルの確率密度関数をプロトタイプ分布図（PDM）を用いてモデル化したアプローチを提案し、95.1%の分類精度を達成しました。この際、ピッチ周期、ピッチパルスの形状、HNR、低高エネルギー比などの特徴を利用している。 12

13.

近年の主要な研究 • 殆どSVMと混合ガウスモデル(GMM) • DNNを使った研究は１件＋ハイブリッドタイプで１件 13

14.

Voice Pathology Detection Using Deep Learning: a Preliminary Study (Harar, 2018) • 使用データセット：Saarbruecken Voice Database • 687人の健康体の成人（女性428人、男性259人）と、71 の異なる病態のうち1つ以上を罹患している1356人の患者（女性727人、男性629人）の録音 • 母音 /i/, /a/, /u/ は、正常、高音、低音での録音、音程の立上がり/下がりをチェック • - センテンス "Guten Morgen, wie geht es Ihnen?" • 持続母音のサンプルはすべて1~3秒の長さで、50kHzで 16ビットの分解能でサンプリング 14

15.

(参考：A prospective multicentre study testing the diagnostic accuracy of an automated cough sound centred analytic system for the identification of common respiratory disorders in children） • 自動咳嗽音分析装置を用いた小児呼吸器疾患の診断精度調査 • 方法： • 典型的な臨床環境での咳嗽音を記録し，最初の5回の咳嗽を解析に用いた．解析は、咳データと、患者/保護者が報告した病歴から得られた最大5つの症状入力を用いて行われた。自動咳嗽分析装置による診断と、病院のカルテと利用可能なすべての調査を検討した後に小児科医のパネルによって得られたコンセンサスのある臨床診断との間で比較を行った。アルゴリズムは時間遅延ニューラルネットワークでメル周波数セプストラル係数(MFCC)を認識。＊DNNではない。 • 結果： • 29 日齢から 12 歳までの合計 585 名の被験者で実験。自動分析装置と臨床基準との間の正の一致率と負の一致率は：喘息（97, 91%）、肺炎（87, 85%）、下気道疾患（83, 82%）、クループ（85, 82%）、気管支炎（84, 81%）。 15

16.

23ページに渡るサーベイ論文だったが・・・ • 2018年までの135件ある引用文献のうちDNNは殆どなく、一件だけ？ • 音声言語病理学分野の自動音声障害検出は、殆どが音声の特徴量抽出手法に焦点を当てたものでSVMが主流、次点で混合ガウスモデル(GMM) • DNNを用いた研究は非常に少ないらしい • 筆者曰く、大規模な病声データベースが利用できないことがこの分野で DNNの研究が進んでいない原因であり、SVMが多用されているのもデータ不足が大きな原因だそう • さらに既存の研究では一見精度が高いように見えるが、特徴量設計が人手でデータセット外の環境では精度が出ない可能性が高い • 感想：狭い分野とは言え、ここまでDeep Learningの研究が少ない分野があるとは思っていなかった。改めてデータセットの大事さを再認識した。 16

17.

A deep learning method for pathological voice detection using convolutional deep belief networks • Wu, Huiyi and Soraghan, John and Lowit, Anja and Di Caterina, Gaetano (2018) , Interspeech • 「病理学的音声障害の検出分野ではDNNの研究はあまり行われていない」 • 大規模データセットがないため。そこで、大域最小値を正確に達成するための事前学習DNNのための教師なし手法としてRestricted Boltzmann Machine (RBM)を利用する。 • 提案手法：正常音声と病的音声のspectrogramを入力とするCNNを基本としたアーキテクチャ。過学習を防ぐため、最初にCDBNでCNNの重みを事前学習する。 17

18.

A deep learning method for pathological voice detection using convolutional deep belief networks • CDBNは重みを初期化し、システムをより強固にできるが、ロバスト性と精度はトレードオフの関係にあるという課題は依然として残る。 18

19.

肺炎を声から診断する研究はあったのか？ • Coswara -- A Database of Breathing, Cough, and Voice Sounds for COVID-19 Diagnosis (Sharma 2020) – COVID-19は咳と呼吸困難が顕著な症状だとして、呼吸音（咳。呼吸、音）のデータベースCoswaraを作成中。クラウドソーシングで収集中。 – 「呼吸器感染症では呼吸器系の物理構造変化が起こるため、咳音から病状分離が可能」 – 音声データは：呼吸(浅い/深い)、咳(軽い/キツい)、母音の持続音韻(æ I u:)、1~20桁までのカウント(普通に/速く) – 百日咳や慢性閉塞性疾患、結核菌などに関しての研究は既に他の研究で試みられており、喘息等の検知で精度の高いものが存在（DNNではない） – COVID-19の検出・診断に関してはケンブリッジ、CMU、Wadhwani AI Institute、 EPFLのプロジェクトで研究中ちなみに、arXivで4月時にはなかったこんな憑依jがされるようになっていた 19