実環境を見据えた音による行動認識モデルの精度向上に関する一検討

272 Views

April 13, 26

#行動認識 #高齢者見守り #音響イベント検出 #半教師あり学習 #エッジAI

スライド概要

卒業論文をまとめ, NS研究会にて発表した際の資料です.

custard

@custard-1855

スライド一覧

東洋大学 INIADの院生です. 機械学習を頑張る予定です.

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

Sinkhorn_Distances_0705

custard 109

学振特別研究員になるために～2025年度申請版

学振 dc1 dc2 jsps pd

大上雅史 840.7K

ZAZA株式会社_会社紹介

ZAZA株式会社 502.3K

StampFlyで学ぶマルチコプタ制御

伊藤恒平 388.1K

研究に使える便利なフリーソフト ImageJ

imagej 放射線技師

片山豊 370.3K

東京大学 3Dスキャン勉強会 - フォトグラメトリ」

フォトグラメトリ vr 3dデジタルアーカイブ

龍 lilea 316.9K

各ページのテキスト

実環境を見据えた音による行動認識モデルの精度向上に関する一検討竹本志恩、川原亮一東洋大学情報連携学部情報連携学科本研究内容は、文献[1]での学会発表内容である。また、本資料内での図面のうち、モデル構成や精度の表についての出典は、[1]でのFig.3及びTable 3である。 [1] 竹本志恩, 川原亮一, “実環境を見据えた音による行動認識モデルの精度向上に関する一検討,” 信学技報, vol. 125, no. 385, NS2025-226, pp. 31-36, 2026 年 3 月.

背景: 高齢者見守り課題少子高齢化で介護負担が増大解決法高齢者の自立生活支援を行動認識で実現入力応用行動認識センサ自立的な生活大まかな流れ 2

要素技術: 行動認識行動認識センサの情報で行動を推定想定される応用 • 行動認識の結果から様式を把握 • 時系列予測を行い、行動様式からの逸脱を検知入力結果取得行動認識センサ応用行動様式を把握異常検知生活改善大まかな流れ 3

なぜマイク? 主な理由 • 他センサを補完 • 音を加味した行動認識を実現ユースケース • 浴室や洗面所などの異常検知 • カメラの監視が難しい場所を想定 • ウェアラブル以外の選択肢を提案 4

研究の目標全体: 自立生活支援 • 家庭用の異常検知システムを構築 • エッジデバイスでの推論・学習が重要本研究: パラメータ以外の精度向上 • 事前学習済みモデルを一つに限定 • モデルのパラメータを増やさずに精度向上 • 半教師あり学習、ドメイン汎化の変更を提案 5

要素技術: 行動認識行動認識 • センサの情報で行動を推定 • 主流なセンサは2つ: ウェアラブル、カメラウェアラブル • • • 常に監視可能認知的懸念 • 未装着・充電装着への抵抗カメラ • • 情報が豊富被監視感 • 死角や暗所での精度低下マイク • 左課題を解消 • 環境要因で精度低下センサの利害得失 6

要素技術: 行動認識ウェアラブル先行研究[2][3]は慣性センサで転倒を検知ウェアラブル • • • 常に監視可能認知的懸念 • 未装着・充電装着への抵抗カメラ • • 情報が豊富被監視感 • 死角や暗所での精度低下マイク • 左課題を解消 • 環境要因で精度低下 [2] S. Badgujar and A. S. Pillai, "Fall Detection for Elderly People using Machine Learning," 2020 11th International Conference on Computing, Communication and Networking Technologies (ICCCNT), Kharagpur, India, 2020. [3] M. Nouredanesh, K. Gordt, M. Schwenk and J. Tung, "Automated Detection of Multidirectional Compensatory Balance Reactions: A Step Towards Tracking Naturally Occurring Near Falls," in IEEE Transactions on Neural Systems and Rehabilitation Engineering, vol. 28, no. 2, pp. 478-487, Feb. 2020. 7

要素技術: 行動認識カメラ RGB、深度センサ、それらの統合が存在先行研究[4]は視覚情報から人の動作 (歩く、しゃがむ…)を推定ウェアラブル • • • 常に監視可能認知的懸念 • 未装着・充電装着への抵抗カメラ • • 情報が豊富被監視感 • 死角や暗所での精度低下マイク • 左課題を解消 • 環境要因で精度低下 fi [4] N. Zerrouki, F. Harrou, Y. Sun and A. Houacine, "Vision-Based Human Action Classi cation Using Adaptive Boosting Algorithm," in IEEE Sensors Journal, vol. 18, no. 12, pp. 5115-5121, 15 June15, 2018. 8

要素技術: 行動認識マイク先行研究[5]は浴室の活動を音で分析 • 蛇口、シャワー、水洗トイレの音を学習、評価 • 推論は二段階: 1. 水かそれ以外か、 2. 水なら3つの内どれかウェアラブル • • • 常に監視可能認知的懸念 • 未装着・充電装着への抵抗カメラ • • 情報が豊富被監視感 • 死角や暗所での精度低下マイク • 左課題を解消 • 環境要因で精度低下 [5] S.H. Hyun, “Sound-event detection of water-usage activities using transfer learning,” Sensors, vol.24, no.1, p.22, 2023. 9

10.

要素技術: 行動認識マイク先行研究[5]と本研究の違い • 識別対象: [5]は水に限定 • 利用空間: [5]は浴室に限定 • 本研究ではより広範な利用を検討 • 目指すのは音の文脈を汲んだ行動認識 [5] S.H. Hyun, “Sound-event detection of water-usage activities using transfer learning,” Sensors, vol.24, no.1, p.22, 2023. 10

11.

要素技術: 行動認識実環境の課題雑音や音響の程度で精度低下具体タスクは音響イベント検出ウェアラブル • • • 常に監視可能認知的懸念 • 未装着・充電装着への抵抗カメラ • • 情報が豊富被監視感 • 死角や暗所での精度低下マイク • 左課題を解消 • 環境要因で精度低下センサの利害得失 11

12.

要素技術: 音響イベント検出音響イベント検出 Sound Event Detection, SEDで行動認識音から以下を推定 • イベントの種類 • 開始・終了時刻種類ドアの開閉流水時刻開始終了 12

13.

要素技術: 行動認識実環境の課題例 • 同時に生じる複数の音を入力に、行動を推定 • 下図では換気扇の音で推論精度が低下入力出力モデル対象 (足音) 足音? 雑音 (換気扇) 雑音の精度への影響 13

14.

先行実装: ベースライン先行実装 • • 1 DCASE は実環境でのSEDを目指す取組み 2 2024 task4の基準モデルが本研究の先行実装 Input Audios BEATs pooling / interpolation CNN TCN N ⇥ 768 concat TCN N ⇥ 128 BiGRU TCN N ⇥ 128 モデル構成図 Linear TCN N ⇥ 384 TCN N ⇥ 27 TP T ⇥ 768 T: フレーム数 1. Detection and Classi cation of Acoustic Scenes and Events, SEDのコンペディション 2. https://github.com/DCASE-REPO/DESED_task/tree/master/recipes/dcase2024_task4_baseline fi 14

15.

先行実装: ベースライン先行実装アーキテクチャ • CRNN (CNN + RNN) を採用 • 事前学習済みモデルBEATs [6]を特徴抽出に使用 • 音声向けTransformerを用いるフレームワーク • 大量の未ラベルデータで音の意味と文脈を学習 Input Audios BEATs pooling / interpolation CNN TCN N ⇥ 768 concat TCN N ⇥ 128 BiGRU TCN N ⇥ 128 モデル構成図 Linear TCN N ⇥ 384 TCN N ⇥ 27 TP T ⇥ 768 T: フレーム数 [6] S. Chen, Y. Wu, C. Wang, S. Liu, D. Tompkins, Z. Chen, and F. Wei, “BEATs: Audio pre-training with acoustic tokenizers,” arXiv:2212.09058, 2022. 15

16.

先行実装: Mean Teacher Mean Teacher, MT [7] • • ラベルなしデータを活用する半教師あり学習通常モデルの指数移動平均が教師 θ′t = αθ′t−1 + (1 − α)θt (t: ステップ数、α: 平滑化係数) • 通常の損失ラベル一貫性損失擬似ラベル予測指数移動平均ラベルあり通常モデル重み θt 教師重み θ′t [7] A. Tarvainen and H. Valpola. Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results. Advances in neural information processing systems 30 (2017). ラベルなし 16

17.

先行実装: Mean Teacher Mean Teacher, MT [7] • 教師予測の質が学習の質に直結通常の損失ラベル一貫性損失擬似ラベル予測指数移動平均ラベルあり通常モデル重み θt 教師重み θ′t ラベルなし [7] A. Tarvainen and H. Valpola. Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results. Advances in neural information processing systems 30 (2017). 17

18.

先行研究: Con dent Mean Teacher Con dent Mean Teacher, CMT [8] • 教師予測 y > 0.5のみ使用 • 当環境では一部精度が低下も[8]では向上通常の損失ラベル一貫性損失擬似ラベル予測 > 0.5 指数移動平均ラベルあり通常モデル教師ラベルなし [8] S. Xiao, X. Zhang, and P. Zhang. Multi-dimensional frequency dynamic convolution with con dent mean teacher for sound event detection. ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE. 2023, pp. 1–5. fi fi fi 18

19.

提案手法: CMT 改良手法 CMTの問題 • 予測 y <= 0.5が未使用 • 「イベントなし」の学習が困難二段階閾値を導入 • y => 0.7、0.3 =< yを使用負例正例確率 0 0.3 0.7 1 19

20.

先行研究: MixStyle MixStyle [9] • データ拡張の一種 • 環境要因による精度低下を防止処理の概要 • 入力の平均 μ・分散 σを計算し、λに従い混合 • 本研究では周波数方向に計算入力 1 μ1, σ1 入力 2 μ2, σ2 ··· ··· μ̃ = λμ1 + (1 − λ)μ2 ··· [9] K. Zhou, Y. Yang, Y. Qiao, and T. Xiang. Domain generalization with mixstyle. arXiv preprint arXiv:2104.02008 (2021). 20

21.

先行研究: 周波数重み付きMixStyle 先行研究 [10]は注意機構と統合 1. 入力複数の特徴量を入力 2. 注意機構周波数方向の重要度を取得 3. MixStyle 複数の特徴量を混合 [10] Y. Xiao, H. Yin, J. Bai, and R. K. Das. FMSG-JLESS submission for DCASE 2024 task4 on sound event detection with heterogeneous training dataset and potentially missing labels. arXiv preprint arXiv:2407.00291 (2024). 21

22.

提案手法: CNNでの周波数重み付け提案の工夫 • 注意機構をCNNに簡素化 • 特徴量の和で情報損失を防止 1. 入力複数の特徴量を入力 2. CNN 周波数方向の重要度を取得 3. MixStyle 複数の特徴量を混合 4. 残差接続入力及び加工後特徴量を加算 22

23.

提案のまとめ適用箇所 • MixStyle: 学習初期 • CMT: 損失計算~更新時 1. 入力 MixStyleを適用 2. CRNN 1,2層目の畳み込みでMixStyle 3. 損失計算ラベルあり・なしで計算 4. 更新教師及び生徒モデルを更新 23

24.

評価指標評価対象 • • 時刻推定クラスドアの開閉流水 21クラス分類時刻データセットとの対応 • 開始終了 DCASE 2024 task4に準拠 1 • DESED [11, 12]: PSDS [13] • MAESTRO Real [14]: mpAUC fi 1. Domestic Environment Sound Event Detection Dataset [11] N. Turpault, R. Serizel, A. P. Shah, and J. Salamon. Sound event detection in domestic environments with weakly labeled data and soundscape synthesis. Workshop on Detection and Classi cation of Acoustic Scenes and Events. 2019. [12] R. Serizel, N. Turpault, A. Shah, and J. Salamon. Sound event detection in synthetic domestic environments. ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE. 2020, pp. 86–90. [13] Ç. Bilen, G. Ferroni, F. Tuveri, J. Azcarreta, and S. Krstulović. A framework for the robust evaluation of sound event detection. ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE. 2020, pp. 61–65. [14] I. Martín-Morató and A. Mesaros. Strong labeling of sound events using crowdsourced weak labels and annotator competence estimation. IEEE/ACM transactions on audio, speech, and language processing 31 (2023), pp. 902–914. 24

25.

評価指標混同行列 • 表は犬の鳴き声 (クラスc) の検出例 • 性能評価のため、TPとFPの割合を使用 • TPR (True Positive Rate): TP • TPR = TP + FN FPR (False Positive Rate): FP • FPR = FP + TN • 予測/ 正解ラベル犬 (正解) 犬以外犬 TP (True Positive) FN (False Negative) 犬以外 FP TN 25

26.

評価指標 ROC曲線 • 予測確率に対し、どこから正解とするか? • 閾値ごとのTP/FPを可視化 • • 甘め: 誤報の可能性 • 厳しめ: 見逃す可能性低FPR+高TPRが理想 26

27.

評価指標 AUC (Area Under the Curve) ROC曲線下面積を指す。1.0に近づくほど良好 27

28.

評価指標 mpAUC (macro-averaged partial AUC) • • Partial: 実用上の要請に基づき、FPRの範囲を限定 • 誤報を抑制 • DCASE 2024では0.0~0.1 • 評価時は0.1で正規化 macro-averaged: • 全クラスの平均 28

29.

評価指標 PSDS (Polyphonic Sound Detection Score) • クラスcの予測について • 正解ラベルと予測の時間的重複の割合でTP/FPを決定 TP or FP • 重なりの割合が閾値を超過 • ̂ 他クラスcの正解ラベルと重複するFP • CT: クロストリガー • 例: 犬の鳴き声をサイレンと誤認 CT 29

30.

評価指標 PSDS (Polyphonic Sound Detection Score) • ある閾値におけるクラスcの有効FPR (eFPR) 1 e* + αCT R* c ≜ R* FP,c CT,c,c ̂ | C | − 1 c∑ ̂∈C ĉ ≠ c • R* : データセット総時間当たりのFP数 FP,c • R* CT,c,c ̂ : 他クラスの正解ラベルの総時間当たりのCT数 • αCT : CTに対するペナルティ 30

31.

評価指標 PSDS (Polyphonic Sound Detection Score) • 任意のeFPR (横軸の位置) について • クラスごとの精度で有効TP率 (eTPR)を算出 r(e) ≜ μTP(e) − αST * σTP(e) • μTP : 平均TPR • σTP : 検出精度のクラス間のばらつき (標準偏差) • αST : 特定クラスの精度が極端に低いとペナルティ 31

32.

評価指標 PSDS (Polyphonic Sound Detection Score) • 右図はPSD-ROC曲線 • 曲線化の面積 (AUC) を計算し、システムの性能を評価 https://github.com/j-bernardi/psds_eval 32

https://github.com/j-bernardi/psds_eval

33.

評価指標 PSDS (Polyphonic Sound Detection Score) シナリオ1と2の違い: • 1は時間的正確性を重視 • • 正解と予測の時間的重複の判定が厳密 2は誤報を抑止 • 時間的な判定は緩め • 誤検出のペナルティ (αCT) が重い 33

34.

実験: CMT • 提案はPSDS1を維持、PSDS2を改善 • 負例利用でイベントのない区間での認識が改善 • mpAUCは低下 0.8 先行実装先行研究提案手法 0.6 0.4 0.2 0 PSDS1 PSDS2 mpAUC 34

35.

実験: CMT クラス別精度 - 向上 • 5%前後の変化を抜粋 • 長く持続する音で向上 1 先行実装先行研究提案手法 0.75 0.5 0.25 0 Blender wind̲blowing PSDS2 mpAUC 35

36.

実験: CMT クラス別精度 - 低下 • 5%前後の変化を抜粋 • 瞬間的な音の持続で低下 0.9 先行実装先行研究 Dishes Car horn 提案手法 0.675 0.45 0.225 0 PSDS2 Metro approaching mpAUC 36

37.

実験1. クラス別精度 5%>の変化 • 向上は青、低下は赤 37

38.

実験: MixStyle • CNNで精度向上 • 原因: 残差接続で一貫性の制約が強化 • 重み付けは実装の不備で未機能 0.8 CNNなし CNNあり 0.6 0.4 0.2 0 PSDS1 PSDS2 mpAUC 38

39.

実験: CMT+MixStyle • 提案は先行実装より精度向上 • 先行研究との差は0.004~0.006 • MixStyleはCMTより影響が強い可能性 0.8 先行実装先行研究 PSDS1 PSDS2 提案手法 0.6 0.4 0.2 0 mpAUC 39

40.

まとめ提案は精度向上 • CMTの改良 • MixStyleのCNN統合課題 • CMT+MixStyleの学習の収束 • モデル軽量化 40

41.

参考文献 [1] 竹本志恩, 川原亮一, “実環境を見据えた音による行動認識モデルの精度向上に関する一検討,” 信学技報, vol. 125, no. 385, NS2025-226, pp. 31-36, 2026 年 3 月. [2] S. Badgujar and A. S. Pillai, "Fall Detection for Elderly People using Machine Learning," 2020 11th International Conference on Computing, Communication and Networking Technologies (ICCCNT), Kharagpur, India, 2020. [3] M. Nouredanesh, K. Gordt, M. Schwenk and J. Tung, "Automated Detection of Multidirectional Compensatory Balance Reactions: A Step Towards Tracking Naturally Occurring Near Falls," in IEEE Transactions on Neural Systems and Rehabilitation Engineering, vol. 28, no. 2, pp. 478-487, Feb. 2020. [4] N. Zerrouki, F. Harrou, Y. Sun and A. Houacine, "Vision-Based Human Action Classi cation Using Adaptive Boosting Algorithm," in IEEE Sensors Journal, vol. 18, no. 12, pp. 5115-5121, 15 June15, 2018. [5] S.H. Hyun, “Sound-event detection of water-usage activities using transfer learning,” Sensors, vol.24, no.1, p.22, 2023. [6] S. Chen, Y. Wu, C. Wang, S. Liu, D. Tompkins, Z. Chen, and F. Wei, “BEATs: Audio pre-training with acoustic tokenizers,” arXiv:2212.09058, 2022. [7] A. Tarvainen and H. Valpola. Mean teachers are better role models: Weight-averaged consistency targets improve semisupervised deep learning results. Advances in neural information processing systems 30 (2017). [8] S. Xiao, X. Zhang, and P. Zhang. Multi-dimensional frequency dynamic convolution with con dent mean teacher for sound event detection. ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE. 2023, pp. 1–5. [9] K. Zhou, Y. Yang, Y. Qiao, and T. Xiang. Domain generalization with mixstyle. arXiv preprint arXiv:2104.02008 (2021). [10] Y. Xiao, H. Yin, J. Bai, and R. K. Das. FMSG-JLESS submission for DCASE 2024 task4 on sound event detection with heterogeneous training dataset and potentially missing labels. arXiv preprint arXiv:2407.00291 (2024). [11] N. Turpault, R. Serizel, A. P. Shah, and J. Salamon. Sound event detection in domestic environments with weakly labeled data and soundscape synthesis. Workshop on Detection and Classi cation of Acoustic Scenes and Events. 2019. [12] R. Serizel, N. Turpault, A. Shah, and J. Salamon. Sound event detection in synthetic domestic environments. ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE. 2020, pp. 86–90. [13] Ç. Bilen, G. Ferroni, F. Tuveri, J. Azcarreta, and S. Krstulović. A framework for the robust evaluation of sound event detection. ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE. 2020, pp. 61–65. [14] I. Martín-Morató and A. Mesaros. Strong labeling of sound events using crowdsourced weak labels and annotator competence estimation. IEEE/ACM transactions on audio, speech, and language processing 31 (2023), pp. 902–914. fi fi fi 41

42.

付録1. 音による行動推定想定される見守り • 浴室や洗面所などの異常検知 • カメラの監視が難しい場所を想定 • ウェアラブル以外の選択肢を提案提案の精度 • 付録1より、提案は概ねCMTより精度向上 • 特に流水と足音、風の吹く音での精度が良好 • 異常検知の前段として良好 42

43.

付録2. エッジ向けの検討パラメータ削減 • MT以外の半教師あり学習 • タスク変更: 種類のみ分類 • • 時間を他レイヤに委譲モデル圧縮: 蒸留、量子化など推論・学習の効率化 • 実行環境の検討 • 機械学習コンパイラの最適化 43

44.

付録3. 実験の動作環境 • Ubuntu 24.04.3 LTS • Kernel: 6.14.0-36-generic • Python 3.12.11 • CPU: AMD Ryzen 7 5700X 8-Core Processor, x86 64 • GPU: NVIDIA GeForce RTX 4070, 12282 MiB • RAM: 15GiB 44