>100 Views
July 01, 22
スライド概要
2022/07/01
Deep Learning JP
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP Gestalt Principles Emerge When Learning Universal Sound Source Separation [DL Papers] Hiroshi Sekiguchi, Morikawa Lab http://deeplearning.jp/ 1
書誌情報 • “Gestalt Principles Emerge When Learning Universal Sound Source Separation” H. Li, K. Chen and B. U. Seeber, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 30, pp. 1877-1891, 2022, doi: 10.1109/TASLP.2022.3178233 https://ieeexplore.ieee.org/document/9783204 • 概要 – 一般的な音響源(音声、楽曲、環境音)の重複音響信号の分離を、教 師あり深層学習することで、脳内に生来存在すると言われている Gestalt principleが出現することを初めて確認 – Gestalt principleとは:脳内の感覚機能(視覚、聴覚、嗅覚など)に関 して、重畳刺激から、proximity, continuity, similarity等の原則に従って、 感覚情景物体(外界の刺激発生源に対応する脳内の源)を脳内にグ ルーピングして形成するという考え • 動機 – 複数音声分離のメカニズムに興味 2
アジェンダ • 背景 – Gestalt principle – Auditory Scene Analysis (ASA) – Computational Scene Analysis (CASA) – Deep learning手法によるConv-TasNet • • • • • 提案手法:一般音響の重畳入力でのモデル学習 評価結果:一般音響の重畳分離性能 モデルの心理音響実験と評価結果 まとめ 感想 3
背景: 重畳音響分離研究の2つの流れ • 聴覚のメカニズムを解析して工学的に実現しようとする流れ – 脳内の感覚器の構造に関する原則:Gestalt principle ↓ – 聴覚の重畳分離メカニズムの知見を集める研究:Auditory Scene Analysis (ASA) • 被験者に心理音響的実験を行い、その振る舞いから知見を集める ↓ – 聴覚の重畳分離メカニズムの知見の個々をBuilding Block的に工学的に設計して構築 する:Computational Scene Analysis (CASA) • 手設計のため、key-pointの取りこぼしなど有り→分離性能を評価は限定的 • 分離メカニズムの中身は考えずにdata-drivenで分離タスクを実現しようする 深層学習の流れ – 2010年以降のDeep-Learningの教師あり学習を使う – 音響統計に基づく分離タスクを達成することで、分離性能は改善している(SOTA) 4
背景: 重畳音響分離研究の2つの流れ • 本論では、深層学習の流れで学習したモデルを被験対象にして、 Auditory Scene Analysis (ASA)の心理音響的実験を施したところ、人間の被 験者と同様の振る舞いを示した – Auditory Scene Analysis (ASA)の元になるGestalt principleが学習モデル内に 獲得できたことになる。 – 何故、獲得できたのか、理由は解析中 5
背景:Gestalt principle • 感覚器(目、耳、鼻、etc)が受ける、複数発生源からの同時外界刺激から、発生 源単体の感覚情景物体を、個別にグループ化し分離する仕組みが、生来、脳内 で組み込まれている • ドイツの心理学者・ヴェルトハイマー(1880~1943)から生まれた「ゲシュタ ルト心理学」における中心的な概念 近接の法則(Law of Proximity):「距離が近い特徴は同じグループ」 類同の法則(Law of Similarity):「色や形が似ている特徴は同じグループ) 連続の法則(Law of Continuity):「連続的に変化する特徴は離散的に変化する特徴 よりも同じグループ」 共通運命の法則(Law of Common Fate):「同じ方向に動いている特徴や、同じ周 聴覚情景 期で点滅している特徴は同じグループ」 物体 神経励起 神経励起 信号 光 視覚シーン 網 膜 特徴 抽出 視覚の場合 信号 Gestalt principle 視覚情景 物体 犬の 風の音 鳴声 人の声 蝸 牛 特徴 抽出 人の声 聴覚シーン Gestalt principle 犬の 鳴声 風の音 聴覚の場合 6
背景:Auditory Scene Analysis (ASA) • Gestalt principleをベースに、聴覚の重畳分離メカニズムの知見を集める研究 - Bregman, A. S.: Auditory Scene Analysis : The Perceptual Organization of Sound, MIT Press, Cambridge, Massachusetts, U.S.A. (1990). - Middlebrooks, J. C., Simon, J. Z., Popper, A. N. and Fay, R. R. :The Auditory System at the Cocktail Party, Springer Handbook of Auditory Research, Springer Nature Switzerland AG., Cham, Switzerland, (2017). • 心理学音響実験による知見 – 被験者:人間 – 入力音:種々のトーン – 被験者の判断:単一音or複数音に知覚 • 2つのパス – Primitive Grouping: Bottom-up process • Simultaneous Grouping:ピッチ、調音、onset、AM、FM • Sequential Grouping:上記特徴量のproximity, continuity, similarity, common fateをベースにgrouping – Schema-driven: Top-down process • Attention: 注目する発声体に脳内の振る舞いが注力 (抜粋) The Auditory System at the Cocktail Party 7
背景: Computational Scene Analysis (CASA) • 聴覚の重畳分離メカニズムの知見の個々をBuilding Block的に工学的に設計 - D. Wang and G. J. Brown, “Fundamentals of computational auditory scene analysis,” in Computational Auditory Scene Analysis: Principles, Algorithms, and Applications, D. Wang and G. J. Brown, Eds., Hoboken • ASAのPrimitive Grouping: Bottom-up processを2つ工程から作る – Segmentation、Grouping: • 聴覚器官の工程を細分化し、それぞれ数理モデル化し、設計後、接続してシ ステムにする→音声を実用で分離可能なレベルでは無い (抜粋) M. Elhilali and S. A. Shamma, “A cocktail party with a cortical twist: Howcortical mechanisms contribute to sound segregation,” J. Acoust. Soc. Amer., vol. 124, no. 6, pp. 3751–3771, 2008 8
背景:Conv-TasNet • 重畳音声(音声ー音声)分離モデル • Network構成 – Encoder-Separator-decoder構造 – Encoder/Decoder: 1-D Conv – Separator: 複数 Dilated 1-D Convolution Blockベースの分割マスク 推定法 • 入力信号:重畳音声 𝑦(𝑡) • 出力:分離後の単話者音声 𝑠Ƹ𝑖 , 𝑖 = 1, ⋯ , 𝐶: 話者数𝐶 • Loss関数:SI-SNR (抜粋 )Luo, Y. and Mesgarani, N.: Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation, IEEE/ACM Transactions on Audio, Speech, and Language Processing, Vol. 27, No. 8, pp. 1256–1266 (2019). 9
提案手法:一般音響の重畳入力でのモデル学習 • Data set – 一般的な音響信号全般 • 音声:LibriSpeech • 楽曲:musan • 環境音:BBC sound effect – 上記3つカテゴリから重複を許して2つ選び、重畳するクリップを作成 • 計6通り – 重畳音響信号のSNRは-5dB~5dBからランダム – 訓練data:126000クリップ(150時間)、Validation data: 36000クリップ(30時間)、テスト data: 18000クリップ(15時間) • Conv-TasNetを学習data/validation dataで学習して、test dataで分離後音声品質改善 度(SiSNRi)でモデルを評価する – これで、Conv-TasNetが一般音響信号の混在環境を学習した 10
評価結果:評価結果:一般音響の重畳分離性能その1 • 結果 – Conv-TasNetは、音声を含むdatasetの分類で性能が高い。 – Conv-TasNetはIRMよりも良い → Conv-TasNetがユニークな調音構造を学習できているから – 音声を含む場合は、Windows長は短い2msecから順番に分離性能がよい→音声には2msec程ま での時間解像度が必要 – 楽曲ー楽曲のpairが悪い 11
評価結果:評価結果:一般音響の重畳分離性能その2 • 入力SNRが悪いものほど、改善幅Si-SNRiは良くなる: – 全カテゴリーに共通 • 分離後のspectrogram上も、上手く分離できていることが確認できた。 12
評価方法:モデルの心理音響実験 • 一般重畳音響で学習したConv-TasNetモデルを被 験者に置き換えて、Gestalt princileから導かれた Auditort Scene Anaysis(ASA)で用いる心理音響実験 を行う • 目的は、学習したモデルにgestaltな原則が学習で きているか否かを評価する • ASAにおけるbottom-up processに関する実験 – Simultaneous Groupingに関する実験(実験1) – Sequential Groupingに関する実験(実験2) – 2つのGroupingメカニズムが同時に起こる場合に、 協調するか競合するかを確認する実験(実験3) – 調音を持つ複雑入力(音声)を使ったGroupingの実 験(実験4)→理解が不十分のため今回割愛します 13
実験1: Simultaneous Groupingに関する実験その1 • 聴覚のおける知見:調音構造になっている音は一つの音 • (実験1-1)調音の入力に対する振る舞い – 2つのトーン(各トーンは3つの調音(整数倍の周波数成分)を 持つ)は一つの音かそれとも2つの音か?(F0=110Hz, 165Hz) • 実験の入出力:onset時間差は0 学習後の Conv-TasNet 推定音響1 推定音響2 • 実験結果 – 2つのトーンが調音を共有する時は 1つの音に聞こえる – 2つのトーンが調音を共有しない時は 2つの音に聞こえる • 人間の聴覚の振る舞いと同じ 14
実験1: Simultaneous Groupingに関する実験その2 • 聴覚における知見:onsetの時間差は調音とは独立に判定 • (実験1-2)onsetのズレに対する振る舞い – 2つのトーン(各トーンは3つの調音(整数倍の周波数成分)を持 つ)がonset時間に差が有るとき、一つの音かそれとも2つの音か? • 実験の入出力 一音から二音 へ認知が変化 学習後の Conv-TasNet 推定音響1 推定音響2 • 実験結果 – 2つの入力トーンの基本周波数の差ΔF0によって、振る舞いが違う • (例)Δfoが小さい場合は一音にしか聞こえなかいが、onsetが大きいと二音 – Onsetの時間差は調音とは独立だ • 人間の聴覚の振る舞いと同じ 15
実験1: Simultaneous Groupingに関する実験その3 • 聴覚による知見:同じAMやFMが掛かる信号等は、一音に なる→共通運命(fate principle)の法則に従う • (実験1-3)AMやFMが掛かる場合の振る舞い • 実験の入出力 音節に相当の約3Hzにpeak – 一トーンの全調音にのみ同じAMあるいはFMを適用 学習後の Conv-TasNet 推定音響1 推定音響2 • 実験結果 – 2つのトーンが調音を共有していて、AMでもFMでも rate=0,depth=0では強い調音関係のために一音だったものが、 一方のトーンにのみAMあるいはFMを施すと途端に2音に認識す る – 共通運命の法則に従っている • 人間の聴覚と同じ(音節に相当する約3Hzにpeakあり) 16
実験2: Sequential Groupingに関する実験その1 • 聴覚における知見:ΔF0とTRTでvan Noordenのtemporal coherence boundaryが観測される→周波数と時間の両 方で近いcomponentは一音になる(近接(proximity) の法則) • (実験2-1)近接の法則が効いているか? • 実験の入出力 学習後の Conv-TasNet 推定音響1 推定音響2 • 実験結果 – temporal coherence boundary と類似の境界線が得られた • 聴覚と同じ近接の法則が効いている 17
実験2: Sequential Groupingに関する実験その2 • 聴覚における知見:連続的な同じ動きをする ものは一音(連続(Continuityの法則) • (実験2-2)連続の法則が効いているか – 2つのトーン間の遷移時に周波数を連続的にかえる と、離散にかえるとの差が有るか • 実験の入出力 学習後の Conv-TasNet 推定音響1 推定音響2 • 実験結果 – 同一の連続時遷移のものは、離散的な遷移と比較し て一音として見られ易い – 連続の法則が効いている • 聴覚と類似の連続の法則が効いている 18
実験2: Sequential Groupingに関する実験その3 • 聴覚における知見:音色が違い(調音の度数の組み合わせの違いが一音か二音 かに影響するか(類似(similarity)の法則) • (実験2-3) – 2つのトーンは同じ基本周波数を持つが、この2つは異なる連続した3つ度数の調音を 持っている時、一音か二音か?(例)T1~T10の異なるトーンを作っておく T1:F0+調度 1+2+3 T2:F0+調度2+3+4, …. • 実験の入出力 学習後の Conv-TasNet 推定音響1 推定音響2 • 実験結果 – 度数の組み合わせが類似のものは、一音。違うものは、二音。 – 類似の法則に従う • 聴覚と類似の類似の法則に従う 19
実験3: SimulaneousとSequential が同時発生の実験 • 聴覚での知見:現在の特徴のなかで直前の状態の連続線上にあると考 えられものはそのまま居続けてよい • (実験3-1) – 同じ発生源が複数の特徴量を生成するときは、simultaneousとsequential groupingの両方が同時に発声することがある。その時の振る舞いを実験する • 実験の入出力 – – – – BをAとCの両方が自分の方に取り込んで一音にしようとする B:周波数固定、 A:Seq groupingのProximity入力(対BでΔF0とTRTが可動) C:Sim groupingの入力 (対BでΔF0とΔonsetが 学習後の 可動) Conv-TasNet 推定音響1 推定音響2 20
実験3: SimulaneousとSequential が同時発生の実験 • 実験結果 –a, b) A対B+C • Sim: 強. BとCは一音 • Seq: 強. AとBは二音 →SimとSeq: A対B+Cで共同 –C)AとCはBを巡って拮抗し ている –C1)A+B対C • Sim: 強い. BとCは一音 • Seq: 最強:continuity AとBは連 続法則に従うために一音 → seq > simのため、 A+B対C – C2)A対B+C • Sim: 強.B+Cは一音 • Seq: 弱. → seq < simのため、 A対B+C –c3)A+B対C • Sim: 弱. BとCは二音 • Seq: 中:AとBは一音 → seq > simのため、A+B対 C d)A+B+Cが一音 Sim: 弱.BとCは二音 Seq: 弱. A+Bは一音 → TRT:大では、seqが支配的な ため、A+B+Cが一音 21
実験3: SimulaneousとSequential が同時発生の実験 • 実験結果続き – Simultaneousとsequentialのどちらが主導権を握るかは、場合によるので、一概 に言えない 22
著者たちの考察 • 本論は、分離メカニズムの中身は考えずにdata-drivenで分離タスクを実 現しようする深層学習の流れに乗った研究に基づく – 教師あり深層学習でSOTAを出す名覚まし成果が上がってきている – しかし、これらの深層学習モデルは、音響統計をベースにした重畳音響分離タス クを最適化するモデルであり、生物学的に望ましいnetworkをモデルに採用する 努力はしていない – それでも、一般音響重畳入力の音響統計ベースに即して学習したモデルが、心理 音響実験において、Simultaneous GroupingやSequential Groupingなど、 gestalt principleに基づく人間の聴覚の分離メカニズムに従った振る舞いを示す ことが初めて分かった。 – 深層学習のゴールは、人間と同様な最適解を自発的に学習することなのか?それ は可能なのか?この問いに対して、今回のモデルが、純粋に信号処理をベースに したことだけで、聴覚の音声分離メカニズムが自発的に出現したということを深 く掘りさげると、深層学習や聴覚脳神経学の今後の研究に有益な示唆をあたえる ものと信じている。 23
まとめと感想 • まとめ – 一般音響重畳入力の音響統計をベースにしたConv-TasNetに、一般的な重畳音響を分離する教 師あり学習をさせたところ、心理音響実験で、Gestalt principleに基づく人間の聴覚の分離メカ ニズムに従った振る舞いを示すことが初めて分かった – 何故、Conv-Tasnetで起こったのか、明確な理由はわかっていない。今後の研究課題である • 感想 – Conv-TasNetのどの部分が貢献して、Gestalt principleに従う分離メカニズムが構築されるのか? 一つはseparatorの構造が1D-dilated-Convのblockが多重になっており, Temporary Convolution Network(TCN)と呼ぶ構造を持っている。これは、受容野を最大1秒まで広げる効果があり、 simultaneousとsequential groupingの時系列パターンの形成に役立っていることは確かだ。しか し、それだけで、聴覚のGestalt principleに基づく分離メカニズムを自発的に学習するとは本当 か? – Conv-TasNet以外のNetworkでは同様なGestalt principleに基づく人間の聴覚の分離メカニズムを 示すものはあるのか? 24
END 25