2.8K Views
October 21, 25
スライド概要
この資料では、視覚音声認識(VSR)やその関連研究の概要、特に大規模言語モデル(LLM)を用いた新たなアプローチについて説明します。デモを通じて、VSP-LLMやZero-AVSRといったモデルの具体的な性能や応用例を紹介し、従来の手法との比較や課題についても言及します。また、データセット作成の難しさや従来モデルへの依存度など、視覚情報の認識における現状についても考察します。
@xhiroga
が読唇術?視覚音声認識 LLM 小笠原寛明 @ 松尾研LLMコミュニティ【Paper&Hacks#62】 J. H. Yeo et al., “Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and ContextAware Visual Speech Processing,” J. H. Yeo et al., “Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning LanguageAgnostic Speech Representations,” この資料を で公開 しています。 GitHub
自己紹介 小笠原寛明 (さわら) 2015年〜: 日本アイ・ビー・エム 2018年〜: 保険テックスタートアップにてソフトウ ェアエンジニア/マネージャーなど 2024年〜: フリーランス、機械学習スタートアップ で機械学習モデル・インフラ開発など Webサイト: https://sawara.dev/ 最新情報はSNSで発信しています。ぜひフォローく ださい! X (Twitter): @xhiroga GitHub: @xhiroga LinkedIn: @hiroga VRChat: @hiroga YouTube: @hiroga
目次 デモ 読唇術の研究とは? 視覚音声認識 視覚音声認識の応用 なぜLLMなのか? Homophone / Viseme データセット作成の難しさ 単なるマルチモーダルLLMとは違うのか? 視覚音声認識LLMの研究 VSP-LLM Zero-AVSR まとめ
デモ
VSP-LLM: デモ (WebCam) [1] 1. Sally-SH/VSP-LLM を元に @xhirogaが開発 ↩︎
読唇術の研究とは?
視覚音声認識 VSR (Visual Speech Recognition, 視覚音声認識) または V-ASR (Visual Automatic Speech Recognition) と呼ば れる。 発話の映像のみを元に、発話内容を文字起こしするタスクを解く研究。 文字起こしした結果のWER (Word Error Rate, 単語誤り率) や CER (Character Error Rate, 文字誤り率)が低いほ ど良い 関連する研究分野に、VST (Visual Speech Translation), ASR (Automatic Speech Recognition), AVSR (AudioVisual Speech Recognition)などがある。
モデルの比較。多くのモデルで誤り率が25%以上であること、大量データが性能改善に効くこと、LLMを 用いたモデル(Ours = VALLR)は追加学習がわずかでも性能が高いことが分かる。 VSR [1] 1. M. Thomas et al., “VALLR: Visual ASR Language Model for Lip Reading,” Mar. 27, 2025, arXiv: arXiv:2503.21408. doi: 10.48550/arXiv.2503.21408. ↩︎
の最先端モデルは軒並みWER10%を切っている = 視覚情報のみから推測するVSRは難しい! ASR [1] 1. Srivastav et al., "Open Automatic Speech Recognition Leaderboard" ↩︎
視覚音声認識の応用 甲状腺がんや咽頭がんなどによって声を失ってしまった方の発話のサポート 図書館のように静かな場所や、工事現場のように騒がしい場所での発話認識
視覚音声認識スタートアップ : Liopa 医療現場に対して、限定された語彙から 以上の精度で視覚音声認識を行うサービスを展開していた 90% 年現在、Webサイトはクローズ状態 2025
音声認識スタートアップ : Whispp ささやき声を補強して伝えるアプリを展開するスタートアップ 吃音を持つ方などでも、ささやき声であればリラックスできることがある、といった点に着目 [1] 1. https://whispp.com/ ↩︎
なぜLLMなのか?
Homophone / Viseme 口の形が同じでも、異なる音のことを Homophone (ホモフォン, 同口形異音) といいます。例えば、「p」と 「m」は口の形が同じです。 [1] 人間が言葉を話すときの口の形を、IPA(国際発音記号)のように分類したものをViseme(ビゼーム, 口形素, 視覚音素)と言います。ビゼームの数は15種類とされることが多いですが、より細かく分類する場合もありま す。 口形素リファレンス." ↩︎ 1. Meta, "
データセット作成の難しさ 読唇タスクのためのデータセットの作成には、音声認識のためのデータセット作成とは異なる難しさがありま す。 映像データより音声データの方がファイルサイズが大きい場合が多い 映像データでは収録時に顔や部屋などが映ってしまうため、プライバシーの問題がより懸念される 一方、収録された音声にノイズが入っている場合などは、用途によっては許容できる場合もあります。
単なるマルチモーダルLLMとは違うのか?: 実験 [1] 1. Try lip reading by Gemini 2.5 Pro (0/3) ↩︎
単なるマルチモーダルLLMとは違うのか?: 回答 マルチモーダルLLMにもVSRタスクのための土台はあるが、そのままでは困難。 映像を3次元畳み込みしてから埋め込みを出力するという、大まかな構成はそのまま使える 実際には、口の形と音素(またはビゼーム)が一致するように学習する必要がある 既存のマルチモーダルLLMを追加学習してVSRに転用する研究はまだほとんどない したがって、VSRの研究では音声認識の事前学習済みモデル(+LLMなど文字起こしバックエンド)を用いる ことが多い! 後ほど視覚音声認識モデルであるAV-HuBERTのデモをします。
なぜLLMなのか? 数千〜数万時間の学習が必要な既存手法と比較して、LLMの知識を活かすことで1/10以下の学習時間に抑える ことが可能と見込まれるため。 [1] 1. M. Thomas et al., “VALLR: Visual ASR Language Model for Lip Reading,” Mar. 27, 2025, arXiv: arXiv:2503.21408. doi: 10.48550/arXiv.2503.21408. ↩︎
視覚音声認識LLMの研究
視覚音声認識LLMの研究の一部を表にまとめました。VSRとAVSRのどちらもあります。⭐️ マークが本日扱う論文です。 論文 公開年月 種類 特徴 ⭐️ と を初めて接続 VSP-LLM 2024-05 VSR AV-HuBERT Llama Personalized Lip Reading 2024-09 VSR 自前のエンコーダーを話者別にLoRA可能に Llama-AVSR 2024-09 AVSR 音声と視覚それぞれの特徴をトークン化しLlamaに入力 Zero-AVSR ⭐️ 2025-03 AVSR ローマ字を経由することで制御しやすく MMS-LLaMA 2025-03 AVSR 視覚音声の特徴を合成後にトークン化することで計算量削減 VALLR 2025-03 VSR 自前エンコーダーから音素を予測しLlamaに入力 PV-ASR 2025-07 VSR 自前エンコーダーと口ランドマークの特徴を合成 1. スライド末尾「参考文献」を参照ください。 ↩︎ [1]
Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and Context-Aware Visual Speech Processing [1] 1. J. H. Yeo et al., “Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and ContextAware Visual Speech Processing,” May 14, 2024, arXiv: arXiv:2402.15151. doi: 10.48550/arXiv.2402.15151. ↩︎
問題設定 の能力を に活かすことはできないのか? VSP-LLM: LLM VSR 訓練データがわずかでも、LLMの能力を使えば十分な性能を発揮できるか?
における貢献 視覚的音声モデリングを と統合し、 と で最先端のパフォーマンスを達成した最初の研究 VSP-LLM: VSR 1. 2. LLM VSR VST 連続するフレームをまとめるにあたって、機械的に間隔を設けるのではなく、埋め込みの特徴に応じて kmeans でクラスタリング
VSP-LLM: 手法 [1] 1. J. H. Yeo et al., “Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and ContextAware Visual Speech Processing,” ↩︎
VSP-LLM:
擬似コード
映像の特徴, クラスタIDごとの連続するフレーム数, LLMへのインストラクションがモデルへの入力になってい
ます
vsp_llm.generate({
"source": {
"audio": None,
"video": torch.Tensor,
"cluster_counts": [1, 3, 2, 1, 4, 1, 1, 1, 3, 1, 2],
"text": some_instruction,
},
"padding_mask": torch.Tensor,
"text_attn_mask": torch.Tensor,
})
が出力する埋め込みを眺める AV-HuBERT [1] 1. B. Shi et al., “Learning Audio-Visual Speech Representation by Masked Multimodal Cluster Prediction,” @xhiroga ↩︎ 元に が開発 を
と他のVSR手法の比較。LLMを用いたことで、自己教師あり学習のモデルでは最高性能。教師あり学 習と比較しても平均的性能。 VSP-LLM [1] 1. J. H. Yeo et al., “Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and ContextAware Visual Speech Processing,” ↩︎
VSP-LLM: デモ (LRS3) [1] 1. Sally-SH/VSP-LLM を元に @xhirogaが開発 ↩︎
【再掲】VSP-LLM: デモ (WebCam) [1] 1. Sally-SH/VSP-LLM を元に @xhirogaが開発 ↩︎
考察 そのものの性能の差を強く感じました VSP-LLM: LLM なので、暴走して同じ単語がずっと繰り返されることもあります AV-HuBERTの埋め込みをLLMに入力する際、 「クラスタリング + 平均の計算」は二度手間に感じます クラスタリングできるくらい似ているなら、平均を計算する必要がないのでは? 実際、後続の研究では、事前に計算した代表値を用いることがあります 標準的なデータセットでの性能が高い一方で、Webカメラでの撮影など現実世界での利用にはまだまだ弱 そうです Llama2
Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning LanguageAgnostic Speech Representations[1] 1. J. H. Yeo, M. Kim, C. W. Kim, S. Petridis, and Y. M. Ro, “Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning Language-Agnostic Speech Representations,” July 21, 2025, arXiv: arXiv:2503.06273. doi: 10.48550/arXiv.2503.06273. ↩︎
問題設定 従来の音声・視覚認識モデルは、学習した言語に依存している Zero-AVSR: 従来の多言語音声・視覚認識のデータセットは、わずかな種類の言語にしか対応していない
MuAViC: 英語を含む9言語に対応。LRS3やmTEDxなどからなる。 [1] 1. M. Anwar et al., “MuAViC: A Multilingual Audio-Visual Corpus for Robust Speech Recognition and Robust Speech-to-Text Translation,” ↩︎
貢献 データセットの提案 Zero-AVSR: MARC のアーキテクチャにおける言語間の転移学習のポテンシャル実証 ローマ字を挟むことで可視性能を上げる工夫 AV-HuBERT & Llama
Zero-AVSR: 手法 (MARCデータセット) 元になるデータ 時間, 英語, ラベルあり) MuAViC(1,200時間, 9言語, ラベルあり) VoxCeleb2(2,442時間, 多言語, ラベルなし) AVSpeech(4,700時間, 多言語, ラベルなし) LRS3(433 ローマ字化した文字起こしを提案 der puls und der blutdruck steigen →der|puls| und|der|blutdruck|steigen| vielen dank →vielen|dank|
Zero-AVSR: 手法 (Cascaded Zero-AVSR) [1] 1. J. H. Yeo, M. Kim, C. W. Kim, S. Petridis, and Y. M. Ro, “Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning Language-Agnostic Speech Representations,” ↩︎
を実装する前に、利用するLLMを実験で決めています。GPT-4o-miniの性能がLlamaに対 して良いことが分かります。 Cascaded Zero-AVSR [1] 1. J. H. Yeo et al., “Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning LanguageAgnostic Speech Representations,” ↩︎
Zero-AVSR: 手法 (Directly Integrated Zero-AVSR) [1] 1. J. H. Yeo et al., “Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning LanguageAgnostic Speech Representations,” ↩︎
と複数のAVSRモデルの比較。あらかじめ多言語で訓練されたAVSRモデル(上4つ)と、ターゲ ット言語での追加学習をしていないとされる(=ゼロショット)モデル(下3つ)の比較。 実際には、提案手法におけるローマ字化モジュールの学習で多言語を用いているほか、Llamaの事前学習で も用いられているはずなので、ゼロショットの定義が気になるが… Zero-AVSR [1] 1. J. H. Yeo et al., “Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning LanguageAgnostic Speech Representations,” ↩︎
Zero-AVSR: デモ (MuAViC) [1] 1. JeongHun0716/zero-avsr を元に @xhirogaが開発 ↩︎
Zero-AVSR: デモ (WebCam) [1] 1. JeongHun0716/zero-avsr を元に @xhirogaが開発 ↩︎
Zero-AVSR: 考察と 引き続き AV-HuBERT Llama の偉大さがわかる論文 AV-HuBERTからローマ字を経由してLlamaに入力している…と思わせて、最終的なアーキテクチャでは AVHuBERTの埋め込みを長さだけ調整してそのまま用いている つまり、そこまでローマ字は関係ない(開発・運用時には確実に便利) 個人的には、多言語データセットの学習でAV-HuBERTの既存重みが大きく変わった = 学習時間でスケール する余地がある、という学びの方が多かった
Zero-AVSR: もっと知りたい https://zenn.dev/hiroga/articles/zero-avsr-eval
まとめ 読唇術(視覚音声認識タスク)について、独自アーキテクチャではなく を組み込む手法の開発が進んで います 映像をエンコードするためのさまざまな手法が提案されています 音素やローマ字を用いて制御性を上げる工夫も見られます LLM
参考文献 (VSR/AVSR + LLM) #1 J. H. Yeo et al., “Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and ContextAware Visual Speech Processing,” May 14, 2024, arXiv: arXiv:2402.15151. doi: 10.48550/arXiv.2402.15151. J. H. Yeo et al., “Personalized Lip Reading: Adapting to Your Unique Lip Movements with Vision and Language,” Jan. 01, 2025, arXiv: arXiv:2409.00986. doi: 10.48550/arXiv.2409.00986. U. Cappellazzo et al., “Large Language Models are Strong Audio-Visual Speech Recognition Learners,” Mar. 07, 2025, arXiv: arXiv:2409.12319. doi: 10.48550/arXiv.2409.12319.
参考文献 (VSR/AVSR + LLM) #2 J. H. Yeo et al., “Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning LanguageAgnostic Speech Representations,” July 21, 2025, arXiv: arXiv:2503.06273. doi: 10.48550/arXiv.2503.06273. J. H. Yeo et al., “MMS-LLaMA: Efficient LLM-based Audio-Visual Speech Recognition with Minimal Multimodal Speech Tokens,” June 05, 2025, arXiv: arXiv:2503.11315. doi: 10.48550/arXiv.2503.11315. M. Thomas et al., “VALLR: Visual ASR Language Model for Lip Reading,” Mar. 27, 2025, arXiv: arXiv:2503.21408. doi: 10.48550/arXiv.2503.21408. M. K. K. Teng et al., “Phoneme-Level Visual Speech Recognition via Point-Visual Fusion and Language Model Reconstruction,” July 25, 2025, arXiv: arXiv:2507.18863. doi: 10.48550/arXiv.2507.18863.
参考文献 (Base Model, Datasets, Survey) B. Shi et al., “Learning Audio-Visual Speech Representation by Masked Multimodal Cluster Prediction,” Mar. 13, 2022, arXiv: arXiv:2201.02184. doi: 10.48550/arXiv.2201.02184. E. Salesky et al., “The Multilingual TEDx Corpus for Speech Recognition and Translation,” June 15, 2021, arXiv: arXiv:2102.01757. doi: 10.48550/arXiv.2102.01757. M. Anwar et al., “MuAViC: A Multilingual Audio-Visual Corpus for Robust Speech Recognition and Robust Speech-to-Text Translation,” Mar. 07, 2023, arXiv: arXiv:2303.00628. doi: 10.48550/arXiv.2303.00628. K. Rezaee and M. Yeganeh, “Automatic Visual Lip Reading: A Comparative Review of Machine-Learning Approaches,” Results in Engineering, p. 107171, Sept. 2025, doi: 10.1016/j.rineng.2025.107171.