LLMが読唇術？視覚音声認識最前線

3.6K Views

October 21, 25

#llm #vsr

スライド概要

この資料では、視覚音声認識（VSR）やその関連研究の概要、特に大規模言語モデル（LLM）を用いた新たなアプローチについて説明します。デモを通じて、VSP-LLMやZero-AVSRといったモデルの具体的な性能や応用例を紹介し、従来の手法との比較や課題についても言及します。また、データセット作成の難しさや従来モデルへの依存度など、視覚情報の認識における現状についても考察します。

Hiroaki Ogasawara

@hiroga

スライド一覧

@xhiroga

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

Gaussian Splatting ハンズオン @ 2025-09-28

Hiroaki Ogasawara 2.7K

学振特別研究員になるために～2025年度申請版

学振 dc1 dc2 jsps pd

大上雅史 774.9K

研究に使える便利なフリーソフト ImageJ

imagej 放射線技師

片山豊 362.6K

StampFlyで学ぶマルチコプタ制御

伊藤恒平 359.9K

ZAZA株式会社_会社紹介

ZAZA株式会社 343.5K

大規模言語モデルに追加学習で専門知識を教える試み (2023, arXiv:2312.03360)

Kan Hatakeyama 307.2K

各ページのテキスト

が読唇術？視覚音声認識 LLM 小笠原寛明 @ 松尾研LLMコミュニティ【Paper&Hacks#62】 J. H. Yeo et al., “Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and ContextAware Visual Speech Processing,” J. H. Yeo et al., “Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning LanguageAgnostic Speech Representations,” この資料をで公開しています。 GitHub

自己紹介小笠原寛明 (さわら) 2015年〜: 日本アイ・ビー・エム 2018年〜: 保険テックスタートアップにてソフトウェアエンジニア/マネージャーなど 2024年〜: フリーランス、機械学習スタートアップで機械学習モデル・インフラ開発など Webサイト: https://sawara.dev/ 最新情報はSNSで発信しています。ぜひフォローください! X (Twitter): @xhiroga GitHub: @xhiroga LinkedIn: @hiroga VRChat: @hiroga YouTube: @hiroga

目次デモ読唇術の研究とは？視覚音声認識視覚音声認識の応用なぜLLMなのか？ Homophone / Viseme データセット作成の難しさ単なるマルチモーダルLLMとは違うのか？視覚音声認識LLMの研究 VSP-LLM Zero-AVSR まとめ

デモ

VSP-LLM: デモ (WebCam) [1] 1. Sally-SH/VSP-LLM を元に @xhirogaが開発 ↩︎

読唇術の研究とは？

視覚音声認識 VSR (Visual Speech Recognition, 視覚音声認識) または V-ASR (Visual Automatic Speech Recognition) と呼ばれる。発話の映像のみを元に、発話内容を文字起こしするタスクを解く研究。文字起こしした結果のWER (Word Error Rate, 単語誤り率) や CER (Character Error Rate, 文字誤り率)が低いほど良い関連する研究分野に、VST (Visual Speech Translation), ASR (Automatic Speech Recognition), AVSR (AudioVisual Speech Recognition)などがある。

モデルの比較。多くのモデルで誤り率が25%以上であること、大量データが性能改善に効くこと、LLMを用いたモデル（Ours = VALLR）は追加学習がわずかでも性能が高いことが分かる。 VSR [1] 1. M. Thomas et al., “VALLR: Visual ASR Language Model for Lip Reading,” Mar. 27, 2025, arXiv: arXiv:2503.21408. doi: 10.48550/arXiv.2503.21408. ↩︎

の最先端モデルは軒並みWER10%を切っている＝視覚情報のみから推測するVSRは難しい！ ASR [1] 1. Srivastav et al., "Open Automatic Speech Recognition Leaderboard" ↩︎

10.

視覚音声認識の応用甲状腺がんや咽頭がんなどによって声を失ってしまった方の発話のサポート図書館のように静かな場所や、工事現場のように騒がしい場所での発話認識

11.

視覚音声認識スタートアップ : Liopa 医療現場に対して、限定された語彙から以上の精度で視覚音声認識を行うサービスを展開していた 90% 年現在、Webサイトはクローズ状態 2025

12.

音声認識スタートアップ : Whispp ささやき声を補強して伝えるアプリを展開するスタートアップ吃音を持つ方などでも、ささやき声であればリラックスできることがある、といった点に着目 [1] 1. https://whispp.com/ ↩︎

13.

なぜLLMなのか？

14.

Homophone / Viseme 口の形が同じでも、異なる音のことを Homophone (ホモフォン, 同口形異音) といいます。例えば、「p」と「m」は口の形が同じです。 [1] 人間が言葉を話すときの口の形を、IPA（国際発音記号）のように分類したものをViseme（ビゼーム, 口形素, 視覚音素）と言います。ビゼームの数は15種類とされることが多いですが、より細かく分類する場合もあります。口形素リファレンス." ↩︎ 1. Meta, "

15.

データセット作成の難しさ読唇タスクのためのデータセットの作成には、音声認識のためのデータセット作成とは異なる難しさがあります。映像データより音声データの方がファイルサイズが大きい場合が多い映像データでは収録時に顔や部屋などが映ってしまうため、プライバシーの問題がより懸念される一方、収録された音声にノイズが入っている場合などは、用途によっては許容できる場合もあります。

16.

単なるマルチモーダルLLMとは違うのか？: 実験 [1] 1. Try lip reading by Gemini 2.5 Pro (0/3) ↩︎

17.

単なるマルチモーダルLLMとは違うのか？: 回答マルチモーダルLLMにもVSRタスクのための土台はあるが、そのままでは困難。映像を3次元畳み込みしてから埋め込みを出力するという、大まかな構成はそのまま使える実際には、口の形と音素（またはビゼーム）が一致するように学習する必要がある既存のマルチモーダルLLMを追加学習してVSRに転用する研究はまだほとんどないしたがって、VSRの研究では音声認識の事前学習済みモデル（＋LLMなど文字起こしバックエンド）を用いることが多い！後ほど視覚音声認識モデルであるAV-HuBERTのデモをします。

18.

なぜLLMなのか？数千〜数万時間の学習が必要な既存手法と比較して、LLMの知識を活かすことで1/10以下の学習時間に抑えることが可能と見込まれるため。 [1] 1. M. Thomas et al., “VALLR: Visual ASR Language Model for Lip Reading,” Mar. 27, 2025, arXiv: arXiv:2503.21408. doi: 10.48550/arXiv.2503.21408. ↩︎

19.

視覚音声認識LLMの研究

20.

視覚音声認識LLMの研究の一部を表にまとめました。VSRとAVSRのどちらもあります。⭐️ マークが本日扱う論文です。論文公開年月種類特徴 ⭐️ とを初めて接続 VSP-LLM 2024-05 VSR AV-HuBERT Llama Personalized Lip Reading 2024-09 VSR 自前のエンコーダーを話者別にLoRA可能に Llama-AVSR 2024-09 AVSR 音声と視覚それぞれの特徴をトークン化しLlamaに入力 Zero-AVSR ⭐️ 2025-03 AVSR ローマ字を経由することで制御しやすく MMS-LLaMA 2025-03 AVSR 視覚音声の特徴を合成後にトークン化することで計算量削減 VALLR 2025-03 VSR 自前エンコーダーから音素を予測しLlamaに入力 PV-ASR 2025-07 VSR 自前エンコーダーと口ランドマークの特徴を合成 1. スライド末尾「参考文献」を参照ください。 ↩︎ [1]

21.

Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and Context-Aware Visual Speech Processing [1] 1. J. H. Yeo et al., “Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and ContextAware Visual Speech Processing,” May 14, 2024, arXiv: arXiv:2402.15151. doi: 10.48550/arXiv.2402.15151. ↩︎

22.

問題設定の能力をに活かすことはできないのか？ VSP-LLM: LLM VSR 訓練データがわずかでも、LLMの能力を使えば十分な性能を発揮できるか？

23.

における貢献視覚的音声モデリングをと統合し、とで最先端のパフォーマンスを達成した最初の研究 VSP-LLM: VSR 1. 2. LLM VSR VST 連続するフレームをまとめるにあたって、機械的に間隔を設けるのではなく、埋め込みの特徴に応じて kmeans でクラスタリング

24.

VSP-LLM: 手法 [1] 1. J. H. Yeo et al., “Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and ContextAware Visual Speech Processing,” ↩︎

25.

[beta]

VSP-LLM:

擬似コード

映像の特徴, クラスタIDごとの連続するフレーム数, LLMへのインストラクションがモデルへの入力になってい
ます
vsp_llm.generate({
"source": {
"audio": None,
"video": torch.Tensor,
"cluster_counts": [1, 3, 2, 1, 4, 1, 1, 1, 3, 1, 2],
"text": some_instruction,
},
"padding_mask": torch.Tensor,
"text_attn_mask": torch.Tensor,
})

26.

が出力する埋め込みを眺める AV-HuBERT [1] 1. B. Shi et al., “Learning Audio-Visual Speech Representation by Masked Multimodal Cluster Prediction,” @xhiroga ↩︎ 元にが開発を

27.

と他のVSR手法の比較。LLMを用いたことで、自己教師あり学習のモデルでは最高性能。教師あり学習と比較しても平均的性能。 VSP-LLM [1] 1. J. H. Yeo et al., “Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and ContextAware Visual Speech Processing,” ↩︎

28.

VSP-LLM: デモ (LRS3) [1] 1. Sally-SH/VSP-LLM を元に @xhirogaが開発 ↩︎

29.

【再掲】VSP-LLM: デモ (WebCam) [1] 1. Sally-SH/VSP-LLM を元に @xhirogaが開発 ↩︎

30.

考察そのものの性能の差を強く感じました VSP-LLM: LLM なので、暴走して同じ単語がずっと繰り返されることもあります AV-HuBERTの埋め込みをLLMに入力する際、「クラスタリング + 平均の計算」は二度手間に感じますクラスタリングできるくらい似ているなら、平均を計算する必要がないのでは？実際、後続の研究では、事前に計算した代表値を用いることがあります標準的なデータセットでの性能が高い一方で、Webカメラでの撮影など現実世界での利用にはまだまだ弱そうです Llama2

31.

Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning LanguageAgnostic Speech Representations[1] 1. J. H. Yeo, M. Kim, C. W. Kim, S. Petridis, and Y. M. Ro, “Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning Language-Agnostic Speech Representations,” July 21, 2025, arXiv: arXiv:2503.06273. doi: 10.48550/arXiv.2503.06273. ↩︎

32.

問題設定従来の音声・視覚認識モデルは、学習した言語に依存している Zero-AVSR: 従来の多言語音声・視覚認識のデータセットは、わずかな種類の言語にしか対応していない

33.

mTEDx: [1] 英語以外の8言語に対応

34.

MuAViC: 英語を含む9言語に対応。LRS3やmTEDxなどからなる。 [1] 1. M. Anwar et al., “MuAViC: A Multilingual Audio-Visual Corpus for Robust Speech Recognition and Robust Speech-to-Text Translation,” ↩︎

35.

貢献データセットの提案 Zero-AVSR: MARC のアーキテクチャにおける言語間の転移学習のポテンシャル実証ローマ字を挟むことで可視性能を上げる工夫 AV-HuBERT & Llama

36.

37.

Zero-AVSR: 手法 (Cascaded Zero-AVSR) [1] 1. J. H. Yeo, M. Kim, C. W. Kim, S. Petridis, and Y. M. Ro, “Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning Language-Agnostic Speech Representations,” ↩︎

38.

を実装する前に、利用するLLMを実験で決めています。GPT-4o-miniの性能がLlamaに対して良いことが分かります。 Cascaded Zero-AVSR [1] 1. J. H. Yeo et al., “Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning LanguageAgnostic Speech Representations,” ↩︎

39.

Zero-AVSR: 手法 (Directly Integrated Zero-AVSR) [1] 1. J. H. Yeo et al., “Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning LanguageAgnostic Speech Representations,” ↩︎

40.

と複数のAVSRモデルの比較。あらかじめ多言語で訓練されたAVSRモデル（上4つ）と、ターゲット言語での追加学習をしていないとされる（＝ゼロショット）モデル（下3つ）の比較。実際には、提案手法におけるローマ字化モジュールの学習で多言語を用いているほか、Llamaの事前学習でも用いられているはずなので、ゼロショットの定義が気になるが… Zero-AVSR [1] 1. J. H. Yeo et al., “Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning LanguageAgnostic Speech Representations,” ↩︎

41.

Zero-AVSR: デモ (MuAViC) [1] 1. JeongHun0716/zero-avsr を元に @xhirogaが開発 ↩︎

42.

Zero-AVSR: デモ (WebCam) [1] 1. JeongHun0716/zero-avsr を元に @xhirogaが開発 ↩︎

43.

Zero-AVSR: 考察と引き続き AV-HuBERT Llama の偉大さがわかる論文 AV-HuBERTからローマ字を経由してLlamaに入力している…と思わせて、最終的なアーキテクチャでは AVHuBERTの埋め込みを長さだけ調整してそのまま用いているつまり、そこまでローマ字は関係ない（開発・運用時には確実に便利）個人的には、多言語データセットの学習でAV-HuBERTの既存重みが大きく変わった = 学習時間でスケールする余地がある、という学びの方が多かった

44.

Zero-AVSR: もっと知りたい https://zenn.dev/hiroga/articles/zero-avsr-eval

https://zenn.dev/hiroga/articles/zero-avsr-eval

45.

まとめ読唇術（視覚音声認識タスク）について、独自アーキテクチャではなくを組み込む手法の開発が進んでいます映像をエンコードするためのさまざまな手法が提案されています音素やローマ字を用いて制御性を上げる工夫も見られます LLM

46.

参考文献 (VSR/AVSR + LLM) #1 J. H. Yeo et al., “Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and ContextAware Visual Speech Processing,” May 14, 2024, arXiv: arXiv:2402.15151. doi: 10.48550/arXiv.2402.15151. J. H. Yeo et al., “Personalized Lip Reading: Adapting to Your Unique Lip Movements with Vision and Language,” Jan. 01, 2025, arXiv: arXiv:2409.00986. doi: 10.48550/arXiv.2409.00986. U. Cappellazzo et al., “Large Language Models are Strong Audio-Visual Speech Recognition Learners,” Mar. 07, 2025, arXiv: arXiv:2409.12319. doi: 10.48550/arXiv.2409.12319.

47.

参考文献 (VSR/AVSR + LLM) #2 J. H. Yeo et al., “Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning LanguageAgnostic Speech Representations,” July 21, 2025, arXiv: arXiv:2503.06273. doi: 10.48550/arXiv.2503.06273. J. H. Yeo et al., “MMS-LLaMA: Efficient LLM-based Audio-Visual Speech Recognition with Minimal Multimodal Speech Tokens,” June 05, 2025, arXiv: arXiv:2503.11315. doi: 10.48550/arXiv.2503.11315. M. Thomas et al., “VALLR: Visual ASR Language Model for Lip Reading,” Mar. 27, 2025, arXiv: arXiv:2503.21408. doi: 10.48550/arXiv.2503.21408. M. K. K. Teng et al., “Phoneme-Level Visual Speech Recognition via Point-Visual Fusion and Language Model Reconstruction,” July 25, 2025, arXiv: arXiv:2507.18863. doi: 10.48550/arXiv.2507.18863.

48.

参考文献 (Base Model, Datasets, Survey) B. Shi et al., “Learning Audio-Visual Speech Representation by Masked Multimodal Cluster Prediction,” Mar. 13, 2022, arXiv: arXiv:2201.02184. doi: 10.48550/arXiv.2201.02184. E. Salesky et al., “The Multilingual TEDx Corpus for Speech Recognition and Translation,” June 15, 2021, arXiv: arXiv:2102.01757. doi: 10.48550/arXiv.2102.01757. M. Anwar et al., “MuAViC: A Multilingual Audio-Visual Corpus for Robust Speech Recognition and Robust Speech-to-Text Translation,” Mar. 07, 2023, arXiv: arXiv:2303.00628. doi: 10.48550/arXiv.2303.00628. K. Rezaee and M. Yeganeh, “Automatic Visual Lip Reading: A Comparative Review of Machine-Learning Approaches,” Results in Engineering, p. 107171, Sept. 2025, doi: 10.1016/j.rineng.2025.107171.