audio-visual-speech-recognition

Here are 18 public repositories matching this topic...

modelscope / FunASR

A Fundamental End-to-End Speech Recognition Toolkit and Open Source SOTA Pretrained Models, Supporting Speech Recognition, Voice Activity Detection, Text Post-processing etc.

pytorch speech-recognition vad punctuation whisper audio-visual-speech-recognition speaker-diarization voice-activity-detection conformer pretrained-model rnnt dfsmn paraformer speechgpt speechllm

Updated Oct 1, 2025
Python

smeetrs / deep_avsr

Star

A PyTorch implementation of the Deep Audio-Visual Speech Recognition paper.

speech-recognition automatic-speech-recognition speech-to-text audio-visual-speech-recognition lip-reading visual-speech-recognition

Updated Feb 15, 2024
Python

ankurbhatia24 / MULTIMODAL-EMOTION-RECOGNITION

Star

Human Emotion Understanding using multimodal dataset.

python machine-learning deep-learning tensorflow keras deeplearning opensmile librosa audio-visual-speech-recognition audio-visual multimodal-emotion-recognition audio-visualization

Updated Jul 27, 2020
Jupyter Notebook

umbertocappellazzo / Llama-AVSR

Star

[ICASSP 2025] Official Pytorch implementation of "Large Language Models are Strong Audio-Visual Speech Recognition Learners".

audio-visual-speech-recognition visual-speech-recognition large-language-models

Updated Oct 4, 2025
Python

georgesterpu / Taris

Sponsor

Star

Transformer-based online speech recognition system with TensorFlow 2

python online deep-learning tensorflow transformer speech-recognition audio-visual-speech-recognition speech-recognizer multimodal multimodal-deep-learning mahcine-learning audio-visual tensorflow2 live-caption taris

Updated Jan 22, 2021
Python

Sreyan88 / LipGER

Star

Code for InterSpeech 2024 Paper: LipGER: Visually-Conditioned Generative Error Correction for Robust Automatic Speech Recognition

speech-recognition audio-visual-speech-recognition audio-visual llm prompting generative-ai

Updated Jul 16, 2024
Python

david-gimeno / tailored-avsr

Star

Official source code for the paper "Tailored Design of Audio-Visual Speech Recognition Models using Branchformers"

audio-visual-speech-recognition interpretability visual-speech-recognition lipreading robust-asr parameter-efficient

Updated Feb 24, 2025
Python

sungnyun / avsr-temporal-dynamics

Star

(SLT 2024) Learning Video Temporal Dynamics with Cross-Modal Attention for Robust Audio-Visual Speech Recognition

audio-visual-speech-recognition

Updated Oct 22, 2024
Python

sungnyun / cav2vec

Star

(ICLR 2025) Multi-Task Corrupted Prediction for Learning Robust Audio-Visual Speech Representation

audio-visual-speech-recognition self-supervised-learning noise-robustness

Updated Apr 29, 2025
Python

aidayang / FunASR-OneClick

Star

FunASR实时语音识别版，识别麦克风和电脑内播放的声音，电脑语音打字软件

pytorch speech-recognition vad pretrained-models punctuation whisper audio-visual-speech-recognition speaker-diarization voice-activity-detection conformer rnnt dfsmn paraformer speechgpt speechllm funasr

Updated Sep 12, 2025

lzuwei / end-to-end-multiview-lipreading

Star

End to End Multiview Lip Reading

deep-learning audio-visual-speech-recognition end-to-end-learning

Updated Jan 26, 2018
Python

hmeutzner / kaldi-avsr

Star

Kaldi-based audio-visual speech recognition

deep-neural-networks speech-recognition kaldi avsr asr audio-visual-speech-recognition

Updated Apr 13, 2022
Shell

karlsimsBBC / cassette-bot

Star

🤖 📼 Command-line tool for remixing videos with time-coded transcriptions.

video audio-visual-speech-recognition text-to-video

Updated Nov 14, 2019
Python

zulfiqar-ali01 / audio-visual-Transcription

Star

Real-Time Audio-visual Speech Recongition

audio-processing audio-visual-speech-recognition realtime-analytics

Updated Aug 24, 2024
Python

luomingshuang / lipreading_with_icefall

Star

In this repository, I try to use k2, icefall and Lhotse for lip reading. I will modify it for the lip reading task. Many different lip-reading datasets should be added. -_-

audio-visual-speech-recognition k2 lip-reading visual-speech-recognition icefall