AI_BE

⭐ WHISPEECH – Silent Speech Restoration System

입모양만 보고 사용자의 발화를 복원하고, 문맥 기반 자연스러운 문장으로 확장하는 AI 서비스

WHISPEECH는 묵음 상태의 입모양(영상)만으로 사용자의 실제 발화를 예측하는 Silent Speech Restoration 모델입니다. 입모양에서 텍스트를 복원한 뒤, LLM 기반 의도 분석 및 대화 문장 생성까지 수행하여 사용자 커뮤니케이션을 돕는 것을 목표로 합니다.

📌 Features (주요 기능)

🔹 1. 묵음 발화 → 의도 추출 모델

AI Hub 립리딩 영상 기반 입모양 분석 모델 개발
MediaPipe FaceMesh로 입 주변 ROI 자동 추출
Video → Frame → Numpy → 3D CNN + Transformer 기반 멀티라벨 의도 분류

🔹 2. LLM 기반 문장 생성 (의도 → 자연스러운 문장)

예측된 의도 태그를 기반으로 LLM(Gemini)을 활용해
자연스럽고 문맥 있는 문장으로 변환
규칙 기반 프롬프트 설계로 정보 왜곡 최소화

🎥 System Architecture(시스템 아키텍쳐)

Video Upload

[Preprocessing Service]

Frame extraction
FaceMesh landmark detection
Mouth ROI crop
NPY 변환

[Intent Model Service]

TinyLipIntent (3D CNN + Transformer)
Multi-label classification

[Sentence Generator]

Gemini 1.5 Flash
Intent → One polite sentence

[TTS Service]

gTTS
MP3 생성 ↓ 💬 최종 반환 (Intent JSON / 문장 / 음성파일)

🛠 Tech Stack

AI / Deep Learning

LLM / Cloud

Tools

Frontend

Backend

🎬 Demo

Name		Name	Last commit message	Last commit date
Latest commit History 18 Commits
app		app
static		static
tts_outputs		tts_outputs
ui		ui
.gitignore		.gitignore
FASTAPI_GUIDE.md		FASTAPI_GUIDE.md
PIPELINE.md		PIPELINE.md
README.md		README.md
RUN_WITH_PYTHON310.md		RUN_WITH_PYTHON310.md
TEST_GUIDE.md		TEST_GUIDE.md
ai_setence_tts_app.py		ai_setence_tts_app.py
app.py		app.py
check_api.py		check_api.py
fix_mediapipe.bat		fix_mediapipe.bat
intent_keyword_config.py		intent_keyword_config.py
main.py		main.py
requirements.txt		requirements.txt
run.bat		run.bat
run_fastapi.bat		run_fastapi.bat
test_api_simple.py		test_api_simple.py
test_gemini_models.py		test_gemini_models.py
test_mediapipe.py		test_mediapipe.py
test_python_version.py		test_python_version.py
tiny_lip_intent_best.pth		tiny_lip_intent_best.pth
tiny_lip_intent_model.py		tiny_lip_intent_model.py
verify_api_key.py		verify_api_key.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

AI_BE

⭐ WHISPEECH – Silent Speech Restoration System

📌 Features (주요 기능)

🎥 System Architecture(시스템 아키텍쳐)

🛠 Tech Stack

AI / Deep Learning

LLM / Cloud

Tools

Frontend

Backend

About

Uh oh!

Releases

Packages

Contributors 4

Uh oh!

Languages

WHIspeech/AI_BE

Folders and files

Latest commit

History

Repository files navigation

AI_BE

⭐ WHISPEECH – Silent Speech Restoration System

📌 Features (주요 기능)

🎥 System Architecture(시스템 아키텍쳐)

🛠 Tech Stack

AI / Deep Learning

LLM / Cloud

Tools

Frontend

Backend

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 4

Uh oh!

Languages

Packages