이 프로젝트는 사용자 음성을 텍스트로 변환하고, 변환된 텍스트와 기준 텍스트의 유사도를 확인하는 Python 기반 애플리케이션입니다. 이를 통해 음성 데이터의 정확성을 검증하거나 특정 기준 텍스트와의 일치 여부를 판단할 수 있습니다.
- STT (Speech-to-Text) 변환
- 사용자의 음성 파일(WAV 형식)을 텍스트로 변환합니다.
- Whisper.cpp 기반으로 한국어 음성을 텍스트로 변환하는 기능을 제공합니다.
- 텍스트 유사도 검증
- 두 텍스트 간 유사도를 계산합니다.
- difflib.SequenceMatcher를 사용하여 유사도를 측정하며, 설정된 임계값(threshold) 이상인 경우 두 문장이 유사하다고 판단합니다.
- WAV 파일 변환
- 음성 파일의 샘플링 레이트를 16kHz로 변환합니다.
- Pydub 라이브러리를 활용하여 WAV 파일의 품질을 표준화합니다.