ASR CTC Model

基于连接时序分类(Connectionist Temporal Classification, CTC)实现端到端学习方法的中文语音识别模型，声学模型部分使用BiGRU和WaveNet构建

训练数据集 THCHS-30

THCHS-30 是清华大学语音与语言技术中心(CSLT)发布的开放式中文语音数据库
该数据集在安静的办公室环境下通过单个碳粒麦克风录取，总时长超过 30 个⼩时
共 13388 个文件，采样频率 16kHz，采样大小 16bits

本项目使用了数据集data文件夹下的所有语音数据进行训练，将该文件夹解压到项目根目录下即可

下载地址：http://www.openslr.org/18/

训练/测试流程

1.data_handle.ipynb 语音数据预处理，使用MFCC构建音频特征数据
2.model_bigru.py和2.model_wavenet.py
双向GRU和WaveNet声学模型构建，CTC模型构建及训练
可在run/下执行train_2.sh后台运行模型训练，在run.log中可查看训练过程
3.predict.ipynb 模型预测，使用CTC解码函数预测模型输出，默认为贪婪法(greedy)
4.diagrams.ipynb 模型训练过程图，绘制CTC Loss曲线
5.wer.ipynb 模型评价指标，计算词错率(WER)及实时率(RTF)，默认在无GPU加速下测试

模型应用

可以参见另外一个Project: 中文语音识别实验室

Tips

有问题或发现了bug，欢迎提交PR和issue，如果对你有帮助的话就给个star吧~QAQ
本项目有多种模型结构分支，可以checkout查看
提高模型的语音识别能力需要更多的数据集训练
音频数据特征部分使用了SpecAugment数据增强方法扩充等量数据
本项目仅供学习参考，不承担任何因实际使用和生产环境部署等因素导致的不可预知的后果

Name		Name	Last commit message	Last commit date
Latest commit History 20 Commits
run		run
.gitattributes		.gitattributes
.gitignore		.gitignore
1.data_handle.ipynb		1.data_handle.ipynb
2.model_bigru.py		2.model_bigru.py
3.predict.ipynb		3.predict.ipynb
4.diagrams.ipynb		4.diagrams.ipynb
5.wer.ipynb		5.wer.ipynb
LICENSE		LICENSE
readme.md		readme.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

ASR CTC Model

训练数据集 THCHS-30

训练/测试流程

模型应用

Tips

About

Uh oh!

Releases

Packages

Languages

License

SzLeaves/asr-model-ctc

Folders and files

Latest commit

History

Repository files navigation

ASR CTC Model

训练数据集 THCHS-30

训练/测试流程

模型应用

Tips

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages