Skip to content

如何修改代码添加对朝鲜语的支持(增加其他语种的方法?) #280

New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Open
IPENCIL666 opened this issue Nov 23, 2024 · 4 comments
Labels
enhancement New feature or request

Comments

@IPENCIL666
Copy link

No description provided.

@Huanshere
Copy link
Owner

  1. 参见 whisperX 的语言支持,虽然 whisper 支持大部分语言,但是 whisperX 有使用w av2vac 对齐的步骤,如果不在列表内需要添加 wav2vac 模型下载地址。
  2. 可选:在 core 下的 spacy_utils 中增加不同语言使用 nlp 进行初步分割的词汇

@piagodai
Copy link

whisperX已经支持的wav2vac 模型还挺多的:link
但是spacy的model还不够多

@Huanshere
Copy link
Owner

whisperX已经支持的wav2vac 模型还挺多的:link 但是spacy的model还不够多

感谢提供链接!!!是的 spacy 的模型并不多,但这个步骤其实完全可以被 llm 替代,只是提前分割节省一下成本(但至少至少,对这个语言的转录要有标点符号!),因此理论上确实可以扩展到多语言!!!我会抽空对不同语言的 wav2vac 模型进行测试看看效果(至少对于现有的来说,日语的模型选择就需要更换)

@Huanshere Huanshere added the enhancement New feature or request label Dec 4, 2024
@vanch007
Copy link

vanch007 commented Dec 4, 2024

whisperX已经支持的wav2vac 模型还挺多的:link 但是spacy的model还不够多

感谢提供链接!!!是的 spacy 的模型并不多,但这个步骤其实完全可以被 llm 替代,只是提前分割节省一下成本(但至少至少,对这个语言的转录要有标点符号!),因此理论上确实可以扩展到多语言!!!我会抽空对不同语言的 wav2vac 模型进行测试看看效果(至少对于现有的来说,日语的模型选择就需要更换)

还是没有印尼语吗?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement New feature or request
Projects
None yet
Development

No branches or pull requests

4 participants