This repository was archived by the owner on Nov 21, 2025. It is now read-only.

Description
同样的一份数据集,在 v1 版本上,效果表现非常好。我想测试下 v2 的效果,但是 v2 版本训练完成,出现了一些问题。
accelerate launch train_v2.py
--dataset-dir
--run-name
--batch-size 2
--max-steps 15000
--max-epochs 1000
--save-every 500
--num-workers 0
--train-cfm
--train-ar
首先, cfm 和 ar 模型,我是一起训练的,steps 训练到了 15000 步数,但是转换出来声音是乱七八糟的,源音频的长度是 2:32秒,转换出来的音频长度是 2:25 秒。是因为 ar 模型没有训练好的原因嘛?