关于 v2 版本，声音转换的问题。

同样的一份数据集，在 v1 版本上，效果表现非常好。我想测试下 v2 的效果，但是 v2 版本训练完成，出现了一些问题。

accelerate launch train_v2.py 
--dataset-dir <path-to-data>
--run-name <run-name>
--batch-size 2
--max-steps 15000
--max-epochs 1000
--save-every 500
--num-workers 0
--train-cfm
--train-ar

首先， cfm 和 ar 模型，我是一起训练的，steps 训练到了 15000 步数，但是转换出来声音是乱七八糟的，源音频的长度是 2：32秒，转换出来的音频长度是 2：25 秒。是因为 ar 模型没有训练好的原因嘛？