Skip to content
This repository was archived by the owner on Nov 21, 2025. It is now read-only.
This repository was archived by the owner on Nov 21, 2025. It is now read-only.

关于 v2 版本,声音转换的问题。 #207

@HanLuo

Description

@HanLuo

同样的一份数据集,在 v1 版本上,效果表现非常好。我想测试下 v2 的效果,但是 v2 版本训练完成,出现了一些问题。

accelerate launch train_v2.py
--dataset-dir
--run-name
--batch-size 2
--max-steps 15000
--max-epochs 1000
--save-every 500
--num-workers 0
--train-cfm
--train-ar

首先, cfm 和 ar 模型,我是一起训练的,steps 训练到了 15000 步数,但是转换出来声音是乱七八糟的,源音频的长度是 2:32秒,转换出来的音频长度是 2:25 秒。是因为 ar 模型没有训练好的原因嘛?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions