zero shot拖音，音频拉长问题

inference_zero_shot多次推理时，概率出现音频拉长问题，这个prompt生成音频一般是3s，有时候会出现6s的，声音比较奇怪。

使用的官方自带的音色，A800推理

[正常.wav](https://github.com/user-attachments/files/22005367/default.wav)
[异常.wav](https://github.com/user-attachments/files/22005359/default.wav)

```python
import sys
sys.path.append('third_party/Matcha-TTS')
from cosyvoice.cli.cosyvoice import CosyVoice, CosyVoice2
from cosyvoice.utils.file_utils import load_wav
import torchaudio

cosyvoice = CosyVoice2('./CosyVoice2-0.5B', load_jit=False, load_trt=False, load_vllm=False, fp16=False)

prompt_speech_16k = load_wav('./asset/zero_shot_prompt.wav', 16000)
prompts = [
    "Hello! My name is your name.",
    "Hello! My name is your name.",
    "Hello! My name is your name.",
    "Hello! My name is your name.",
    "Hello! My name is your name.",
    "Hello! My name is your name.",
    "Hello! My name is your name.",
    "Hello! My name is your name.",
    "Hello! My name is your name.",
    "Hello! My name is your name.",
    "Hello! My name is your name.",
]

for n in range(len(prompts)):
    for i, j in enumerate(cosyvoice.inference_zero_shot(prompts[n], '希望你以后能够做的比我还好哟', prompt_speech_16k, stream=False)):
        torchaudio.save('model_zero_shot_{}{}.wav'.format(n,i), j['tts_speech'], cosyvoice.sample_rate)
        print(f"save model_zero_shot_{n}{i}.wav")

```

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

zero shot拖音，音频拉长问题 #1550

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

zero shot拖音，音频拉长问题 #1550

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions