sft训练Qwen3卡在attention

我原来使用accelerate+deepspeed-zero3训练Qwen3模型，可以正常运行。为了支持超长序列训练，找到了该代码库。出于最小代码改动的目的，我把该代码库的`sequence_parrallel.py`,`ulysses.py`,`seq_comm.py`三个文件放到了我自己的工程中，并对我的代码作了如下改动：
```python
from sequence_parrallel import apply_sequence_parallel

group_this = apply_sequence_parallel(sequence_parrallel_config, full_determinism=False)

model = Qwen3ForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    config=config,
    attn_implementation="sequence_parallel_attention",
)
```

我尝试将`sequence_parallel_mode`设置为`zigzag-ring`或`ulysses`都是一样的情况

后续运行代码没有出现报错，但训练第一个step，运行到attention函数的时候，整个进程卡住，直到出现timeout报错。请问我的改动是否正确？应该如何debug？十分感谢！

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

sft训练Qwen3卡在attention #69

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

sft训练Qwen3卡在attention #69

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions