forked from hiyouga/LlamaFactory
-
Notifications
You must be signed in to change notification settings - Fork 41
Closed
Description
我原来使用accelerate+deepspeed-zero3训练Qwen3模型,可以正常运行。为了支持超长序列训练,找到了该代码库。出于最小代码改动的目的,我把该代码库的sequence_parrallel.py,ulysses.py,seq_comm.py三个文件放到了我自己的工程中,并对我的代码作了如下改动:
from sequence_parrallel import apply_sequence_parallel
group_this = apply_sequence_parallel(sequence_parrallel_config, full_determinism=False)
model = Qwen3ForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
config=config,
attn_implementation="sequence_parallel_attention",
)我尝试将sequence_parallel_mode设置为zigzag-ring或ulysses都是一样的情况
后续运行代码没有出现报错,但训练第一个step,运行到attention函数的时候,整个进程卡住,直到出现timeout报错。请问我的改动是否正确?应该如何debug?十分感谢!
Metadata
Metadata
Assignees
Labels
No labels