forked from hiyouga/LLaMA-Factory
-
Notifications
You must be signed in to change notification settings - Fork 41
Closed
Description
机器环境:3090显卡x2
代码环境:sft训练Qwen3,采用自主代码融合360-LLaMA-Factory的部分代码支持sp,详情参考issue69
问题:目前可以正常训练(尚未检查训练结果正确性),发现用了sequence parrallel之后显存占用并没有减少。
Qwen3-1.7B最高支持5k长度sequence,使用sequence_parrallel_size=2后仍然只支持5k长度,甚至显存占用略高了些。
Metadata
Metadata
Assignees
Labels
No labels