关于二阶段训练的问题 #247

jianhai0527 · 2024-06-02T00:16:15Z

使用qwen1.5 moe模型
第一阶段训练完后，保存的checkpoint，不能作为第二阶段的pretrain checkpoint使用，仅load weight
有两个问题，一个是缺失必要的配置文件，二是补充配置文件后报以下错误
py", line 757, in get_parameter_state_dp_zero
state_dict = optimizer.get_parameter_state_dp_zero()
File "/nas-wulanchabu/tanfan.zjh/Pai-Megatron-Patch/Megatron-LM-240405/megatron/core/optimizer/distrib_optimizer.py", line 757, in get_parameter_state_dp_zero
tensors[key].detach().cpu()
tensors[key].detach().cpu()
KeyError: 'exp_avg'
KeyError: 'exp_avg'tensors[key].detach().cpu() tensors[key].detach().cpu()

tensors[key].detach().cpu()

tensors[key].detach().cpu()
KeyErrorKeyErrorKeyErrorKeyError: : : : tensors[key].detach().cpu()'exp_avg' 'exp_avg''exp_avg''exp_avg'tensors[key].detach().cpu()

jerryli1981 · 2024-06-03T07:04:35Z

您好，这个问题我遇到过，貌似就是第二阶段加载的时候不加载优化器参数就可以了

jianhai0527 · 2024-06-03T11:17:36Z

您好，这个问题我遇到过，貌似就是第二阶段加载的时候不加载优化器参数就可以了

多谢～～我已经加了no-load-optim参数，不起作用。。应该咋操作呢

divisionblur · 2024-08-08T13:32:42Z

您好，这个问题我遇到过，貌似就是第二阶段加载的时候不加载优化器参数就可以了

断点需要不需要优化器状态吗？

divisionblur · 2024-08-08T13:33:01Z

您好，这个问题我遇到过，貌似就是第二阶段加载的时候不加载优化器参数就可以了

多谢～～我已经加了no-load-optim参数，不起作用。。应该咋操作呢

请问最后怎么解决的呢？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于二阶段训练的问题 #247

关于二阶段训练的问题 #247

jianhai0527 commented Jun 2, 2024

jerryli1981 commented Jun 3, 2024

jianhai0527 commented Jun 3, 2024

divisionblur commented Aug 8, 2024

divisionblur commented Aug 8, 2024

关于二阶段训练的问题 #247

关于二阶段训练的问题 #247

Comments

jianhai0527 commented Jun 2, 2024

jerryli1981 commented Jun 3, 2024

jianhai0527 commented Jun 3, 2024

divisionblur commented Aug 8, 2024

divisionblur commented Aug 8, 2024