1. parallel_context 里的 get_intra_distributed_optimizer_instance_group,但是没有在parallel_state 的同名函数里同步替换 2. p2p_communication.py 中 send_forward 调用 send_forward_hetero 时,没传 is_last_stage 参数,而后者没默认值,运行报错。