Skip to content

v0.9.0

Latest
Compare
Choose a tag to compare
@jerryli1981 jerryli1981 released this 26 Jul 06:49
· 3 commits to main since this release
f335d9e

--添加基于MPI的分布式训练方式,用以支持Mcore的tp-comm-overlap加速开关。
--添加基于Distributed Optimizer改进的OffloadDistributedOptimizer,用以支持大模型&长序列训练时参数/梯度Cpu Offload降显存。
--添加微调训练使用IdxMap数据格式,用以支持70B大模型的打开TP/PP时高效微调。
--修复已知的Bugs。