Why not use FP8 in large multi-node settings for BERT? #8

soonjune · 2024-02-16T06:15:32Z

I've noticed that there is --use_transformer_engine2 flag disabled for multi-node training greater than 8 in the configurations. I've also noticed that it is also slower when I enable transformer engine in this case. Can anyone point out why FP8 training is slower in this case?

The text was updated successfully, but these errors were encountered:

soonjune mentioned this issue Feb 16, 2024

Question on using FP8 training for BERT-large model NVIDIA/TransformerEngine#671

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Why not use FP8 in large multi-node settings for BERT? #8

Why not use FP8 in large multi-node settings for BERT? #8

soonjune commented Feb 16, 2024

Why not use FP8 in large multi-node settings for BERT? #8

Why not use FP8 in large multi-node settings for BERT? #8

Comments

soonjune commented Feb 16, 2024