LLaMA2 70B H100 性能問題 #5180
Replies: 4 comments 31 replies
-
显存似乎还有空间,是否试过提高batch size有什么结果。其次,是否确认了flash attention是被正常使用的。 |
Beta Was this translation helpful? Give feedback.
-
感谢您,我会尽快查看和解决这个问题 |
Beta Was this translation helpful? Give feedback.
-
您好,我在訓練 LLaMA2 70B 的時候,存檔和讀檔有遇到 OOM 的問題,因此想另外請教一下 配置:
狀況:
self.booster.save_model(
self.boosted_model,
os.path.join(checkpoint_path, _CKPT_MODEL_DIR),
shard=True,
size_per_shard=1024,
use_safetensors=True
)
self.booster.save_optimizer(
self.optimizers[0],
os.path.join(checkpoint_path, _CKPT_OPTIMIZER_DIR),
shard=True,
size_per_shard=1024
)
self.booster.load_model(self.boosted_model, os.path.join(checkpoint_path, _CKPT_MODEL_DIR))
self.booster.load_optimizer(self.optimizers[0], os.path.join(checkpoint_path, _CKPT_OPTIMIZER_DIR)) |
Beta Was this translation helpful? Give feedback.
-
Hi,看起来Hybrid ParallelPlugin存档也没有影响显存的使用。
|
Beta Was this translation helpful? Give feedback.
-
我用了 4 節點共 32 卡的 H100 機器測試了 LLaMA2 70B 的性能,但 TFLOPS 只有 170 左右,這似乎和 A100 差不多,我不太確定這是不是合理的一個數值,如果不是,想請教一下可能的問題點。
平行化參數如下:
另外,如果我要在 9 個 8 卡 H100 節點訓練 LLaMA2 70B,請問會建議用什麼樣的平行化配置?
Beta Was this translation helpful? Give feedback.
All reactions