-
-
Notifications
You must be signed in to change notification settings - Fork 53
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Triton的显存占用是TensorRT—llm的两倍 #51
Comments
trtion那边开infight-batch后,会尽量多占用显存以支持更大并发。 |
|
编译的时候有加infight-batch吗?如果有,可以试试关掉,编译的时候设置batch-size等于1试试。还不行可以去trtion官方问问了。 |
由于我用的两卡,但是它这个端口会被占用 |
api.py不支持多卡😅 |
博主遇到过这个问题吗? Sorry! You were supposed to get help about:
|
你是手动编译trt-llm? |
没有 我是直接按照你得博客进行操作的 pip install git+https://github.com/NVIDIA/TensorRT-LLM.git@release/0.5.0 |
哦,了解了,这个可能是mpi库升级了导致的,你可以试试下面的操作:
apt update
apt install libopenmpi-dev
pip install https://github.com/Shixiaowei02/mpi4py/tarball/fix-setuptools-version
pip install git+https://github.com/NVIDIA/TensorRT-LLM.git@release/0.5.0 |
可是我终端是可以运行的,只是在vscode上面运行不行,现在我怀疑的是环境变量导致的 |
哦哦,好吧,那就不知道了。 |
是的,对齐的。0.6.1目前来看还不算稳定版,没有triton对应。目前最新的trtion又将trt-llm直接升级到0.7.0,说实话有点小坑,所以建议还是用着0.5.0先。 |
你好,再确认一个问题,我用NVIDIA/TensorRT-LLM v0.6.0及以上,同你的0.5.0的版本,TRT推出来的结果是不一致的,请问你知道这边有什么不同吗? |
应该是参数配置问题,我这边有改过一次默认参数,同原版做过对齐。对应的commit. |
好的 我再试下 |
@lyc728 测试了最新的trt-llm 0.10.0和配套的tritonserver后,显存占用过多问题已经解决了,你可以试试这个,使用方法基本和现在的0.8.0差不多。 |
我这边测试qwen-72b的,采用了--weight_only_precision int4 这边采用4张卡进行加载,每张卡占用12G左右,然而Triton进行推理时,每张卡能占用到28G左右,请问下为什么差距是这么大呢?
The text was updated successfully, but these errors were encountered: