大佬有没有对比和VLLM的推理效果？ #72

white-wolf-tech · 2024-02-02T09:00:12Z

我实验发现。
没有并发的时候，tp=1，tp=2，tp=4。
Tensorrt-LLM推理速度都是高于VLLM。

启用并发的时候，VLLM使用异步IO，启用continuous batching。
Tensorrt-LLM编译也使用了inflight_batching
对比下来，Tensorrt-LLM慢到离谱。
我提了一个issue。里面有详细对比数据：
NVIDIA/TensorRT-LLM#965

liyunhan · 2024-04-08T08:19:49Z

@x-transformers 大佬，从效果上看哪个更好？我看一些tensorrt-llm测评是掉1~2个点

white-wolf-tech · 2024-04-10T09:52:13Z

@x-transformers 大佬，从效果上看哪个更好？我看一些tensorrt-llm测评是掉1~2个点

你可以试试最新的tensorrt-llm，好像是解决了

Provide feedback