部署CodeFuse-CodeLlama-34B-4bits推理，推理速度太慢了 #44

XiHenSuper · 2024-06-28T08:46:47Z

部署CodeFuse-CodeLlama-34B-4bits推理，推理速度太慢了，使用A100推理，显存占用大概21G，max_length为512，推理速度接近10min以上，这个框架下有相关加速推理方案吗？

lightislost · 2024-07-01T04:27:28Z

这个框架不做这个事情。在modelcache那的项目可以提一下。那边有计划做这些事。如果没有其它问题，这个问题将在6点之后进行关闭

Provide feedback