Releases: psmarter/mini-infer
Releases · psmarter/mini-infer
Release list
v0.22.0 — HTTP serving benchmark
v0.22.0
-
新增 HTTP 服务基准测试:并发吞吐量从 55.7 提升至 219.1 tok/s(1→8 个客户端,Qwen2.5-7B,RTX 4090)
-
新增包含实际测量数据的
benchmarks/results/server_benchmark.json文件 -
修复
mini_infer/目录下的所有 ruff lint 错误(CI 测试已通过) -
为
mini-infer-serveCLI 添加--use-cuda-graph和--quant-mode标志 -
为 HTTP 服务器添加
/healthz端点 -
添加
Dockerfile和.github/workflows/lint.yml文件 -
重构 README:英文版简洁明了,采用三级能力分类,并添加“如何阅读”导航
v0.21.0
首个版本发布。实现了分页键值缓存、连续批处理、
分块预填充、前缀缓存、推测性解码、CUDA 图、
张量并行、MoE 专家并行以及与 OpenAI 兼容的 HTTP 服务。
每项机制均已独立地与 HuggingFace Transformer 进行基准测试。
Full Changelog: v0.21.0...v0.21.0