Releases · psmarter/mini-infer · GitHub

Release list

v0.22.0 — HTTP serving benchmark Latest

Latest

psmarter released this 28 Mar 03:19

b4d2027

v0.22.0

新增 HTTP 服务基准测试：并发吞吐量从 55.7 提升至 219.1 tok/s（1→8 个客户端，Qwen2.5-7B，RTX 4090）
新增包含实际测量数据的 benchmarks/results/server_benchmark.json 文件
修复 mini_infer/ 目录下的所有 ruff lint 错误（CI 测试已通过）
为 mini-infer-serve CLI 添加 --use-cuda-graph 和 --quant-mode 标志
为 HTTP 服务器添加 /healthz 端点
添加 Dockerfile 和 .github/workflows/lint.yml 文件
重构 README：英文版简洁明了，采用三级能力分类，并添加“如何阅读”导航

Assets 2

v0.21.0 Pre-release

Pre-release

psmarter released this 28 Mar 03:02

ce811eb

首个版本发布。实现了分页键值缓存、连续批处理、

分块预填充、前缀缓存、推测性解码、CUDA 图、

张量并行、MoE 专家并行以及与 OpenAI 兼容的 HTTP 服务。

每项机制均已独立地与 HuggingFace Transformer 进行基准测试。

Full Changelog: v0.21.0...v0.21.0

Assets 2