Skip to content

Releases: psmarter/mini-infer

v0.22.0 — HTTP serving benchmark

Choose a tag to compare

@psmarter psmarter released this 28 Mar 03:19

v0.22.0

  • 新增 HTTP 服务基准测试:并发吞吐量从 55.7 提升至 219.1 tok/s(1→8 个客户端,Qwen2.5-7B,RTX 4090)

  • 新增包含实际测量数据的 benchmarks/results/server_benchmark.json 文件

  • 修复 mini_infer/ 目录下的所有 ruff lint 错误(CI 测试已通过)

  • mini-infer-serve CLI 添加 --use-cuda-graph--quant-mode 标志

  • 为 HTTP 服务器添加 /healthz 端点

  • 添加 Dockerfile.github/workflows/lint.yml 文件

  • 重构 README:英文版简洁明了,采用三级能力分类,并添加“如何阅读”导航

v0.21.0

v0.21.0 Pre-release
Pre-release

Choose a tag to compare

@psmarter psmarter released this 28 Mar 03:02

首个版本发布。实现了分页键值缓存、连续批处理、

分块预填充、前缀缓存、推测性解码、CUDA 图、

张量并行、MoE 专家并行以及与 OpenAI 兼容的 HTTP 服务。

每项机制均已独立地与 HuggingFace Transformer 进行基准测试。

Full Changelog: v0.21.0...v0.21.0