AI00 RWKV Server
是一个基于RWKV
模型的推理API服务器。
支持VULKAN
推理加速,可以在所有支持VULKAN
的GPU上运行。不用N卡!!!A卡甚至集成显卡都可加速!!!
无需臃肿的pytorch
、CUDA
等运行环境,小巧身材,开箱即用!
兼容OpenAI的ChatGPT API接口。
100% 开源可商用,采用MIT协议。
如果您正在寻找一个快速、高效、易于使用的LLM API服务器,那么AI00 RWKV Server
是您的最佳选择。它可以用于各种任务,包括聊天机器人、文本生成、翻译和问答。
立即加入AI00 RWKV Server
社区,体验AI的魅力!
交流QQ群:30920262
- 基于
RWKV
模型,具有高性能和准确性 - 支持
VULKAN
推理加速,不用该死的CUDA
也能享受GPU加速!支持A卡、集成显卡等一切支持VULKAN
的GPU - 无需臃肿的
pytorch
、CUDA
等运行环境,小巧身材,开箱即用! - 兼容OpenAI的ChatGPT API接口
- 聊天机器人
- 文本生成
- 翻译
- 问答
- 其他所有你能想到的LLM能干的事
-
直接从 Release 下载最新版本
-
下载模型后把模型放在
assets/models/
路径,例如assets/models/RWKV-4-World-0.4B-v1-20230529-ctx4096.st
-
在命令行运行
$ ./ai00_rwkv_server --model assets/models/RWKV-4-World-0.4B-v1-20230529-ctx4096.st
-
克隆本仓库
$ git clone https://github.com/cgisky1980/ai00_rwkv_serve.git $ cd ai00_rwkv_serve
-
下载模型后把模型放在
assets/models/
路径下,例如assets/models/RWKV-4-World-0.4B-v1-20230529-ctx4096.st
-
编译
$ cargo build --release
-
编译完成后运行
$ cargo run --release -- --model assets/models/RWKV-4-World-0.4B-v1-20230529-ctx4096.st
--model
: 模型路径--tokenizer
: 词表路径--port
: 运行端口
API 服务开启于 3000 端口, 数据输入已经输出格式遵循Openai API 规范。
/v1/chat/completions
/chat/completions
/v1/completions
/completions
/v1/embeddings
/embeddings
- 支持text_completions和chat_completions
- 支持sse推送
- 添加embeddings
- 集成基本的调用前端
- batch serve 并行推理
- int8量化支持
- SpQR量化支持
- LoRA模型支持
- LoRA模型热加载、切换
我们一直在寻找有兴趣帮助我们改进项目的人。如果你对以下任何一项感兴趣,请加入我们!
- 💀编写代码
- 💬提供反馈
- 🔆提出想法或需求
- 🔍测试新功能
- ✏翻译文档
- 📣推广项目
- 🏅其他任何会对我们有所帮助的事
无论你的技能水平如何,我们都欢迎你加入我们。你可以通过以下方式加入我们:
- 加入我们的 Discord 频道
- 加入我们的 QQ 群
- 在 GitHub 上提交问题或拉取请求
- 在我们的网站上留下反馈 我们迫不及待地想与你合作,让这个项目变得更好!希望项目对你有帮助!
我们很感激您的帮助,我们很高兴能与您合作。