Model pool and model level load balance for large number of requests #3574

yifa-n · 2023-11-21T03:39:36Z

yifa-n
Nov 21, 2023

Sometime I reached max token limitation for batch workload
I want this feature enable large number of requests to LLM for concurrency.
For usage scenario, there is some rate limit for single model, can we config a model pool and load balancer for LLM requests to support large number of requests concurrency.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Model pool and model level load balance for large number of requests #3574

{{title}}

{{editor}}'s edit

{{editor}}'s edit

Replies: 0 comments

Select a reply

Model pool and model level load balance for large number of requests #3574

yifa-n Nov 21, 2023

Replies: 0 comments

yifa-n
Nov 21, 2023