标签 负载均衡 下的文章

在多台 vLLM 推理节点同时提供服务时,最直接的做法通常是先在前面放一层 Nginx 做转发,再由上游节点共同承接请求。

但如果只是静态轮询,实际效果往往并不理想。因为大模型服务的负载并不均匀,某一台节点可能已经接近 KV Cache 极限、出现等待队列,甚至开始发生 preemption,而另一台节点却还比较空闲。这个时候,负载均衡如果不能感知后端状态,就容易把请求继续打到“已经很忙”的节点上。

阅读剩余部分