标签 vllm 下的文章

作者: Stone

时间: 2026-03-14

暂无评论

在多台 vLLM 推理节点同时提供服务时，最直接的做法通常是先在前面放一层 Nginx 做转发，再由上游节点共同承接请求。

但如果只是静态轮询，实际效果往往并不理想。因为大模型服务的负载并不均匀，某一台节点可能已经接近 KV Cache 极限、出现等待队列，甚至开始发生 preemption，而另一台节点却还比较空闲。这个时候，负载均衡如果不能感知后端状态，就容易把请求继续打到“已经很忙”的节点上。

作者: Stone

时间: 2026-03-14

分类: 筑码

暂无评论

这篇文章记录的是在本地 GPU 服务器上部署 MiniMax 大模型服务的一套实践流程，目标是把模型稳定跑起来，并以 OpenAI 兼容接口的方式提供调用能力。

整体过程包括模型下载、运行环境准备、systemd 托管、接口验证，以及用 vLLM 自带工具做一轮基础压测。重点不在概念，而在于把一套可复用的部署链路整理清楚。

用 Nginx 给 vLLM 做动态负载均衡