墨圆大模型

07. vLLM 为什么通常比很多简单推理服务更快？

整理 vLLM 的关键优化点。

简单回答

vLLM 快的核心不是只做了 batch，而是它在请求调度和 KV Cache 管理上做得更激进。

详细解析

它通过更高效的缓存管理减少显存碎片和浪费，使更多请求能共享 GPU 资源。
对长短不一的请求，它的调度策略能更充分利用解码阶段算力。
在很多场景里，性能差异不是模型本身，而是服务框架对 token 级调度做得好不好。
面试里回答这题，关键是把它讲成“推理系统优化”而不是“换个库就行”。

面试时可以这样答

不用死记实现细节，但要说出：它快在调度和缓存管理，而不只是模型算得快。

常见追问

和传统按请求串行服务相比优势在哪？
vLLM 适合所有场景吗？

06. 张量并行、流水线并行和数据并行有什么区别？

整理几种常见并行策略的基本思路。

08. 吞吐、时延、并发这几个指标应该怎么理解？

整理推理服务常见性能指标的含义。