08. 吞吐、时延、并发这几个指标应该怎么理解?
整理推理服务常见性能指标的含义。
简单回答
时延看单请求快不快,吞吐看单位时间处理多少工作量,并发看系统同时承载多少请求。
详细解析
- 一个系统可以吞吐高但首 token 时延不一定低,因为它可能靠大 batch 和排队换来总量优势。
- 并发高也不代表体验好,如果排队太长,用户仍然会觉得慢。
- 推理服务优化时必须先明确业务目标,是追求极致响应,还是追求单位成本下最大处理量。
- 这几个指标往往互相制约,不存在对所有场景都最优的一组参数。
面试时可以这样答
面试时最加分的是能讲出这些指标之间的 trade-off,而不是只会定义。
常见追问
- TPS 和 QPS 有什么差别?
- 为什么大 batch 会影响用户体验?