10. 推理性能问题一般怎么排查?
整理推理性能问题的排查路径。
简单回答
推理性能排查应按请求特征、模型阶段、GPU 利用率、调度策略和系统瓶颈逐层定位,而不是盲目换硬件。
详细解析
- 先看是 Prefill 慢还是 Decode 慢,因为两者优化方向不同。
- 再看 GPU 利用率、显存占用和 batch 行为,判断是算力瓶颈还是调度瓶颈。
- 然后结合请求长度分布、上下文长度、输出长度和工具链路,定位是不是业务层把系统拖慢了。
- 最后再看框架配置、量化方式、并行策略和缓存策略是否合适。
面试时可以这样答
一个工程感强的回答会提到日志、profiling 和阶段化指标,而不是只说“看 GPU”。
常见追问
- 首 token 慢和整体慢的排查思路一样吗?
- 怎么判断是框架问题还是业务流量特征问题?