10. 推理性能问题一般怎么排查?

整理推理性能问题的排查路径。

简单回答

推理性能排查应按请求特征、模型阶段、GPU 利用率、调度策略和系统瓶颈逐层定位,而不是盲目换硬件。

详细解析

  • 先看是 Prefill 慢还是 Decode 慢,因为两者优化方向不同。
  • 再看 GPU 利用率、显存占用和 batch 行为,判断是算力瓶颈还是调度瓶颈。
  • 然后结合请求长度分布、上下文长度、输出长度和工具链路,定位是不是业务层把系统拖慢了。
  • 最后再看框架配置、量化方式、并行策略和缓存策略是否合适。

面试时可以这样答

一个工程感强的回答会提到日志、profiling 和阶段化指标,而不是只说“看 GPU”。

常见追问

  • 首 token 慢和整体慢的排查思路一样吗?
  • 怎么判断是框架问题还是业务流量特征问题?