墨圆大模型

10. 推理性能问题一般怎么排查？

整理推理性能问题的排查路径。

简单回答

推理性能排查应按请求特征、模型阶段、GPU 利用率、调度策略和系统瓶颈逐层定位，而不是盲目换硬件。

详细解析

先看是 Prefill 慢还是 Decode 慢，因为两者优化方向不同。
再看 GPU 利用率、显存占用和 batch 行为，判断是算力瓶颈还是调度瓶颈。
然后结合请求长度分布、上下文长度、输出长度和工具链路，定位是不是业务层把系统拖慢了。
最后再看框架配置、量化方式、并行策略和缓存策略是否合适。

面试时可以这样答

一个工程感强的回答会提到日志、profiling 和阶段化指标，而不是只说“看 GPU”。

常见追问

首 token 慢和整体慢的排查思路一样吗？
怎么判断是框架问题还是业务流量特征问题？

09. 显存优化有哪些常见手段？

整理大模型推理中的常见显存优化方法。

01. 一个大模型应用的后端架构通常怎么设计？

整理大模型应用服务端的基本模块划分。