06. 线上延迟高时你通常怎么优化?

整理时延优化的常见手段和排查顺序。

简单回答

时延优化要先拆链路,看看是检索慢、模型慢、工具慢,还是排队慢,然后再针对性优化。

详细解析

  • RAG 场景先看文档解析和检索链路是否过重,是否有无效召回或多余重排。
  • 模型侧看上下文是否过长、输出是否过长、是否需要更小模型或更优服务框架。
  • 系统侧看缓存、异步化、动态 batch 和资源调度是否合理。
  • 时延优化往往不是单点提速,而是把整条路径上的浪费都减掉。

面试时可以这样答

面试时可以按“链路拆解 → 找最大头 → 验证收益”三步讲。

常见追问

  • 首 token 慢和整体慢怎么分别优化?
  • 缓存应该加在哪一层?