06. 线上延迟高时你通常怎么优化?
整理时延优化的常见手段和排查顺序。
简单回答
时延优化要先拆链路,看看是检索慢、模型慢、工具慢,还是排队慢,然后再针对性优化。
详细解析
- RAG 场景先看文档解析和检索链路是否过重,是否有无效召回或多余重排。
- 模型侧看上下文是否过长、输出是否过长、是否需要更小模型或更优服务框架。
- 系统侧看缓存、异步化、动态 batch 和资源调度是否合理。
- 时延优化往往不是单点提速,而是把整条路径上的浪费都减掉。
面试时可以这样答
面试时可以按“链路拆解 → 找最大头 → 验证收益”三步讲。
常见追问
- 首 token 慢和整体慢怎么分别优化?
- 缓存应该加在哪一层?