03. 什么是动态 Batch?它为什么重要?
整理动态批处理在推理服务中的作用。
简单回答
动态 Batch 是把短时间内到来的多个请求合并到一起做推理,以提高 GPU 利用率和总体吞吐。
详细解析
- 如果每个请求单独跑,GPU 很容易吃不满,尤其是短请求很多时浪费明显。
- 动态 Batch 能提高吞吐,但也会引入排队等待,因此存在吞吐和时延之间的取舍。
- 真正好用的服务框架通常会按 Prefill/Decode 阶段、长度和调度策略做更细粒度优化。
- 这也是很多推理引擎性能差异的重要来源。
面试时可以这样答
一个成熟回答通常会补一句:线上不是 batch 越大越好,要看 SLA。
常见追问
- 动态 Batch 对首 token 时延有什么影响?
- 为什么异构长度请求不好合批?