03. 什么是动态 Batch?它为什么重要?

整理动态批处理在推理服务中的作用。

简单回答

动态 Batch 是把短时间内到来的多个请求合并到一起做推理,以提高 GPU 利用率和总体吞吐。

详细解析

  • 如果每个请求单独跑,GPU 很容易吃不满,尤其是短请求很多时浪费明显。
  • 动态 Batch 能提高吞吐,但也会引入排队等待,因此存在吞吐和时延之间的取舍。
  • 真正好用的服务框架通常会按 Prefill/Decode 阶段、长度和调度策略做更细粒度优化。
  • 这也是很多推理引擎性能差异的重要来源。

面试时可以这样答

一个成熟回答通常会补一句:线上不是 batch 越大越好,要看 SLA。

常见追问

  • 动态 Batch 对首 token 时延有什么影响?
  • 为什么异构长度请求不好合批?