02. KV Cache 的作用是什么?为什么它能加速推理?

整理 KV Cache 的机制和价值。

简单回答

KV Cache 的作用是把历史 token 的 Key/Value 保存下来,后续生成时不用每一步都重新计算整段历史上下文。

详细解析

  • 在自回归生成中,新 token 只需要和历史 token 交互,如果历史 K/V 每次都重算,成本会非常高。
  • 缓存后,当前步只需计算新 token 的 Q、K、V,再与历史缓存做注意力即可。
  • 这显著降低了重复计算,是长上下文推理性能的关键基础设施。
  • 代价是显存开销会随 batch、层数、头数和上下文长度快速增长。

面试时可以这样答

回答时要同时说出“为什么快”和“为什么贵”,这题才算完整。

常见追问

  • KV Cache 为什么会吃显存?
  • 和 MQA/GQA 有什么关系?