02. KV Cache 的作用是什么?为什么它能加速推理?
整理 KV Cache 的机制和价值。
简单回答
KV Cache 的作用是把历史 token 的 Key/Value 保存下来,后续生成时不用每一步都重新计算整段历史上下文。
详细解析
- 在自回归生成中,新 token 只需要和历史 token 交互,如果历史 K/V 每次都重算,成本会非常高。
- 缓存后,当前步只需计算新 token 的 Q、K、V,再与历史缓存做注意力即可。
- 这显著降低了重复计算,是长上下文推理性能的关键基础设施。
- 代价是显存开销会随 batch、层数、头数和上下文长度快速增长。
面试时可以这样答
回答时要同时说出“为什么快”和“为什么贵”,这题才算完整。
常见追问
- KV Cache 为什么会吃显存?
- 和 MQA/GQA 有什么关系?