09. 显存优化有哪些常见手段?

整理大模型推理中的常见显存优化方法。

简单回答

显存优化的思路主要有三类:减少模型本体占用、减少 KV Cache 占用、提升显存利用效率。

详细解析

  • 模型本体方面可以用量化、结构裁剪、MoE 路由稀疏和更紧凑的部署方式。
  • KV Cache 方面可以用 MQA/GQA、压缩缓存、限制最大上下文和做请求调度优化。
  • 系统层面可以减少碎片、复用 buffer、做更高效的内存分页和批处理调度。
  • 工程上真正难的是在显存节省、性能和效果之间找到平衡点。

面试时可以这样答

回答时不要只说量化,KV Cache 往往才是线上长对话最现实的显存大户。

常见追问

  • 为什么长上下文特别吃显存?
  • 显存碎片会带来什么问题?