09. 显存优化有哪些常见手段?
整理大模型推理中的常见显存优化方法。
简单回答
显存优化的思路主要有三类:减少模型本体占用、减少 KV Cache 占用、提升显存利用效率。
详细解析
- 模型本体方面可以用量化、结构裁剪、MoE 路由稀疏和更紧凑的部署方式。
- KV Cache 方面可以用 MQA/GQA、压缩缓存、限制最大上下文和做请求调度优化。
- 系统层面可以减少碎片、复用 buffer、做更高效的内存分页和批处理调度。
- 工程上真正难的是在显存节省、性能和效果之间找到平衡点。
面试时可以这样答
回答时不要只说量化,KV Cache 往往才是线上长对话最现实的显存大户。
常见追问
- 为什么长上下文特别吃显存?
- 显存碎片会带来什么问题?