04. 量化为什么能提升部署效率?它的主要代价是什么?

整理量化的收益与副作用。

简单回答

量化通过把权重甚至激活从高精度表示压缩到更低比特,减少显存占用和带宽压力,从而提高部署效率。

详细解析

  • 低比特权重占用更小,模型能更容易装进更少 GPU 或更便宜的硬件里。
  • 在很多推理场景里,内存带宽是瓶颈,量化能减少搬运成本。
  • 代价是精度损失、实现复杂度上升以及部分模型和任务上可能出现明显效果退化。
  • 所以量化不是默认必做,而是要结合目标任务和可接受误差来定。

面试时可以这样答

回答时可以用一句总结:量化本质是在效果和资源之间换取更好的部署性。

常见追问

  • 权重量化和激活量化有什么区别?
  • 为什么有的任务量化后掉点更明显?