05. AWQ、GPTQ、INT8、INT4 这些概念该怎么理解?

整理常见量化概念之间的关系。

简单回答

INT8、INT4 说的是量化后的比特宽度,AWQ、GPTQ 更偏具体量化方法或算法。

详细解析

  • INT8 一般比 INT4 精度更稳,但压缩率稍低;INT4 更省资源,但更容易掉效果。
  • GPTQ 是一种后训练量化方法,核心是尽量在量化时减小权重近似误差。
  • AWQ 更强调保护重要权重通道,在很多大模型部署实践里比较常见。
  • 面试时不一定要深挖算法细节,但要把“精度等级”和“量化方法”区分开。

面试时可以这样答

回答这题时,先分层:比特宽度是一层,具体算法又是一层。

常见追问

  • 后训练量化和量化感知训练有什么区别?
  • 为什么 AWQ 在大模型里常被提到?