05. AWQ、GPTQ、INT8、INT4 这些概念该怎么理解?
整理常见量化概念之间的关系。
简单回答
INT8、INT4 说的是量化后的比特宽度,AWQ、GPTQ 更偏具体量化方法或算法。
详细解析
- INT8 一般比 INT4 精度更稳,但压缩率稍低;INT4 更省资源,但更容易掉效果。
- GPTQ 是一种后训练量化方法,核心是尽量在量化时减小权重近似误差。
- AWQ 更强调保护重要权重通道,在很多大模型部署实践里比较常见。
- 面试时不一定要深挖算法细节,但要把“精度等级”和“量化方法”区分开。
面试时可以这样答
回答这题时,先分层:比特宽度是一层,具体算法又是一层。
常见追问
- 后训练量化和量化感知训练有什么区别?
- 为什么 AWQ 在大模型里常被提到?