05. QLoRA 是什么?它相比 LoRA 多做了什么?
整理 QLoRA 的关键思想和与 LoRA 的区别。
简单回答
QLoRA 可以理解成“在量化后的基座模型上再做 LoRA 微调”,它进一步降低了底座模型的显存占用。
详细解析
- LoRA 主要减少可训练参数,QLoRA 则把被冻结的基座模型也压成更低精度来存储。
- 常见做法是使用 4-bit 量化保存基础权重,同时仍通过 LoRA 训练少量增量参数。
- 这样可以让单卡甚至消费级显卡也有机会完成较大模型的微调。
- 代价是实现更复杂,对数值稳定性、量化方式和训练框架支持有更高要求。
面试时可以这样答
回答时要把 LoRA 和 QLoRA 的分工分清:LoRA 解决“训练谁”,QLoRA 进一步解决“底座怎么更省”。
常见追问
- QLoRA 的效果会比 LoRA 差很多吗?
- 为什么量化后还能训练?