05. QLoRA 是什么?它相比 LoRA 多做了什么?

整理 QLoRA 的关键思想和与 LoRA 的区别。

简单回答

QLoRA 可以理解成“在量化后的基座模型上再做 LoRA 微调”,它进一步降低了底座模型的显存占用。

详细解析

  • LoRA 主要减少可训练参数,QLoRA 则把被冻结的基座模型也压成更低精度来存储。
  • 常见做法是使用 4-bit 量化保存基础权重,同时仍通过 LoRA 训练少量增量参数。
  • 这样可以让单卡甚至消费级显卡也有机会完成较大模型的微调。
  • 代价是实现更复杂,对数值稳定性、量化方式和训练框架支持有更高要求。

面试时可以这样答

回答时要把 LoRA 和 QLoRA 的分工分清:LoRA 解决“训练谁”,QLoRA 进一步解决“底座怎么更省”。

常见追问

  • QLoRA 的效果会比 LoRA 差很多吗?
  • 为什么量化后还能训练?