04. LoRA 的原理是什么?为什么它更省显存?
整理 LoRA 的低秩思想和它的资源优势。
简单回答
LoRA 的核心是把大矩阵更新拆成两个低秩小矩阵相乘,只训练这部分增量参数,而冻结原模型参数。
详细解析
- 直观上看,LoRA 不是直接改完整权重,而是在旁边学习一个低秩补丁。
- 这样训练时需要更新和保存的参数更少,优化器状态也更少,因此显存占用明显下降。
- LoRA 常挂在注意力层和部分线性层上,既保留原模型能力,又能快速适配任务。
- 它的本质 trade-off 是:用更小的更新空间,换取足够好的适配效果。
面试时可以这样答
面试时最好说清楚“省显存不只是参数少,还因为优化器状态和梯度存储都变少”。
常见追问
- LoRA 的 rank 怎么选?
- LoRA 一般加在哪些层上?