09. 什么是灾难性遗忘?怎么缓解?
整理模型在继续训练后的遗忘问题。
简单回答
灾难性遗忘是指模型在学习新任务或新领域时,把原本已有的重要能力冲掉了。
详细解析
- 这通常发生在数据分布过窄、训练强度过大或只盯着单一目标优化时。
- 表现上可能是某个专业任务变强了,但通用问答、格式遵循或原有安全能力明显下降。
- 缓解方法包括控制学习率和训练步数、混入通用数据、做多任务配比、使用参数高效微调等。
- 本质上是在解决“新能力注入”和“原能力保持”之间的平衡。
面试时可以这样答
回答时最好给一个现象例子,这样比纯定义更有说服力。
常见追问
- 为什么继续预训练也会遗忘?
- LoRA 是否能缓解遗忘?