02. 指令微调的目标是什么?为什么它能改善对话效果?
整理指令微调的作用和它改善用户体验的原因。
简单回答
指令微调的目标不是让模型“知道更多”,而是让模型更会“按要求输出”。
详细解析
- 预训练模型虽然有知识,但不一定理解任务格式,也不一定稳定遵循用户指令。
- 指令微调通过问答、总结、翻译、角色扮演等监督样本,让模型学会更自然地对齐人类输入输出模式。
- 它通常会明显改善遵循格式、保持语气、减少答非所问和增强可控性。
- 所以很多模型在参数不变的情况下,仅靠高质量 SFT 就能大幅提升可用性。
面试时可以这样答
一个高质量回答应明确:SFT 提升的是“行为对齐和任务可用性”,不只是“知识量”。
常见追问
- 为什么 SFT 后模型更像聊天助手?
- SFT 会不会带来遗忘?