02. 指令微调的目标是什么?为什么它能改善对话效果?

整理指令微调的作用和它改善用户体验的原因。

简单回答

指令微调的目标不是让模型“知道更多”,而是让模型更会“按要求输出”。

详细解析

  • 预训练模型虽然有知识,但不一定理解任务格式,也不一定稳定遵循用户指令。
  • 指令微调通过问答、总结、翻译、角色扮演等监督样本,让模型学会更自然地对齐人类输入输出模式。
  • 它通常会明显改善遵循格式、保持语气、减少答非所问和增强可控性。
  • 所以很多模型在参数不变的情况下,仅靠高质量 SFT 就能大幅提升可用性。

面试时可以这样答

一个高质量回答应明确:SFT 提升的是“行为对齐和任务可用性”,不只是“知识量”。

常见追问

  • 为什么 SFT 后模型更像聊天助手?
  • SFT 会不会带来遗忘?