10. 微调效果应该怎么评估?

整理微调评估的基本框架和常见指标。

简单回答

微调评估不能只看 loss,要同时看离线任务指标、人工抽检和真实业务表现。

详细解析

  • 先根据目标任务设定核心指标,比如准确率、召回率、格式遵循率、拒答率或偏好胜率。
  • 离线评测要覆盖代表性场景和边界样本,避免只在训练集附近看起来很强。
  • 人工评审适合看答案质量、稳定性和是否有明显风格问题。
  • 如果最终是线上系统,还要做 A/B Test,看点击、转化、时延、人工接管率等真实业务指标。

面试时可以这样答

好的回答会体现你知道“模型效果”和“业务效果”不是一回事。

常见追问

  • 为什么只看 benchmark 不够?
  • 评估集应该怎么构造?