10. 微调效果应该怎么评估?
整理微调评估的基本框架和常见指标。
简单回答
微调评估不能只看 loss,要同时看离线任务指标、人工抽检和真实业务表现。
详细解析
- 先根据目标任务设定核心指标,比如准确率、召回率、格式遵循率、拒答率或偏好胜率。
- 离线评测要覆盖代表性场景和边界样本,避免只在训练集附近看起来很强。
- 人工评审适合看答案质量、稳定性和是否有明显风格问题。
- 如果最终是线上系统,还要做 A/B Test,看点击、转化、时延、人工接管率等真实业务指标。
面试时可以这样答
好的回答会体现你知道“模型效果”和“业务效果”不是一回事。
常见追问
- 为什么只看 benchmark 不够?
- 评估集应该怎么构造?