12. 如何设计 RAG 的评测指标?
整理 RAG 评测的常见维度与指标思路。
简单回答
RAG 评测至少要覆盖检索质量和生成质量两层,不能只看最终回答是否像样。
详细解析
- 检索层可以看 recall@k、MRR、命中文档覆盖率、重排前后提升等指标。
- 生成层可以看答案正确率、引用一致性、拒答准确率、人工偏好和任务完成率。
- 如果是线上系统,还要补充用户反馈、点击、停留、工单减少率等业务指标。
- 评测集本身也很关键,要覆盖常见问题、边界问题和无答案问题。
面试时可以这样答
一个成熟回答要体现你知道:RAG 是系统,不是单一模型,因此评测也必须分层。
常见追问
- 无答案问题怎么评测?
- 为什么离线指标高,线上满意度仍可能低?