12. 如何设计 RAG 的评测指标?

整理 RAG 评测的常见维度与指标思路。

简单回答

RAG 评测至少要覆盖检索质量和生成质量两层,不能只看最终回答是否像样。

详细解析

  • 检索层可以看 recall@k、MRR、命中文档覆盖率、重排前后提升等指标。
  • 生成层可以看答案正确率、引用一致性、拒答准确率、人工偏好和任务完成率。
  • 如果是线上系统,还要补充用户反馈、点击、停留、工单减少率等业务指标。
  • 评测集本身也很关键,要覆盖常见问题、边界问题和无答案问题。

面试时可以这样答

一个成熟回答要体现你知道:RAG 是系统,不是单一模型,因此评测也必须分层。

常见追问

  • 无答案问题怎么评测?
  • 为什么离线指标高,线上满意度仍可能低?