09. Agent 应该怎么评测?

整理 Agent 评测的关键维度。

简单回答

评测 Agent 不能只看最终答案,还要看任务完成率、工具使用是否正确、中间步骤是否合理以及成本与时延。

详细解析

  • 任务型指标包括成功率、完成率、平均步骤数、工具调用成功率和重试次数。
  • 质量型指标包括答案正确性、依据充分性、格式合规性和安全性。
  • 工程型指标包括平均耗时、token 成本、工具调用成本和失败恢复能力。
  • 如果是生产系统,最好有离线基准集加线上真实任务回放两套评测。

面试时可以这样答

回答时要强调:Agent 评测天然是系统评测,不是单模型评测。

常见追问

  • 为什么要看中间轨迹?
  • Agent 评测和 RAG 评测有什么不同?