09. Agent 应该怎么评测?
整理 Agent 评测的关键维度。
简单回答
评测 Agent 不能只看最终答案,还要看任务完成率、工具使用是否正确、中间步骤是否合理以及成本与时延。
详细解析
- 任务型指标包括成功率、完成率、平均步骤数、工具调用成功率和重试次数。
- 质量型指标包括答案正确性、依据充分性、格式合规性和安全性。
- 工程型指标包括平均耗时、token 成本、工具调用成本和失败恢复能力。
- 如果是生产系统,最好有离线基准集加线上真实任务回放两套评测。
面试时可以这样答
回答时要强调:Agent 评测天然是系统评测,不是单模型评测。
常见追问
- 为什么要看中间轨迹?
- Agent 评测和 RAG 评测有什么不同?