10. Agent 系统如何做权限与安全控制？

整理 Agent 系统的权限控制、安全边界与审计思路。

简单回答

Agent 的安全控制核心在于"最小权限原则"——Agent 能做什么、不能做什么必须被严格限定。具体包括：工具级别的权限控制（Agent 只能调用被授权的工具）、参数级别的约束（限制参数范围，如只能查询不能删除）、操作审批机制（高风险操作需要人工确认）、输入输出过滤（防止 Prompt 注入和敏感信息泄露）、以及完整的审计日志。

详细解释

为什么 Agent 安全比普通 LLM 更重要

普通 LLM 的安全风险主要在"说错话"——生成有害内容、泄露训练数据等。Agent 的安全风险在于"做错事"——它有能力调用工具执行真实操作（查数据库、发邮件、调 API、修改文件），一旦失控，后果可能远比生成一段有害文本严重。

想象一个有数据库写权限的 Agent，如果被 Prompt 注入攻击，可能被诱导去删除数据。或者一个能发邮件的 Agent，被诱导以公司名义发送虚假信息。这些不是理论风险——现实中已经有类似案例报道过。

工具级别的权限控制

最基本的安全措施是限制 Agent 可以使用的工具集合。每个 Agent 只应该拥有完成其任务所需的最小工具集。一个负责回答客户问题的 Agent 不需要有"删除用户"的权限。

工具权限应该是白名单机制——只开放明确授权的工具，而不是"除了黑名单之外都能用"。因为工具列表可能动态变化，黑名单很容易漏掉新增的危险工具。

在多用户系统中，不同用户的 Agent 可能有不同的权限。比如管理员的 Agent 可以查看所有用户数据，普通用户的 Agent 只能查看自己的。这需要在工具调用时做身份验证和权限检查。

Agent 安全比普通 LLM 安全要求高得多，因为 Agent 有执行真实操作的能力。核心原则是最小权限——Agent 只拥有完成任务所需的最小工具和参数权限。
具体来说分几层。工具级别：白名单机制，只开放明确授权的工具。参数级别：在应用层硬编码约束，比如只允许 SELECT 不允许 DELETE，这个不能依赖 LLM 自觉。高风险操作加 Human-in-the-Loop——Agent 执行前必须用户确认。输入端防 Prompt 注入——特别是工具返回内容中可能混入恶意指令。输出端防敏感信息泄露——对模型回复做脱敏过滤。
所有操作都要有完整的审计日志，记录每一步的决策和执行细节。代码执行类的 Agent 必须在沙箱环境里跑，限制文件和网络访问。
安全控制的原则是"在应用层做硬约束，不指望 LLM 自觉遵守"。LLM 是概率模型，任何基于 Prompt 的安全约束都可能被绕过，所以关键防线必须在代码里。

常见追问

Prompt 注入的具体攻击方式有哪些？怎么防？
你实际项目中工具权限是怎么管理的？
如果 Agent 在沙箱环境中执行了有害代码，怎么检测和阻止？

09. Agent 应该怎么评测？

11. MCP（Model Context Protocol）是什么？它和 Function Calling 有什么关系？

10. Agent 系统如何做权限与安全控制？

为什么 Agent 安全比普通 LLM 更重要

工具级别的权限控制

参数级别的约束

操作审批机制（Human-in-the-Loop）

输入过滤：防 Prompt 注入

输出过滤：防敏感信息泄露

审计日志

沙箱和隔离