06. Prompt 注入是什么?怎么防护?
整理 Prompt 注入的原理和基础防护思路。
简单回答
Prompt 注入是指外部输入通过恶意或误导性文本,影响模型偏离系统原有指令和安全边界。
详细解析
- 典型风险包括绕过系统提示、诱导泄露内部信息、让 Agent 错误使用工具等。
- 防护思路包括输入清洗、角色隔离、工具白名单、结果校验和高风险操作确认。
- 如果是 RAG 场景,还要防止知识库文档本身带有恶意提示内容。
- Prompt 注入不是纯模型问题,而是整个应用链路的安全问题。
面试时可以这样答
面试时不要把它答成“加个正则过滤”,真正防护需要多层收口。
常见追问
- RAG 文档为什么也会变成注入源?
- 系统 prompt 是否绝对可靠?