【OPENAI】为代理设计抗 prompt 注入策略

OpenAI 介绍了针对 prompt 注入与社工攻击的防护思路：不仅检测恶意输入，还通过约束代理能力、限制敏感信息流出与在关键动作上要求确认来减轻攻击影响。该方法把 AI 视为在对抗性环境中的代理，结合源-汇分析、行为限制与交互式确认（如 Safe Url）以保护用户安全。

背景
– AI 代理可浏览、检索并代表用户执行操作，但这也带来被外部内容操控的风险。
– 传统“提示注入”演变为更复杂的社工类攻击，简单过滤输入已不足以防御。

核心防护理念
– 将问题当作社工风险管理：接受无法完美识别所有恶意输入，但通过限制代理能力来限制攻击后果。
– 源-汇（source-sink）分析：攻击需要“来源”（影响系统的外部内容）和“汇”（危险能力，如发送信息、访问工具）。

已部署的措施
– 能力约束：对可能带来高风险的操作（传输敏感信息、调用外部工具、跟随链接）设置严格限制或人工/用户确认流程。
– 拒绝与安全训练：通过安全训练让模型在大多数劝诱场景下拒绝不当请求。
– Safe Url 机制：检测会向第三方泄露会话信息的情况，向用户展示将被传输的信息并征得确认，或直接阻断并指示代理用其他方式继续。

工程建议
– 在把模型集成到应用时，参考人类客户服务的权限设计：为代理设定可执行范围与审核点。
– 针对具体应用权衡：在某些场景下用更强的模型或更多人工把关来提高抗社工能力，但需考虑成本与可行性。

后续工作
– 继续研究社工对抗方法与相应防御，将发现融入应用安全架构与模型训练流程。

把防御重点从“找出所有恶意字符串”转向“限制代理能力与关键操作的确认”是更务实的安全策略。

原文链接

Leave a Comment Cancel reply