OpenAI 介绍了针对 prompt 注入与社工攻击的防护思路:不仅检测恶意输入,还通过约束代理能力、限制敏感信息流出与在关键动作上要求确认来减轻攻击影响。该方法把 AI 视为在对抗性环境中的代理,结合源-汇分析、行为限制与交互式确认(如 Safe Url)以保护用户安全。
背景
– AI 代理可浏览、检索并代表用户执行操作,但这也带来被外部内容操控的风险。
– 传统“提示注入”演变为更复杂的社工类攻击,简单过滤输入已不足以防御。
核心防护理念
– 将问题当作社工风险管理:接受无法完美识别所有恶意输入,但通过限制代理能力来限制攻击后果。
– 源-汇(source-sink)分析:攻击需要“来源”(影响系统的外部内容)和“汇”(危险能力,如发送信息、访问工具)。
已部署的措施
– 能力约束:对可能带来高风险的操作(传输敏感信息、调用外部工具、跟随链接)设置严格限制或人工/用户确认流程。
– 拒绝与安全训练:通过安全训练让模型在大多数劝诱场景下拒绝不当请求。
– Safe Url 机制:检测会向第三方泄露会话信息的情况,向用户展示将被传输的信息并征得确认,或直接阻断并指示代理用其他方式继续。
工程建议
– 在把模型集成到应用时,参考人类客户服务的权限设计:为代理设定可执行范围与审核点。
– 针对具体应用权衡:在某些场景下用更强的模型或更多人工把关来提高抗社工能力,但需考虑成本与可行性。
后续工作
– 继续研究社工对抗方法与相应防御,将发现融入应用安全架构与模型训练流程。
把防御重点从“找出所有恶意字符串”转向“限制代理能力与关键操作的确认”是更务实的安全策略。