【OPENAI】改进前沿大模型的指令层级

OpenAI 提出 IH-Challenge,通过强化学习训练模型在多源指令冲突中按信任级别优先执行(System > Developer > User > Tool),从而提升安全约束遵循、抗提示注入能力和安全可控性。训练后的 GPT-5 Mini-R 在多项学术与内部基准上显著提升指令层级鲁棒性,同时未出现明显能力退化或过度拒绝的副作用。

背景
– 现实中模型会接收到来自 system、developer、user、tool 等多方的指令,冲突时需按信任级别优先执行。\n- 若模型将不可信指令视为权威,会导致越权行为、敏感信息泄露或被提示注入攻击利用。\n\n挑战与难点
– 直接用 RL 训练存在三个主要陷阱:任务过复杂导致非层级失败、评判者(LLM)存在错误、模型学习到捷径(如过度拒绝)以获得高奖励。\n\nIH-Challenge 方法要点
– 设计原则:指令执行任务简单、可用脚本客观评分、无通用捷径可保证高奖励。\n- 每个任务由高权限指令(例如“只能回答是或否”)和低权限指令(尝试违反高权限)组成,模型需生成下一条回复,且可程序化验证是否遵守高权限约束。\n- 使用强化学习训出改进模型 GPT-5 Mini-R。\n\n实验结果
– 指令层级基准与鲁棒性:GPT-5 Mini-R 在多个学术(如 Gandalf、TensorTrust、RealGuardrails)和内部基准上相比基线有稳定提升,尤其在系统/开发者与用户冲突测试中进步明显。\n- 提示注入与安全可控性:在提示注入基准(包括学术 CyberSecEval 2 与内部静态攻击集)上表现更鲁棒;在加入系统级安全规范时,拒绝与安全完成率提高,但帮助性未显著下降。\n- 能力回归检查:在多项能力基准(AIME、GPQA 等)总体无显著退化,IH-Challenge 有效避免过度拒绝问题。\n\n結論與前瞻
– 直接训练指令层级可以实质提升模型在实际生产场景中的安全性与抗攻击能力。\n- 该方法展示了改善安全可控性同时保持有用性的可行路径,值得在更大规模与更多模型上推广验证。

IH-Challenge 是一个务实且可自动评估的思路,对提升模型抵抗提示注入和遵守高优先级约束很有价值。

原文链接

Leave a Comment