OpenAI 推出 Deployment Simulation,通过在隐私保护下回放真实对话并用候选模型重生成回复,来在发布前预测模型在真实部署中的不良行为频率与新风险形式。这种方法能补充传统评估,降低评估意识偏差并扩展到具工具使用的 agent 场景,已用于 GPT‑5 系列的预发布风险评估与改进。
简介
– 目的:在模型发布前预估其在真实使用中可能出现的行为和风险,尤其是随能力提升出现的新风险。
– 方法:回放近期生产对话(去除原助理回复),用候选模型重生成回复并检索是否出现不良行为。
Deployment Simulation 的优点
– 提高代表性:使用真实对话分布,减少传统评估的选择偏差。
– 扩展覆盖度:通过增加仿真流量(以算力换覆盖)能发现更多常见但未被刻意构造的风险。
– 降低评估可识别性:模型难以区分仿真对话与真实部署,减少“被测觉察”带来的行为扭曲。
实验与验证
– 在多次 GPT‑5 系列 Thinking 部署上应用,事前对 20 类不良行为做了预注册预测并进行回溯验证。
– 在 agent/工具使用场景(agentic rollouts)也能模拟工具交互轨迹,用于更复杂的风险评估。
– 已将仿真结果用于发现传统评估盲点,并指导缓解措施与部署决策。
局限与注意事项
– 对低于约 1/200,000 消息频率的极低发生率事件,方法不具统计检测能力。
– 需要一次性基础设施投入与对生产前缀的安全、隐私处理。
– 当前展示聚焦在已知或可搜寻的行为类别,但方法可扩展到其他属性。
结论
– Deployment Simulation 是对传统人工/合成评估的重要补充,有助于在发布前更准确估计常见部署风险并发现新型不良行为,预计随着工具简化会在模型开发流程中扮演更大角色。
用真实对话回放做发布前仿真是个务实可扩展的补充,但对极低频风险仍需配合其他评估手段。