【OPENAI】部署仿真：发布前预测模型行为

OpenAI 推出 Deployment Simulation，通过在隐私保护下回放真实对话并用候选模型重生成回复，来在发布前预测模型在真实部署中的不良行为频率与新风险形式。这种方法能补充传统评估，降低评估意识偏差并扩展到具工具使用的 agent 场景，已用于 GPT‑5 系列的预发布风险评估与改进。

简介
– 目的：在模型发布前预估其在真实使用中可能出现的行为和风险，尤其是随能力提升出现的新风险。
– 方法：回放近期生产对话（去除原助理回复），用候选模型重生成回复并检索是否出现不良行为。

Deployment Simulation 的优点
– 提高代表性：使用真实对话分布，减少传统评估的选择偏差。
– 扩展覆盖度：通过增加仿真流量（以算力换覆盖）能发现更多常见但未被刻意构造的风险。
– 降低评估可识别性：模型难以区分仿真对话与真实部署，减少“被测觉察”带来的行为扭曲。

实验与验证
– 在多次 GPT‑5 系列 Thinking 部署上应用，事前对 20 类不良行为做了预注册预测并进行回溯验证。
– 在 agent/工具使用场景（agentic rollouts）也能模拟工具交互轨迹，用于更复杂的风险评估。
– 已将仿真结果用于发现传统评估盲点，并指导缓解措施与部署决策。

局限与注意事项
– 对低于约 1/200,000 消息频率的极低发生率事件，方法不具统计检测能力。
– 需要一次性基础设施投入与对生产前缀的安全、隐私处理。
– 当前展示聚焦在已知或可搜寻的行为类别，但方法可扩展到其他属性。

结论
– Deployment Simulation 是对传统人工/合成评估的重要补充，有助于在发布前更准确估计常见部署风险并发现新型不良行为，预计随着工具简化会在模型开发流程中扮演更大角色。

用真实对话回放做发布前仿真是个务实可扩展的补充，但对极低频风险仍需配合其他评估手段。

原文链接

【OPENAI】部署仿真：发布前预测模型行为

不错过任何一条 AI 大事

相关阅读

OpenAI 的“AI 年代成绩单”：不再只看 token，开始看每一美元买到多少工作

习近平在WAIC上称 AI 不应成为“一国独奏”：中国押注全球治理与能力建设