【OPENAI】ChatGPT增强敏感对话上下文识别

OpenAI 发布了一组安全更新,让 ChatGPT 在敏感对话中更好地识别逐步出现的风险信号,并据此做出更安全的回应。更新包括跨对话的“安全摘要”机制、与心理健康专家合作的训练和评估,内部测试显示在自伤、自杀与伤人场景中安全响应明显提升。

为什么上下文重要
– 单条信息可能平淡,但结合先前对话会显现危险意图。
– 模型需把相关信号联系起来以拒绝危险请求、缓和情绪或引导寻求帮助。

核心更新
– 安全摘要:由专门训练的模型生成短、事实性、安全相关的摘要,仅在罕见高风险情形下、有限时长内使用,用于补充当前对话上下文。
– 模型训练与策略更新:与精神健康专家合作,调整何时创建摘要、应考虑多少历史上下文以及保留时限,确保聚焦于短期高风险判断而非长期个性化记忆。

效果与评估
– 单次长对话中:在自杀与自残场景中,安全响应率提高约50%,在伤人场景提高约16%。
– 跨会话评估:在 GPT‑5.5 Instant 上,伤人场景安全响应提升约52%,自伤/自杀提升约39%。
– 安全摘要质量:在 4,000+ 次评估中,平均安全相关性评分 4.93/5、事实性 4.34/5。
– 普通对话质量未见明显下降,内测用户对有无安全摘要的回复无明显偏好差异。

工作方法与伦理
– 与全球临床专家团队(精神科、心理学、法医心理等)合作,确保创建与使用摘要的判断基于临床实践。
– 强调摘要用途有限:为短期高风险判断服务,不作为长期记忆或广泛个性化依据。

展望
– 当前聚焦自伤、自杀与伤人等急性风险;未来可能在生物安全、网络安全等高风险领域谨慎探索类似方法。
– 将持续改进识别逐步显现风险的能力,并随模型演进加强防护与评估。

相关阅读
– OpenAI 发布的相关安全与心理健康工作链接(原文提供更多细节与关联项目)。

这是把跨对话短时安全记忆用于风险判断的务实进展,但需持续监督以防误判与滥用。

原文链接

Leave a Comment