【OPENAI】ChatGPT增强敏感对话上下文识别

OpenAI 发布了一组安全更新，让 ChatGPT 在敏感对话中更好地识别逐步出现的风险信号，并据此做出更安全的回应。更新包括跨对话的“安全摘要”机制、与心理健康专家合作的训练和评估，内部测试显示在自伤、自杀与伤人场景中安全响应明显提升。

为什么上下文重要
– 单条信息可能平淡，但结合先前对话会显现危险意图。
– 模型需把相关信号联系起来以拒绝危险请求、缓和情绪或引导寻求帮助。

核心更新
– 安全摘要：由专门训练的模型生成短、事实性、安全相关的摘要，仅在罕见高风险情形下、有限时长内使用，用于补充当前对话上下文。
– 模型训练与策略更新：与精神健康专家合作，调整何时创建摘要、应考虑多少历史上下文以及保留时限，确保聚焦于短期高风险判断而非长期个性化记忆。

效果与评估
– 单次长对话中：在自杀与自残场景中，安全响应率提高约50%，在伤人场景提高约16%。
– 跨会话评估：在 GPT‑5.5 Instant 上，伤人场景安全响应提升约52%，自伤/自杀提升约39%。
– 安全摘要质量：在 4,000+ 次评估中，平均安全相关性评分 4.93/5、事实性 4.34/5。
– 普通对话质量未见明显下降，内测用户对有无安全摘要的回复无明显偏好差异。

工作方法与伦理
– 与全球临床专家团队（精神科、心理学、法医心理等）合作，确保创建与使用摘要的判断基于临床实践。
– 强调摘要用途有限：为短期高风险判断服务，不作为长期记忆或广泛个性化依据。

展望
– 当前聚焦自伤、自杀与伤人等急性风险；未来可能在生物安全、网络安全等高风险领域谨慎探索类似方法。
– 将持续改进识别逐步显现风险的能力，并随模型演进加强防护与评估。

相关阅读
– OpenAI 发布的相关安全与心理健康工作链接（原文提供更多细节与关联项目）。

这是把跨对话短时安全记忆用于风险判断的务实进展，但需持续监督以防误判与滥用。

原文链接

Leave a Comment Cancel reply