OpenAI 发布了针对青少年的可提示(prompt-based)安全政策包,配合开源权重模型 gpt-oss-safeguard,帮助开发者将青少年特有风险转化为可执行的分类器并部署在实时过滤或离线分析中。该政策在 Common Sense Media 与 everyone.ai 等外部专家参与下制定,覆盖暴力、性内容、身体形象、危险挑战、角色扮演与年龄限制商品等场景,旨在作为可适配的起点而非最终解决方案。
概述
- 发布内容:一套针对青少年的 prompt-based 安全政策(teen-safety-policy-pack),可直接用于 gpt-oss-safeguard-20b 等推理模型。
- 目标:帮助开发者把抽象安全目标转化为可重复、可执行的规则,降低定义与实施青少年专属风险的门槛。
主要功能与覆盖范围
- 可用场景:实时内容过滤与离线用户生成内容分析。
- 初始主题:
- 图形化暴力内容
- 图形化性内容
- 有害身体理想与行为
- 危险活动与挑战
- 浪漫或暴力角色扮演
- 年龄限制商品与服务
方法与协作
- 形式:将政策以 prompts 结构化,便于直接喂入开源安全模型并集成到现有工作流中。
- 外部参与:与 Common Sense Media、everyone.ai 等组织合作,借助其专业意见完善范围、提示结构与边界情形。
使用建议与限制
- 起点而非终点:这些政策旨在作为可适配的基础,开发者应根据自身产品的受众与风险进一步扩展与调整。
- 建议的防护层级:结合产品设计、用户控制、面向青少年的透明度、监测系统与适龄响应,采用深度防御(defense-in-depth)。
- 非 OpenAI 内部全面策略:该政策包基于公开经验,但不等同于 OpenAI 的全部内部政策或保障措施。
获取与拓展
- 开源与适配:政策在 GitHub 发布,可翻译、扩展以覆盖更多风险领域,鼓励社区共同改进与共享实践。
把政策做成可直接用的 prompts 并配合开源 safeguard,是把青少年安全从理论落地到工程实践的一步实用举措。