【GOOGLE】面向青少年的生成式AI安全路线图

Google 在都柏林“成长于数字时代”峰会上提出面向青少年的生成式AI安全路线图，强调保护、尊重家庭关系与赋能三大支柱；通过内建政策、检测器与严格测试将安全机制嵌入模型开发全流程；并配合外部专家与教育资源，推动AI素养与负责任使用。

背景与目标
– 演讲者：Christy Abizaid（全球政策与标准，信任与安全副总裁）。
– 目标：在推广生成式AI带来的学习与创造机会时，优先保护未成年人身心发展与安全。

三大支柱
– 保护青少年在线安全：制定并执行禁止性内容、暴力极端主义、自伤以及未经同意的亲密影像等政策，限制不适龄内容（如助长饮食失调或危险锻炼）。
– 尊重家庭与亲子关系：考虑家庭在技术使用中的独特性，提供支持家庭对话的资源。
– 赋能学习与探索：提供隐私保护、适龄且高质量的AI体验，推广AI素养与批判性思维。

开发与技术措施
– 将安全策略嵌入开发生命周期：从用户输入到模型输出多层防护。
– 专用分类器：检测与阻断涉及儿童安全的查询与已知有害素材（例如CSAM检测）。
– 针对模型行为的保护：防止模型宣称有意识、模拟恋爱/调情、或扮演有害人物。

测试与治理
– 严格的对抗性测试和青少年安全评估：内容对抗红队（CART）在2025年完成350+次跨模态演练。
– 内部专家与第三方儿童发展顾问协作，结合技术与心理学见解共同设计防护措施。
– 与外部组织合作：加入Thorn等倡议，承诺在设计中嵌入防止AI促成儿童性虐待的原则。

教育与外部资源
– 发布家庭与教育资源：如“开始使用AI的五个要点”视频和家庭对话指南，促进父母与孩子就AI使用进行沟通。

结论
– Google 将在模型能力提升的同时持续把安全与适龄性置于核心，通过多层技术措施、专家咨询与教育支持，努力在保护与赋能之间取得平衡。

Google 强调通过技术与外部协作把儿童保护嵌入产品生命周期，但具体效果与透明度仍需第三方验证。

原文链接

Leave a Comment Cancel reply