Google 在都柏林“成长于数字时代”峰会上提出面向青少年的生成式AI安全路线图,强调保护、尊重家庭关系与赋能三大支柱;通过内建政策、检测器与严格测试将安全机制嵌入模型开发全流程;并配合外部专家与教育资源,推动AI素养与负责任使用。
背景与目标
– 演讲者:Christy Abizaid(全球政策与标准,信任与安全副总裁)。
– 目标:在推广生成式AI带来的学习与创造机会时,优先保护未成年人身心发展与安全。
三大支柱
– 保护青少年在线安全:制定并执行禁止性内容、暴力极端主义、自伤以及未经同意的亲密影像等政策,限制不适龄内容(如助长饮食失调或危险锻炼)。
– 尊重家庭与亲子关系:考虑家庭在技术使用中的独特性,提供支持家庭对话的资源。
– 赋能学习与探索:提供隐私保护、适龄且高质量的AI体验,推广AI素养与批判性思维。
开发与技术措施
– 将安全策略嵌入开发生命周期:从用户输入到模型输出多层防护。
– 专用分类器:检测与阻断涉及儿童安全的查询与已知有害素材(例如CSAM检测)。
– 针对模型行为的保护:防止模型宣称有意识、模拟恋爱/调情、或扮演有害人物。
测试与治理
– 严格的对抗性测试和青少年安全评估:内容对抗红队(CART)在2025年完成350+次跨模态演练。
– 内部专家与第三方儿童发展顾问协作,结合技术与心理学见解共同设计防护措施。
– 与外部组织合作:加入Thorn等倡议,承诺在设计中嵌入防止AI促成儿童性虐待的原则。
教育与外部资源
– 发布家庭与教育资源:如“开始使用AI的五个要点”视频和家庭对话指南,促进父母与孩子就AI使用进行沟通。
结论
– Google 将在模型能力提升的同时持续把安全与适龄性置于核心,通过多层技术措施、专家咨询与教育支持,努力在保护与赋能之间取得平衡。
Google 强调通过技术与外部协作把儿童保护嵌入产品生命周期,但具体效果与透明度仍需第三方验证。