Anthropic 发布了第三版《责任性扩展政策》(RSP v3.0),回顾过去两年实践并对政策进行强化与透明度提升的调整。新版在保留按能力触发(if-then)承诺框架的同时,改进了评估、应对生物与其他高风险能力的不确定性,并强调行业合作与政府参与来应对难以单厂应对的风险。
背景与目标
- RSP 的初衷:通过“条件式(if-then)承诺”在不同 AI 安全等级(ASL)达到时触发相应更严的防护措施,旨在在能力快速演进时降低灾难性风险。
- 早期做法:详述了 ASL-2/ASL-3 的具体防护要求,后期 ASL(如 ASL-4 及以上)保留更多灵活性以待能力进一步显现。
RSP 的作用机制(希望达成的变化)
- 内部约束力:将安全防护作为模型训练和上线的要求,推动公司内部资源与优先级。
- 促进行业“向上竞赛”:希望推动其他公司采纳类似框架,形成自愿规范并影响监管。
- 能力阈值作为共识节点:在关键能力阈值处收集证据并推动多方采取行动。
- 面向未来的协同:认识到部分高等级对策难以单一公司实现,需要政府与多方协调。
过去两年评估:成功之处
- 刺激内部安全防护改进:为满足 ASL-3,Anthropic 开发并改进了输入/输出分类器等防护手段,并于 2025 年 5 月启动 ASL-3 防护。
- 促成行业跟进:OpenAI 与 Google DeepMind 在数月内采纳了类似框架,一些公司也部署了生物武器相关分类器。
- 影响政策与透明度要求:RSP 原则帮助塑造早期监管与合规框架(如加州 SB 53、纽约 RAISE 草案与欧盟 AI 法案的行为准则),并促使 Anthropic 发布 Frontier Compliance Framework 等文档。
不足与挑战
- 能力阈值模糊:事先设定的阈值在实践中经常产生不确定性,现有评估方法不足以给出决定性结论。
- 生物风险的“模糊地带”:快速的模型能力提升让简单测试既无法证明风险低,也不足以断言风险高;湿实验等更强证据耗时且结果仍模糊。
- 政府行动滞后:尽管能力快速上升,政府在 AI 安全方面的制度与执行推进较慢,政策环境有时更偏重竞争与增长。
RSP v3.0 的重点改进(高层概览)
- 强化透明度与问责:提高决策过程的公开程度,明确责任机制。
- 改进评估方法:针对评估科学的不足做出调整,以减少阈值判断的不确定性(文中描述了思路与若干手段,但未全部细化)。
- 更强调多方协同:承认某些对策需政府与行业协作,推动国际与跨机构合作路径。
结论
- Anthropic 认为 RSP 在推动公司内部改进与促进行业内最低规范方面有效,但在将阈值作为多方共识触发点以及在评估科学上仍需更多工作。RSP v3.0 旨在通过更大透明度、改进评估与强调协作来弥补这些不足。
这是一次务实的迭代:Anthropic 在承认评估不确定性的同时,加强透明与协同,是产业治理走向成熟的必要步骤。