【OPENAI】面向前沿模型的第三方评估指南

OpenAI 提出一套第三方评估的实用方法论,强调“harness”(评测环境)对前沿模型能力与安全性评估的决定性影响,建议明确评测目标、揭示评测证据并检验可能破坏结论的效应。文中还就能力诱导、受控比较与防护鲁棒性三类主张给出对应的评测设计与报告要点,旨在推动评估标准和研究方向演进。

背景与目的
– 独立第三方评估对强化 AI 安全生态至关重要。前沿模型具备工具使用、长期状态维护与多步恢复能力,传统把模型当作单轮问答对象的评测方法已不足。

核心概念:harness(评测环境)
– harness 定义:包含工具、状态保存、重试策略、预算等会影响模型表现的整个运行环境。\n- 作用:harness 会改变是否能显现某项能力与观测到的性能高低。

评测要明确的两点
– 明确评测意图:评估旨在验证哪类主张(能力诱导、受控比较、或防护鲁棒性)。
– 报告有效性证据:说明为何结果可信,展示对可能影响有效性的检验。

常见的三类评测主张与对应 harness 选择
– 能力诱导(Capability under strong elicitation):使用能最大化可信表现的 harness、工具与引导,报告预算、tokens、为何合理。\n- 受控比较(Controlled comparison):在共享的任务、评分与预算下比较,用统一或预先固定的标准 harness。\n- 防护鲁棒性(Safeguard robustness under elicited attack):用能引出最强可信攻击的设定测试防护,说明攻击策略、harness 与预算。

需要报告的可能破坏效应(示例)
– 奖励投机(reward hacking)、拒绝(refusal)掩盖行为、训练数据污染、题目无效或资源缺失导致的失败、以及故意降绩(sandbagging)。

关于预算与资源依赖性
– 能力通常随测试时计算预算增长而提升,不能把单次成绩当作上限;应报告在特定预算下的表现与每次成功的预期成本。

对评估标准与未来研究的影响
– 鼓励在评估报告中披露对比设置、harness 细节、已检验的有效性证据与已知局限,以便建立可比、可信的评估标准并推动研究改进。

把评测环境当作一等公民是评估前沿模型可信性的关键,业界应统一披露标准。

原文链接

Leave a Comment