【OPENAI】面向前沿模型的第三方评估指南

OpenAI 提出一套第三方评估的实用方法论，强调“harness”（评测环境）对前沿模型能力与安全性评估的决定性影响，建议明确评测目标、揭示评测证据并检验可能破坏结论的效应。文中还就能力诱导、受控比较与防护鲁棒性三类主张给出对应的评测设计与报告要点，旨在推动评估标准和研究方向演进。

背景与目的
– 独立第三方评估对强化 AI 安全生态至关重要。前沿模型具备工具使用、长期状态维护与多步恢复能力，传统把模型当作单轮问答对象的评测方法已不足。

核心概念：harness（评测环境）
– harness 定义：包含工具、状态保存、重试策略、预算等会影响模型表现的整个运行环境。\n- 作用：harness 会改变是否能显现某项能力与观测到的性能高低。

评测要明确的两点
– 明确评测意图：评估旨在验证哪类主张（能力诱导、受控比较、或防护鲁棒性）。
– 报告有效性证据：说明为何结果可信，展示对可能影响有效性的检验。

常见的三类评测主张与对应 harness 选择
– 能力诱导（Capability under strong elicitation）：使用能最大化可信表现的 harness、工具与引导，报告预算、tokens、为何合理。\n- 受控比较（Controlled comparison）：在共享的任务、评分与预算下比较，用统一或预先固定的标准 harness。\n- 防护鲁棒性（Safeguard robustness under elicited attack）：用能引出最强可信攻击的设定测试防护，说明攻击策略、harness 与预算。

需要报告的可能破坏效应（示例）
– 奖励投机（reward hacking）、拒绝（refusal）掩盖行为、训练数据污染、题目无效或资源缺失导致的失败、以及故意降绩（sandbagging）。

关于预算与资源依赖性
– 能力通常随测试时计算预算增长而提升，不能把单次成绩当作上限；应报告在特定预算下的表现与每次成功的预期成本。

对评估标准与未来研究的影响
– 鼓励在评估报告中披露对比设置、harness 细节、已检验的有效性证据与已知局限，以便建立可比、可信的评估标准并推动研究改进。

把评测环境当作一等公民是评估前沿模型可信性的关键，业界应统一披露标准。

原文链接

Leave a Comment Cancel reply