Google DeepMind 发布论文《衡量通用人工智能进展:认知分类法》,提出基于认知科学的十项关键能力模型,并倡议以人类基线比较来量化 AI 的一般智能水平;同时发起 Kaggle 黑客松,征集缺口最大的五类能力评测,奖金池 20 万美元以推动实证评估工具落地。
背景与目标
– 问题:缺乏可量化、经验性的工具来衡量通向 AGI 的进展。
– 目标:借助认知科学构建可比较、可测量的评估框架,为追踪 AI 通用智能能力提供科学基础。
认知分类法(10 项关键能力)
– 感知(Perception):从环境中提取与处理感官信息
– 生成(Generation):产生文本、语音和行为输出
– 注意(Attention):聚焦重要信息与资源分配
– 学习(Learning):通过经验与指导获取新知识
– 记忆(Memory):信息的存储与检索
– 推理(Reasoning):基于逻辑进行有效推断
– 元认知(Metacognition):对自身认知过程的监测与理解
– 执行功能(Executive functions):规划、抑制与认知灵活性
– 问题解决(Problem solving):在域内找到有效解决方案
– 社会认知(Social cognition):理解社交信息并做出适当反应
三阶段评估协议(建议流程)
– 广泛任务覆盖:为每项能力设计一组认知任务并使用独立测试集,避免数据泄露。
– 人类基线:收集代表性成年人口的人类表现分布作为对比基准。
– 性能映射:将 AI 系统在各能力上的表现映射到人类分布,评估相对位置与差距。
落地行动:Kaggle 黑客松
– 赛事:”Measuring progress toward AGI: Cognitive abilities”,时间:3 月 17 日—4 月 16 日,结果 6 月 1 日公布。
– 焦点能力:鼓励社区优先为学习、元认知、注意、执行功能和社会认知五类能力设计评测。
– 平台与资源:使用 Kaggle 的 Community Benchmarks 平台,在前沿模型上构建与验证评测。
– 奖金:总池 200,000 美元(每轨道前二各 10,000 美元;四项总优胜各 25,000 美元)。
对实践者的启示
– 评估体系需与认知科学对齐,结合人类基线来解读能力差异。
– 当前短板集中在高层次的自我监控、持续学习和社交理解任务,值得优先投入评测与基准构建。
– 社区协作(如 Kaggle)可快速产生成熟的评测套件,推动模型可靠性与通用性评估标准化。
将认知科学与可复现评测结合,是把“通用性”从概念变为可测指标的重要一步。