【GOOGLE】DeepMind提出AGI认知框架

Google DeepMind 发布论文《衡量通用人工智能进展：认知分类法》，提出基于认知科学的十项关键能力模型，并倡议以人类基线比较来量化 AI 的一般智能水平；同时发起 Kaggle 黑客松，征集缺口最大的五类能力评测，奖金池 20 万美元以推动实证评估工具落地。

背景与目标
– 问题：缺乏可量化、经验性的工具来衡量通向 AGI 的进展。
– 目标：借助认知科学构建可比较、可测量的评估框架，为追踪 AI 通用智能能力提供科学基础。

认知分类法（10 项关键能力）
– 感知（Perception）：从环境中提取与处理感官信息
– 生成（Generation）：产生文本、语音和行为输出
– 注意（Attention）：聚焦重要信息与资源分配
– 学习（Learning）：通过经验与指导获取新知识
– 记忆（Memory）：信息的存储与检索
– 推理（Reasoning）：基于逻辑进行有效推断
– 元认知（Metacognition）：对自身认知过程的监测与理解
– 执行功能（Executive functions）：规划、抑制与认知灵活性
– 问题解决（Problem solving）：在域内找到有效解决方案
– 社会认知（Social cognition）：理解社交信息并做出适当反应

三阶段评估协议（建议流程）
– 广泛任务覆盖：为每项能力设计一组认知任务并使用独立测试集，避免数据泄露。
– 人类基线：收集代表性成年人口的人类表现分布作为对比基准。
– 性能映射：将 AI 系统在各能力上的表现映射到人类分布，评估相对位置与差距。

落地行动：Kaggle 黑客松
– 赛事：”Measuring progress toward AGI: Cognitive abilities”，时间：3 月 17 日—4 月 16 日，结果 6 月 1 日公布。
– 焦点能力：鼓励社区优先为学习、元认知、注意、执行功能和社会认知五类能力设计评测。
– 平台与资源：使用 Kaggle 的 Community Benchmarks 平台，在前沿模型上构建与验证评测。
– 奖金：总池 200,000 美元（每轨道前二各 10,000 美元；四项总优胜各 25,000 美元）。

对实践者的启示
– 评估体系需与认知科学对齐，结合人类基线来解读能力差异。
– 当前短板集中在高层次的自我监控、持续学习和社交理解任务，值得优先投入评测与基准构建。
– 社区协作（如 Kaggle）可快速产生成熟的评测套件，推动模型可靠性与通用性评估标准化。

将认知科学与可复现评测结合，是把“通用性”从概念变为可测指标的重要一步。

原文链接

Leave a Comment Cancel reply