【OPENAI】衡量AI对学习成效的新框架

OpenAI 发布了Learning Outcomes Measurement Suite,一套与学术机构合作的长期测量框架,旨在评估AI工具(如ChatGPT study mode)在不同教育情境下对学习进展的影响,并通过随机对照试验和学习实验室持续验证与改进。该框架强调超越一次性考试成绩,关注模型行为、学习者互动与长期学习结果的三重信号,以便为学校和研究者提供可复用的纵向评估工具。

概述
– 背景:AI(如ChatGPT)能提供个性化学习支持,但现有研究多依赖短期、单一绩效信号(如考试分数),难以捕捉AI如何在真实环境中随时间影响学习。
– 目标:推出Learning Outcomes Measurement Suite,建立标准化、可纵向的测量框架,帮助教育机构理解AI对学习路径与长期成效的影响。

早期研究与启发
– study mode:OpenAI 与教师和教育学专家合作推出的交互式学习模式,包含脚手架、理解检测与引导练习,旨在促进深度学习而非仅给出答案。
– 随机试验:对300多名大学生进行随机分组(对照组使用传统在线资源,两组study mode变体),在神经科学与微观经济学考试前进行实境化的学习会话并衡量效果。
– 主要发现:
– 微观经济学:study mode 组相较于无AI对照组在考试上约有15% 的平均分提升。
– 神经科学:directionally 为正,但与传统资源组差异不显著;部分技术与参与度问题影响了时间投入。
– 参与度与学科差异显示单次测试不足以反映AI对学习的全貌。

Measurement Suite 的设计要点
– 三重信号:模型行为(AI如何响应)、学习者反应(互动与策略变化)、学习结果(短期与长期表现、动机、创造性等)。
– 纵向与情境适配:支持在不同课程、国家和教育体系中定义各自目标并进行长期跟踪,以捕捉持久性与潜在权衡。
– 研究生态:Learning Lab 汇集多所高校与研究机构(如史丹佛SCALE、塔尔图大学、亚利桑那州立大学、UCL、MIT Media Lab)进行验证与迭代,未来计划公开该测量工具供学校与研究者使用。

下一步与承诺
– 正在通过随机对照试验进行广泛验证,并计划与更多合作伙伴发布后续研究成果与开源测量资源,帮助教育系统有依据地将AI整合进教学实践。

这套面向纵向效果的测量框架是把AI教育研究从短期绩效拓展为长期学习影响评估的重要步骤。

原文链接

Leave a Comment