【OPENAI】衡量AI对学习成效的新框架

OpenAI 发布了Learning Outcomes Measurement Suite，一套与学术机构合作的长期测量框架，旨在评估AI工具（如ChatGPT study mode）在不同教育情境下对学习进展的影响，并通过随机对照试验和学习实验室持续验证与改进。该框架强调超越一次性考试成绩，关注模型行为、学习者互动与长期学习结果的三重信号，以便为学校和研究者提供可复用的纵向评估工具。

概述
– 背景：AI（如ChatGPT）能提供个性化学习支持，但现有研究多依赖短期、单一绩效信号（如考试分数），难以捕捉AI如何在真实环境中随时间影响学习。
– 目标：推出Learning Outcomes Measurement Suite，建立标准化、可纵向的测量框架，帮助教育机构理解AI对学习路径与长期成效的影响。

早期研究与启发
– study mode：OpenAI 与教师和教育学专家合作推出的交互式学习模式，包含脚手架、理解检测与引导练习，旨在促进深度学习而非仅给出答案。
– 随机试验：对300多名大学生进行随机分组（对照组使用传统在线资源，两组study mode变体），在神经科学与微观经济学考试前进行实境化的学习会话并衡量效果。
– 主要发现：
– 微观经济学：study mode 组相较于无AI对照组在考试上约有15% 的平均分提升。
– 神经科学：directionally 为正，但与传统资源组差异不显著；部分技术与参与度问题影响了时间投入。
– 参与度与学科差异显示单次测试不足以反映AI对学习的全貌。

Measurement Suite 的设计要点
– 三重信号：模型行为（AI如何响应）、学习者反应（互动与策略变化）、学习结果（短期与长期表现、动机、创造性等）。
– 纵向与情境适配：支持在不同课程、国家和教育体系中定义各自目标并进行长期跟踪，以捕捉持久性与潜在权衡。
– 研究生态：Learning Lab 汇集多所高校与研究机构（如史丹佛SCALE、塔尔图大学、亚利桑那州立大学、UCL、MIT Media Lab）进行验证与迭代，未来计划公开该测量工具供学校与研究者使用。

下一步与承诺
– 正在通过随机对照试验进行广泛验证，并计划与更多合作伙伴发布后续研究成果与开源测量资源，帮助教育系统有依据地将AI整合进教学实践。

这套面向纵向效果的测量框架是把AI教育研究从短期绩效拓展为长期学习影响评估的重要步骤。

原文链接

Leave a Comment Cancel reply