【OPENAI】Notion 用 GPT‑5 重构智能工作流

Notion 用 GPT‑5 从底层重建代理架构,让单一推理模型协调子代理、访问工具并自主执行多步骤任务。实测显示在真实产品工作负载上,GPT‑5 在复杂研究、多步结构化任务和含糊/过时信息处理上显著优于其他模型,推动 Notion 3.0 实现能主动运行工作流的 AI 体验。

概览
– 背景:自 GPT‑4 起 Notion 深度整合生成式模型,但传统以任务为中心的提示链在代理式需求面前受限。
– 目标:构建适配“会推理与决策”的模型架构,而不是对旧系统打补丁。

架构改动要点
– 中央推理模型:替代任务特定的提示链,负责总体规划与决策。
– 模块化子代理:可调用搜索(Notion/Slack/网络)、编辑数据库、合成回应等工具,按任务需求组合使用。
– 设计原则:从一开始就为模型自治(agentic)设计,给模型“推理与行动”的空间。

评估与效果
– 测试方法:用真实、高优先级的用户任务(Research Mode 问题、长任务、多步推理、含糊/过时信息)进行 LLM‑as‑judge、结构化测试夹具与人工标注评估。
– 关键结果:
– 在与真实用户反馈对齐的输出上,比其他最先进模型提升 7.6%。
– 在困难的 Research Mode 问题上提升 15%。
– 在多步结构化任务(如截止日期更新、竞争对手研究)上提升 100% 以上。
– 在含冲突或过时输入的基准中唯一完全饱和的模型。

实践经验与建议
– 用真实任务评估,而非合成基准。
– 把重点放在含糊、过时或需多步推理的问题上,GPT‑5 在这些场景更能拉开差距。
– 为自治代理架构化:提供清晰的工具描述、良好界面,给模型执行工具和决策的空间。
– 若现有系统为完成式模型设计,重建往往比补丁更可扩展。

结论
– Notion 3.0 将 AI 从嵌入式助手进化为能规划、执行并汇报的工作流执行者;GPT‑5 的推理能力是关键驱动。团队认为,若未来模型带来新能力,他们会继续为之重构系统以充分利用新能力。

Notion 的经验表明,面向自治代理的架构重构比在旧堆栈上打补丁更能释放大模型的新能力。

原文链接

Leave a Comment