Databricks将GPT-5.5用于企业级Agent工作流,该模型在Databricks的OfficeQA Pro基准上创下新SOTA,尤其在解析扫描文档和旧档案的任务上显著减少错误并提升编排可靠性。GPT-5.5已通过AI Unity Gateway向使用AgentBricks与Agent Supervisor API的客户开放,支持复杂的解析、检索与多步执行场景。
背景
- OfficeQA Pro:Databricks用于评估企业级复杂文档任务(扫描PDF、遗留文件、长上下文)的基准。
- 挑战点:文档解析中的小错误会在后续流程中放大,导致Agent失效或走冤枉路。
主要发现
- 性能提升:GPT-5.5在OfficeQA Pro上成为首个突破50%准确率的模型,相比GPT-5.4错误率下降约46%。
- 解析能力:在解析旧档和扫描PDF时有“阶跃式”提升,能更准确提取数字与关键信息。
- 编排与检索:更少的无效检索行为,能更可靠地检索相关上下文并完成多步骤任务,降低人工监督需求。
产品落地
- 可用性:Databricks通过AI Unity Gateway向客户提供GPT-5.5。
- 集成场景:GPT-5.5在AgentBricks与Agent Supervisor API中作为监督与指挥模型,协调解析、检索与特化Agent的执行。
影响与适用人群
- 适合对象:需要处理大量扫描档、遗留数据及长文档的企业级搜索、RPA与知识工作流团队。
- 直接收益:减少解析相关错误、提升自动化任务成功率、降低人工干预频次。
限制与注意事项
- 评测范围:结论基于Databricks的OfficeQA Pro基准,实际效果取决于具体数据与流水线实现。
- 未提及:成本、延迟、隐私与安全细节在公告中未详述,需与Databricks/OpenAI销售或技术团队确认。
GPT-5.5在企业文档解析与Agent编排上展现出实用性,但生产落地仍需评估成本与隐私影响。