OpenAI 发布 GPT‑5.4 与 GPT‑5.4 Pro,作为面向专业工作的最强和最高效的边界模型,改进了推理、代码能力、工具与计算机使用,并支持高达 100 万 token 的上下文,能更准确高效地完成复杂任务。该模型在表格、演示文稿和文档处理、深网检索与可解释思路规划上显著提升,同时降低了幻觉率并提高了令牌效率。
概述
- 发布:GPT‑5.4(ChatGPT、API、Codex)与 GPT‑5.4 Pro(ChatGPT、API)。
- 定位:OpenAI 表示这是目前用于专业工作的最强和最高效的边界模型。
主要能力提升
- 综合进步:整合了近期在推理、编码与代理工作流方面的成果,继承并扩展 GPT‑5.3‑Codex 的代码能力。
- 电脑使用(computer-use):首次作为通用模型原生支持操作电脑、跨应用执行复杂工作流(例如通过 Playwright、鼠标键盘指令与截图交互)。
- 长上下文:支持最多 1,000,000 tokens 的上下文,便于跨长时间跨度规划、执行与验证任务。
- 工具搜索(tool search):增强在大型工具/连接器生态中查找并调用合适工具的能力,提升代理效率。
- 可控性:在 ChatGPT 中可展示“思路计划”,允许用户在模型生成过程中中途调整方向;开发者消息可用于微调行为与安全确认策略。
性能与基准
- GDPval:在衡量 44 个职业的知识工作上达成 83.0%(优于 GPT‑5.2 的 70.9%)。
- 表格与演示:表格建模均分从 68.4% 提升到 87.3%;人工评审更偏好 GPT‑5.4 的演示(68%)。
- 事实性与错误率:被用户标记的独立陈述错误率下降 33%,整句响应含错误的可能性下降 18%。
- 视觉与界面交互基准:OSWorld‑Verified 成功率 75.0%(远超 GPT‑5.2 的 47.3%,并超越人类 72.4%);WebArena‑Verified、Online‑Mind2Web 等浏览器与截图交互基准也有明显提升。
- 视觉理解:MMMU‑Pro、OmniDocBench 等在视觉理解与文档解析上均有改进。
效率与成本
- 令牌效率:在推理过程中比 GPT‑5.2 使用更少 tokens,意味着更低的令牌消耗和更快响应速度。
图像输入与高分辨率支持
- 新增
original图像输入细节级别,支持高达 10.24M 像素或最大 6000 像素尺寸;high级别支持到 2.56M 像素或 2048 最大边长,提升本地化、理解与点击准确性。
适用场景与开发者提示
- 适合需要跨应用、跨文件长期规划与自动化执行的代理与开发者工具。
- 对高风险或特定合规场景,开发者可通过自定义确认策略调整模型安全行为。
发布渠道与产品形态
- 可用性:在 ChatGPT(GPT‑5.4 Thinking)、API 与 Codex 上发布;GPT‑5.4 Pro 提供更高性能等级。
限制与注意事项
- 虽显著降低幻觉与错误,但仍非完美,需在关键任务中保留人工审核与验证流程。
GPT‑5.4 在代码、长期上下文和电脑自动化上做了实质性进步,适合构建更可靠的自动化代理与复杂知识工作流。