【OPENAI】GPT‑5.4：面向专业工作的边界模型

OpenAI 发布 GPT‑5.4 与 GPT‑5.4 Pro，作为面向专业工作的最强和最高效的边界模型，改进了推理、代码能力、工具与计算机使用，并支持高达 100 万 token 的上下文，能更准确高效地完成复杂任务。该模型在表格、演示文稿和文档处理、深网检索与可解释思路规划上显著提升，同时降低了幻觉率并提高了令牌效率。

概述

发布：GPT‑5.4（ChatGPT、API、Codex）与 GPT‑5.4 Pro（ChatGPT、API）。
定位：OpenAI 表示这是目前用于专业工作的最强和最高效的边界模型。

主要能力提升

综合进步：整合了近期在推理、编码与代理工作流方面的成果，继承并扩展 GPT‑5.3‑Codex 的代码能力。
电脑使用（computer-use）：首次作为通用模型原生支持操作电脑、跨应用执行复杂工作流（例如通过 Playwright、鼠标键盘指令与截图交互）。
长上下文：支持最多 1,000,000 tokens 的上下文，便于跨长时间跨度规划、执行与验证任务。
工具搜索（tool search）：增强在大型工具/连接器生态中查找并调用合适工具的能力，提升代理效率。
可控性：在 ChatGPT 中可展示“思路计划”，允许用户在模型生成过程中中途调整方向；开发者消息可用于微调行为与安全确认策略。

性能与基准

GDPval：在衡量 44 个职业的知识工作上达成 83.0%（优于 GPT‑5.2 的 70.9%）。
表格与演示：表格建模均分从 68.4% 提升到 87.3%；人工评审更偏好 GPT‑5.4 的演示（68%）。
事实性与错误率：被用户标记的独立陈述错误率下降 33%，整句响应含错误的可能性下降 18%。
视觉与界面交互基准：OSWorld‑Verified 成功率 75.0%（远超 GPT‑5.2 的 47.3%，并超越人类 72.4%）；WebArena‑Verified、Online‑Mind2Web 等浏览器与截图交互基准也有明显提升。
视觉理解：MMMU‑Pro、OmniDocBench 等在视觉理解与文档解析上均有改进。

效率与成本

令牌效率：在推理过程中比 GPT‑5.2 使用更少 tokens，意味着更低的令牌消耗和更快响应速度。

图像输入与高分辨率支持

新增 original 图像输入细节级别，支持高达 10.24M 像素或最大 6000 像素尺寸；high 级别支持到 2.56M 像素或 2048 最大边长，提升本地化、理解与点击准确性。

适用场景与开发者提示

适合需要跨应用、跨文件长期规划与自动化执行的代理与开发者工具。
对高风险或特定合规场景，开发者可通过自定义确认策略调整模型安全行为。

发布渠道与产品形态

可用性：在 ChatGPT（GPT‑5.4 Thinking）、API 与 Codex 上发布；GPT‑5.4 Pro 提供更高性能等级。

限制与注意事项

虽显著降低幻觉与错误，但仍非完美，需在关键任务中保留人工审核与验证流程。

GPT‑5.4 在代码、长期上下文和电脑自动化上做了实质性进步，适合构建更可靠的自动化代理与复杂知识工作流。

原文链接

Leave a Comment Cancel reply