【OPENAI】用 WebSocket 加速代理式工作流

文章介绍 OpenAI 在 Responses API 的 Codex agent 循环中,如何通过引入 WebSocket 以及基于连接的缓存来减少每次请求的开销并改善模型响应延迟;实验显示这些改进在多轮代理式任务中显著提升性能。结论强调在长连接和本地缓存中保留上下文与资源可以显著降低网络与计算成本。

  • 背景
  • 针对 agentic(代理式)工作流,传统 HTTP 请求会为每一步引入重复开销,影响延迟和吞吐。
  • OpenAI 在 Responses API 中为 Codex agent 循环做了优化。

  • 关键改进点

  • 使用 WebSocket 长连接替代短连接 HTTP,减少握手和连接复用开销。
  • 引入 connection-scoped(连接范围)缓存,允许在同一连接生命周期内重用模型输出和工具状态,避免重复计算或重复加载资源。

  • 实施细节

  • 将 agent 循环的多个交互通过单一 WebSocket 会话传输,减少序列化与网络往返。
  • 缓存包含工具调用结果、部分中间表示和上下文片段,按需失效或刷新。

  • 效果与收益

  • 显著降低了多轮任务的总延迟,提升了吞吐率。
  • 减少了因重复请求造成的计算与网络成本,尤其在长会话和复杂工具调用场景中效果更明显。

  • 适用场景与注意事项

  • 适合需要频繁交互、状态保留或复杂工具链的代理式应用。
  • 需处理缓存一致性、连接恢复和错误重试等工程挑战。

  • 小结

  • 在 Responses API 中结合 WebSocket 与连接范围缓存是提升 agent 性能的实用策略,能在保持功能性同时降低延迟与资源消耗。

通过长连接与连接内缓存可以用工程手段显著降低代理式工作流的延迟与成本。

原文链接

Leave a Comment