OpenAI 推出基于 WebSocket 的执行模式，减少代理工作流延迟

一句话看懂：OpenAI 在 Responses API 中引入基于 WebSocket 的执行模式，将多步骤代理工作流中的多次 HTTP 请求合并为一条持久化双向连接。早期数据显示，在高并发场景下延迟最高降低 40%，吞吐量显著提升，Vercel、Cline、Cursor 等开发工具已迅速集成。

事件核心：发生了什么

OpenAI 近期针对其 Responses API 推出了基于 WebSocket 的执行模式，替代了传统 HTTP 请求-响应模式。此前，每个代理工作流中的工具调用、中间推理和后续查询都需要单独的 HTTP 请求，随着推理速度提升，网络往返时间成为主要瓶颈。新模式利用持久化双向连接，减少了重复握手开销，可支持流式响应、快速工具执行和多步骤协调。OpenAI 工程师 Gabriel Chua 指出，开发者可先发送系统提示和工具定义来“预热”连接，同时该模式兼容零数据保留（ZDR）标准。经过两个月测试，Codex 等合作伙伴已将大部分 Responses API 流量迁移至该模式。

为什么重要

这一变更标志着 AI 系统优化的重心从模型层向传输层延伸。过去，开发者主要关注模型推理速度，但多步骤代理工作流中，HTTP 连接的反复建立与关闭逐渐成为延迟和运维复杂性的主要来源。微软工程师 Kevin Cho 评价称，这是“回归到原始软件栈的问题”，即 WebSocket 和有状态连接。该模式符合事件驱动设计，通过跨交互维护状态来提升响应速度和吞吐量，也直接回应了“AI 代理传输层”讨论中对通信模式和连接管理的关注。

对用户/开发者/创作者的影响

开发编码代理、实时 AI 系统或工具链的开发者是直接受益者。Vercel 在其 AI SDK 中集成后报告延迟降低 40%，Cline 发现多文件工作流性能提升 39%，Cursor 报告性能提升达 30%。这意味着，在相同模型能力下，用户可以获得更快的代码生成、更流畅的交互式推理体验。对于企业采购 AI API 的团队，传输层优化直接降低端到端推理响应时间，提升并发处理能力。对于普通用户，这类底层改进最终体现在更即时的 AI 助手反馈和更少的等待感上。

值得关注的后续

首先，OpenAI 是否以及何时将该模式正式、广泛推送给所有 Responses API 用户是关键节点，目前仍处于部分合作伙伴测试阶段。其次，其他大模型 API 提供商（如 Anthropic、Google）是否会在其代理系统传输层跟进类似优化，可能影响多模型选型决策。第三，随着有状态连接普及，连接生命周期管理、背压控制和分布式系统可靠性将成为开发者必须面对的新工程挑战。

来源：InfoQ CN

OpenAI 推出基于 WebSocket 的执行模式，减少代理工作流延迟