OpenAI 推出基于 WebSocket 的执行模式,减少代理工作流延迟

OpenAI 推出基于 WebSocket 的执行模式,减少代理工作流延迟

OpenAI 推出基于 WebSocket 的执行模式,减少代理工作流延迟

一句话看懂:OpenAI 在 Responses API 中引入基于 WebSocket 的执行模式,将多步骤代理工作流中的多次 HTTP 请求合并为一条持久化双向连接。早期数据显示,在高并发场景下延迟最高降低 40%,吞吐量显著提升,Vercel、Cline、Cursor 等开发工具已迅速集成。

事件核心:发生了什么

OpenAI 近期针对其 Responses API 推出了基于 WebSocket 的执行模式,替代了传统 HTTP 请求-响应模式。此前,每个代理工作流中的工具调用、中间推理和后续查询都需要单独的 HTTP 请求,随着推理速度提升,网络往返时间成为主要瓶颈。新模式利用持久化双向连接,减少了重复握手开销,可支持流式响应、快速工具执行和多步骤协调。OpenAI 工程师 Gabriel Chua 指出,开发者可先发送系统提示和工具定义来“预热”连接,同时该模式兼容零数据保留(ZDR)标准。经过两个月测试,Codex 等合作伙伴已将大部分 Responses API 流量迁移至该模式。

为什么重要

这一变更标志着 AI 系统优化的重心从模型层向传输层延伸。过去,开发者主要关注模型推理速度,但多步骤代理工作流中,HTTP 连接的反复建立与关闭逐渐成为延迟和运维复杂性的主要来源。微软工程师 Kevin Cho 评价称,这是“回归到原始软件栈的问题”,即 WebSocket 和有状态连接。该模式符合事件驱动设计,通过跨交互维护状态来提升响应速度和吞吐量,也直接回应了“AI 代理传输层”讨论中对通信模式和连接管理的关注。

对用户/开发者/创作者的影响

开发编码代理、实时 AI 系统或工具链的开发者是直接受益者。Vercel 在其 AI SDK 中集成后报告延迟降低 40%,Cline 发现多文件工作流性能提升 39%,Cursor 报告性能提升达 30%。这意味着,在相同模型能力下,用户可以获得更快的代码生成、更流畅的交互式推理体验。对于企业采购 AI API 的团队,传输层优化直接降低端到端推理响应时间,提升并发处理能力。对于普通用户,这类底层改进最终体现在更即时的 AI 助手反馈和更少的等待感上。

值得关注的后续

首先,OpenAI 是否以及何时将该模式正式、广泛推送给所有 Responses API 用户是关键节点,目前仍处于部分合作伙伴测试阶段。其次,其他大模型 API 提供商(如 Anthropic、Google)是否会在其代理系统传输层跟进类似优化,可能影响多模型选型决策。第三,随着有状态连接普及,连接生命周期管理、背压控制和分布式系统可靠性将成为开发者必须面对的新工程挑战。

来源:InfoQ CN

celebrityanime
celebrityanime
文章: 5473

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注