OpenAI被曝正筹备发布新一代双向语音模型“GPT-Bidi-1”

OpenAI 正在筹备推出名为“GPT-Bidi-1”的双向音频模型,旨在替代当前 ChatGPT 语音模式中“听与说不能同时进行”的单向通信限制,实现实时打断与动态语义调整。这不仅是语音功能的升级,更是补齐多模态战略中语音侧短板的关键一步。

OpenAI被曝正筹备发布新一代双向语音模型“GPT-Bidi-1”

一句话看懂:OpenAI 正在筹备推出名为“GPT-Bidi-1”的双向音频模型,旨在替代当前 ChatGPT 语音模式中“听与说不能同时进行”的单向通信限制,实现实时打断与动态语义调整。这不仅是语音功能的升级,更是补齐多模态战略中语音侧短板的关键一步。

事件核心:发生了什么

据外媒报道,OpenAI 正在为新一代双向语音模型“GPT-Bidi-1”的发布做代码层面的准备。该模型首次在 AI 语音交互中采用双向(Bidirectional)架构,允许系统同时处理“听”与“说”,能够实时捕获用户的打断与插话,并据此调整语义输出,避免卡顿或停顿。目前,OpenAI 已在 Web 和移动端埋下了基础代码。

产品形态上,GPT-Bidi-1 上线后将与现有的“高级语音模式”(Advanced Voice Mode)共存,用户可手动切换至“Bidi(最新)”模式。此外,该模型在语音侧首次引入了“高(High)”“中(Medium)”“即时(Instant)”三种智能与速度分级,允许用户根据任务需求在交互深度与响应速度之间做取舍。

为什么重要

这项迭代的意义超越了单纯的音质或语气优化。OpenAI 的文本大模型已迭代至推理能力更强的 GPT-5.5 代,但语音大模型此前一直滞后,导致多模态体验存在明显短板。GPT-Bidi-1 的发布将弥合这一推理能力差距,使语音交互的自然度和实时性达到与文本对话接近的水平。同时,这也展示了 OpenAI 将“语音”视为下一代 AI 核心入口的战略意图,为后续布局音频优先的硬件设备和企业级语音工具铺平了技术道路。

对用户/开发者/创作者的影响

对普通用户而言,最直接的感受是 ChatGPT 语音对话不再需要等待对方说完,可以像真人聊天一样自然打断和插话,交互体验显著提升。对开发者来说,GPT-Bidi-1 提供的三种智能/速度分级(High/Medium/Instant)意味着可以针对不同场景(如深度咨询 vs 快速问答)灵活调用模型参数,从而在应用层优化成本与响应体验。对内容创作者和语音应用产品来说,这一技术将降低制作实时对话类内容的门槛,例如播客录制、访谈模拟、语音助手等场景,不再受制于“一问一答”的延迟感。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

第一,产品实际落地时间尚未公布,目前仅处于代码准备阶段,需关注 OpenAI 官方发布节奏。第二,价格是否会因引入多级智能分类而变化尚不清楚,开发者需留意 API 调用成本结构。第三,竞品如 Google、Anthropic 等是否会快速跟进双向语音能力,将影响多模态 AI 的竞争格局。第四,语音隐私与数据合规问题可能因“实时监听”能力而受到更严格的监管审查,需关注上线后的地区政策风险。

来源:AIbase

celebrityanime
celebrityanime
文章: 8365

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注