OpenAI被曝正筹备发布新一代双向语音模型“GPT-Bidi-1”

一句话看懂：OpenAI 正在筹备推出名为“GPT-Bidi-1”的双向音频模型，旨在替代当前 ChatGPT 语音模式中“听与说不能同时进行”的单向通信限制，实现实时打断与动态语义调整。这不仅是语音功能的升级，更是补齐多模态战略中语音侧短板的关键一步。

事件核心：发生了什么

据外媒报道，OpenAI 正在为新一代双向语音模型“GPT-Bidi-1”的发布做代码层面的准备。该模型首次在 AI 语音交互中采用双向（Bidirectional）架构，允许系统同时处理“听”与“说”，能够实时捕获用户的打断与插话，并据此调整语义输出，避免卡顿或停顿。目前，OpenAI 已在 Web 和移动端埋下了基础代码。

产品形态上，GPT-Bidi-1 上线后将与现有的“高级语音模式”（Advanced Voice Mode）共存，用户可手动切换至“Bidi（最新）”模式。此外，该模型在语音侧首次引入了“高（High）”“中（Medium）”“即时（Instant）”三种智能与速度分级，允许用户根据任务需求在交互深度与响应速度之间做取舍。

为什么重要

这项迭代的意义超越了单纯的音质或语气优化。OpenAI 的文本大模型已迭代至推理能力更强的 GPT-5.5 代，但语音大模型此前一直滞后，导致多模态体验存在明显短板。GPT-Bidi-1 的发布将弥合这一推理能力差距，使语音交互的自然度和实时性达到与文本对话接近的水平。同时，这也展示了 OpenAI 将“语音”视为下一代 AI 核心入口的战略意图，为后续布局音频优先的硬件设备和企业级语音工具铺平了技术道路。

对用户/开发者/创作者的影响

对普通用户而言，最直接的感受是 ChatGPT 语音对话不再需要等待对方说完，可以像真人聊天一样自然打断和插话，交互体验显著提升。对开发者来说，GPT-Bidi-1 提供的三种智能/速度分级（High/Medium/Instant）意味着可以针对不同场景（如深度咨询 vs 快速问答）灵活调用模型参数，从而在应用层优化成本与响应体验。对内容创作者和语音应用产品来说，这一技术将降低制作实时对话类内容的门槛，例如播客录制、访谈模拟、语音助手等场景，不再受制于“一问一答”的延迟感。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，产品实际落地时间尚未公布，目前仅处于代码准备阶段，需关注 OpenAI 官方发布节奏。第二，价格是否会因引入多级智能分类而变化尚不清楚，开发者需留意 API 调用成本结构。第三，竞品如 Google、Anthropic 等是否会快速跟进双向语音能力，将影响多模态 AI 的竞争格局。第四，语音隐私与数据合规问题可能因“实时监听”能力而受到更严格的监管审查，需关注上线后的地区政策风险。

来源：AIbase

OpenAI被曝正筹备发布新一代双向语音模型“GPT-Bidi-1”

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

只有 16% 的美国人认为人工智能会对社会产生积极影响

Allbirds 持续向 AI 赛道转型：再度更名并聘任新任 CEO，股价应声暴涨

万亿估值前夜，OpenAI 被曝一年亏约 2600 亿

发表回复取消回复