告别“你问我答”：ChatGPT 语音功能重磅升级，双向实时对话时代开启

一句话看懂：OpenAI 正在测试一款名为 “Bidi1” 的新型语音模型，它允许用户和 AI 在对话中同时说话或随时打断，将传统“一问一答”模式升级为类似真人的双向实时交流，显著提升语音交互的自然度与效率。

事件核心：发生了什么

近期，部分 ChatGPT 网页端与移动端用户在模型选择器中发现了名为 “Bidi1” 的新语音模型。这个名称暗示其核心能力是“双向（Bidirectional）并行处理”。与之配套的 UI 也做了明显区分：当用户切换到此模式后，原本的语音气泡会变为醒目的黄色。在公开的演示案例中，当模型正在执行“从 1 数到 10”的任务时，用户可以随时打断，要求其改为“倒序数数”，模型能够即刻无缝切换，完全消除传统 AI 必须等上一段回复播完才能接收新指令的僵化等待期。目前 OpenAI 尚未官宣这一功能的正式发布，但测试已在推进中。

为什么重要

这一功能升级标志着 AI 语音交互从“线性问答”迈入“实时对话”阶段。长期以来，包括 ChatGPT 在内的多数语音助手都遵循“用户提问—AI 输出—用户等待—再次提问”的单线程逻辑。Bidi1 打破了这种顺序处理约束，实现了“边听边说、实时响应”的并行机制。这不仅在技术层面上对端到端语音模型的推理架构提出了更高要求，也在体验层面上让 AI 对话更贴近人类沟通习惯。对于 OpenAI 而言，这是其在多模态交互领域保持领先的关键一步，同时也给主要面向“一次性指令”或“智能音箱式交互”的竞品带来了竞争压力。

对用户/开发者/创作者的影响

普通用户：语音助手的使用体验将发生质变。未来用语音查资料、设定闹钟、进行头脑风暴时，无需再等待大段陈述结束，可随时提出新需求或修正错误，沟通效率大幅提升。
开发者：对于正在集成语音功能的 AI 应用，Bidi1 意味着下一代对话 API 可能支持更复杂的上下文同步。开发者需要思考如何在自己的产品中设计能够处理用户“打断”和“并行指令”的交互逻辑。
内容创作者/播客：如果该模型最终开放给创作者用于录音或直播辅助，将催生出新的实时互动玩法，例如在 AI 播报中随时根据观众反馈调整内容。

值得关注的后续

正式落地与覆盖范围：Bidi1 何时以何种形式面向所有用户（包括免费用户与 Plus/TEAM 订阅用户）开放？是否会成为付费专属功能？
多语言与延迟表现：目前演示以英语为主，未来在中文等非英语环境下的响应速度、打断识别准确率以及模型整体推理延迟是否在可接受范围内？
竞品跟进与监管：Google、Amazon 等拥有语音助手的巨头是否会快速跟进？同时，这种“无停顿打断”的交互方式在金融、医疗等需严格确认的合规场景中是否会引发新的监管讨论。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

来源：AIbase

告别“你问我答”：ChatGPT 语音功能重磅升级，双向实时对话时代开启

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

值得关注的后续

想把多个 AI 模型放在一个入口？

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

值得关注的后续

想把多个 AI 模型放在一个入口？

celebrityanime

相关文章

阿里千问发布首个原生语言世界模型 Qwen-AgentWorld，可在七大领域中模拟智能体交互环境

孙正义宣布软银已开始量产机器人，将成为「世界第一」

他把 Google Workspace 接入 OpenClaw，然后被谷歌开除了

发表回复取消回复