
一句话看懂:OpenAI 正在测试一款名为 “Bidi1” 的新型语音模型,它允许用户和 AI 在对话中同时说话或随时打断,将传统“一问一答”模式升级为类似真人的双向实时交流,显著提升语音交互的自然度与效率。
事件核心:发生了什么
近期,部分 ChatGPT 网页端与移动端用户在模型选择器中发现了名为 “Bidi1” 的新语音模型。这个名称暗示其核心能力是“双向(Bidirectional)并行处理”。与之配套的 UI 也做了明显区分:当用户切换到此模式后,原本的语音气泡会变为醒目的黄色。在公开的演示案例中,当模型正在执行“从 1 数到 10”的任务时,用户可以随时打断,要求其改为“倒序数数”,模型能够即刻无缝切换,完全消除传统 AI 必须等上一段回复播完才能接收新指令的僵化等待期。目前 OpenAI 尚未官宣这一功能的正式发布,但测试已在推进中。
为什么重要
这一功能升级标志着 AI 语音交互从“线性问答”迈入“实时对话”阶段。长期以来,包括 ChatGPT 在内的多数语音助手都遵循“用户提问—AI 输出—用户等待—再次提问”的单线程逻辑。Bidi1 打破了这种顺序处理约束,实现了“边听边说、实时响应”的并行机制。这不仅在技术层面上对端到端语音模型的推理架构提出了更高要求,也在体验层面上让 AI 对话更贴近人类沟通习惯。对于 OpenAI 而言,这是其在多模态交互领域保持领先的关键一步,同时也给主要面向“一次性指令”或“智能音箱式交互”的竞品带来了竞争压力。
对用户/开发者/创作者的影响
- 普通用户:语音助手的使用体验将发生质变。未来用语音查资料、设定闹钟、进行头脑风暴时,无需再等待大段陈述结束,可随时提出新需求或修正错误,沟通效率大幅提升。
- 开发者:对于正在集成语音功能的 AI 应用,Bidi1 意味着下一代对话 API 可能支持更复杂的上下文同步。开发者需要思考如何在自己的产品中设计能够处理用户“打断”和“并行指令”的交互逻辑。
- 内容创作者/播客:如果该模型最终开放给创作者用于录音或直播辅助,将催生出新的实时互动玩法,例如在 AI 播报中随时根据观众反馈调整内容。
值得关注的后续
- 正式落地与覆盖范围:Bidi1 何时以何种形式面向所有用户(包括免费用户与 Plus/TEAM 订阅用户)开放?是否会成为付费专属功能?
- 多语言与延迟表现:目前演示以英语为主,未来在中文等非英语环境下的响应速度、打断识别准确率以及模型整体推理延迟是否在可接受范围内?
- 竞品跟进与监管:Google、Amazon 等拥有语音助手的巨头是否会快速跟进?同时,这种“无停顿打断”的交互方式在金融、医疗等需严格确认的合规场景中是否会引发新的监管讨论。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
来源:AIbase


