ChatGPT 语音最大规模升级：OpenAI 正筹备推出 GPT-Bidi-1 AI 模型

一句话看懂：OpenAI 正在筹备推出名为 GPT-Bidi-1 的模型，旨在对 ChatGPT 语音模式进行最大规模升级，解决当前语音功能落后于文本能力的问题，实现同时听和说的“双向”对话。

事件核心：发生了什么

据科技媒体 testingcatalog 于 6 月 17 日报道，OpenAI 正在筹备推出 GPT-Bidi-1 模型。该模型基于 OpenAI 从 2026 年年初开始研发的“双向”（BiDi）架构，核心特点是能够同时处理听和说，可以吸收用户的打断，并在对话中途进行实时调整。目前，OpenAI 的文本模型已进化至 GPT-5.5，但语音功能仍依赖较旧的音频技术栈，口语对话能力明显落后于文字表现。GPT-Bidi-1 的上线旨在弥合这一差距。上线后，ChatGPT 用户将能够在双向模式和现有的高级语音模式之间切换，并支持 High、Medium 以及 Instant 三档智能等级，方便用户根据任务调整响应速度和深度。

为什么重要

此次升级对 AI 语音交互体验和行业竞争格局有直接影响。当前，多数语音助手的对话模式仍是“你说 – AI 处理 – AI 回应”的串行流程，而双向架构允许模型边听边思考，甚至能捕捉用户的打断意图，这更接近人类自然对话的节奏。对于 OpenAI 而言，这有助于补齐语音这一关键产品短板，因为在文本模型（GPT-5.5）已快速迭代的情况下，语音体验的滞后可能成为用户流失或转向竞品的理由。如果 GPT-Bidi-1 落地，它可能重新定义语音 AI 的交互标准，迫使其他厂商（如 Google、Anthropic、Meta 等）在双向对话能力上加快追赶。

对用户/开发者/创作者的影响

对普通用户来说，最直接的体验是 ChatGPT 语音对话将变得更加自然、不“死板”，例如在用户中途打断、纠正或补充信息时，AI 能即时响应，而非等待整段说完再生成完整回复。对开发者而言，GPT-Bidi-1 的推出意味着后续可以通过 API 调用更复杂的语音交互场景，例如语音客服、实时语音翻译、语音教练等，但需要关注模型的 API 定价和延迟表现。对于内容创作者，双向语音模式可能带来更高效的播客录制、视频配音或口语教学体验，用户可以用更接近真人对话的方式与 AI 协作创作内容。此外，三档智能等级（High/Medium/Instant）为用户提供了灵活性：高智能模式适合需要深度推理的场景，即时模式则适合快速应答任务，这有助于平衡使用成本和响应速度。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

目前公开信息显示，GPT-Bidi-1 尚未公布正式发布日期。后续值得关注三点：第一，该模型是否会在 OpenAI 的开发者大会或产品更新中正式亮相，以及具体上线时间；第二，双向语音模式是否会带来新的算力成本或价格调整，尤其是对于 API 调用者；第三，其他 AI 语音助手（如 Google Gemini、字节豆包、Amazon Alexa）是否会快速推出类似的双向对话功能，从而引发一轮语音交互的技术竞赛。此外，监管层面也需留意，实时双向对话可能涉及更复杂的隐私和数据处理问题。

来源：Readhub · AI

ChatGPT 语音最大规模升级：OpenAI 正筹备推出 GPT-Bidi-1 AI 模型

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

issue: Side-by-side chat with identical model IDs may cause message_ids collision

RuntimeError: Tensor.item() cannot be called on meta tensors

从内容创新到行业共创，华帝携手艾菲开启 AIGC 营销新实践

发表回复取消回复