OpenAI 开放三大实时音频模型：告别纯文本，AI 智能体进入「实时听与做」时代-4248ac

告别纯文本：OpenAI 发布三款实时音频模型，AI 智能体进入“听与做”时代

美国时间周四，OpenAI 面向开发者正式发布了三款全新的音频大模型。这不仅仅是一次简单的产品更新，更是 AI 交互范式的一次关键跃迁：将能力从“理解文字”拓展到“实时听、理解并直接采取行动”。随着新版 API 的开放，AI 智能体正在正式告别纯文本聊天的局限，步入一个能以语音为接口、在对话中实时执行任务的崭新时代。

三款模型各司其职：从复杂任务到全球翻译

此次发布的重点在于“实时”与“执行”。三款核心模型均已在 OpenAI 开发者测试平台上线，各有侧重：

GPT-Realtime-2 是旗舰级模型，专攻复杂任务处理。它不仅能精准调用外部工具，还能在用户随时打断的超长对话中保持语境连贯性，极大提升了任务型智能体的实用性。GPT-Realtime-Translate 则聚焦跨语言场景，支持将超过 70 种源语言实时转化为 13 种目标语言，直指智能客服和在线教育等全球化应用。而 GPT-Realtime-Whisper 专注于实时语音识别（STT），可在用户发言的同时同步生成字幕、会议纪要，甚至自动触发后续工作流。

产业落地加速：头部客户已率先“试水”

这些模型的商业价值正在被快速验证。据消息，包括在线房地产平台 Zillow、在线旅行社 Priceline 以及欧洲电信巨头 德国电信 在内的多家企业，已经开始对上述模型进行早期测试。这预示着，实时语音智能体正在从实验室技术快速渗透到客服、房产经纪、旅游预订等实际商业场景中。在定价方面，GPT-Realtime-2 音频输入成本为每百万 Token 32 美元起，而 GPT-Realtime-Translate 和 GPT-Realtime-Whisper 的计费标准则分别低至每分钟 0.034 美元和 0.017 美元，相对亲民的定价也为大规模部署铺平了道路。

我的看法：从“语音助手”到“语音员工”

此次发布的意义超出了单纯的语音识别或转录升级。过去，AI 语音交互更多停留在“我说你听”或“我问你答”的阶段。而 OpenAI 这次明确展示了从“听”到“做”的完整闭环——模型不仅能理解你的语意，还能在你的话语中捕捉指令，直接调用工具、触发工作流、甚至进行多语言无缝翻译。这不再是简单的语音助手，而是进化成了可以独立处理事务的“语音员工”。对于开发者而言，构建能随时打断、长期记忆、主动执行的语音智能体门槛被大幅降低。可以预见，实时音频模型将成为 AI 应用的下一个主战场。

OpenAI 开放三大实时音频模型：告别纯文本，AI 智能体进入「实时听与做」时代-4248ac

告别纯文本：OpenAI 发布三款实时音频模型，AI 智能体进入“听与做”时代

三款模型各司其职：从复杂任务到全球翻译

产业落地加速：头部客户已率先“试水”

我的看法：从“语音助手”到“语音员工”

celebrityanime

发表回复取消回复

告别纯文本：OpenAI 发布三款实时音频模型，AI 智能体进入“听与做”时代

三款模型各司其职：从复杂任务到全球翻译

产业落地加速：头部客户已率先“试水”

我的看法：从“语音助手”到“语音员工”

celebrityanime

相关文章

Eval bug: Hexagon HMX matmul hangs on small remainder batch during prefill

物理AI第一块万亿市场，在公路货运先跑通闭环了

微信AI全网最细体验，我又爱上了刷朋友圈

发表回复取消回复