OpenAI 开放三大实时音频模型:告别纯文本,AI 智能体进入「实时听与做」时代-4248ac

OpenAI 开放三大实时音频模型:告别纯文本,AI 智能体进入「实时听与做」时代-4248ac

告别纯文本:OpenAI 发布三款实时音频模型,AI 智能体进入“听与做”时代

美国时间周四,OpenAI 面向开发者正式发布了三款全新的音频大模型。这不仅仅是一次简单的产品更新,更是 AI 交互范式的一次关键跃迁:将能力从“理解文字”拓展到“实时听、理解并直接采取行动”。随着新版 API 的开放,AI 智能体正在正式告别纯文本聊天的局限,步入一个能以语音为接口、在对话中实时执行任务的崭新时代。

三款模型各司其职:从复杂任务到全球翻译

此次发布的重点在于“实时”与“执行”。三款核心模型均已在 OpenAI 开发者测试平台上线,各有侧重:

GPT-Realtime-2 是旗舰级模型,专攻复杂任务处理。它不仅能精准调用外部工具,还能在用户随时打断的超长对话中保持语境连贯性,极大提升了任务型智能体的实用性。GPT-Realtime-Translate 则聚焦跨语言场景,支持将超过 70 种源语言实时转化为 13 种目标语言,直指智能客服和在线教育等全球化应用。而 GPT-Realtime-Whisper 专注于实时语音识别(STT),可在用户发言的同时同步生成字幕、会议纪要,甚至自动触发后续工作流。

产业落地加速:头部客户已率先“试水”

这些模型的商业价值正在被快速验证。据消息,包括在线房地产平台 Zillow、在线旅行社 Priceline 以及欧洲电信巨头 德国电信 在内的多家企业,已经开始对上述模型进行早期测试。这预示着,实时语音智能体正在从实验室技术快速渗透到客服、房产经纪、旅游预订等实际商业场景中。在定价方面,GPT-Realtime-2 音频输入成本为每百万 Token 32 美元起,而 GPT-Realtime-Translate 和 GPT-Realtime-Whisper 的计费标准则分别低至每分钟 0.034 美元和 0.017 美元,相对亲民的定价也为大规模部署铺平了道路。

我的看法:从“语音助手”到“语音员工”

此次发布的意义超出了单纯的语音识别或转录升级。过去,AI 语音交互更多停留在“我说你听”或“我问你答”的阶段。而 OpenAI 这次明确展示了从“听”到“做”的完整闭环——模型不仅能理解你的语意,还能在你的话语中捕捉指令,直接调用工具、触发工作流、甚至进行多语言无缝翻译。这不再是简单的语音助手,而是进化成了可以独立处理事务的“语音员工”。对于开发者而言,构建能随时打断、长期记忆、主动执行的语音智能体门槛被大幅降低。可以预见,实时音频模型将成为 AI 应用的下一个主战场。

celebrityanime
celebrityanime
文章: 869

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注