绝杀，OpenAI正式接管人类耳朵，首个GPT-5级推理音频模型来了

一句话看懂：OpenAI 于今天凌晨发布了 GPT-Realtime-2，这是首个明确具备 GPT-5 级别推理能力的音频模型，同时推出了实时翻译（GPT-Realtime-Translate）和流式转写（GPT-Realtime-Whisper）两款产品。这标志着语音交互从简单的指令响应迈入了具备深度推理与情感理解的新阶段，开发者可以通过 API 以极低价格接入这些能力。

事件核心：发生了什么

OpenAI 正式推出 GPT-Realtime-2，这是一个专为实时语音交互设计的模型。与以往语音助手不同，它内置了可调节的推理强度（从 Minimal 到 xhigh 五档），在最高档下能够处理逻辑谜题、战略策划和空间推理等复杂任务。模型上下文窗口从 32K 提升至 128K，支持多轮长对话记忆。同时发布的两款配套产品中，GPT-Realtime-Translate 支持 70+ 种输入语言和 13 种输出语言，能做到与说话者同步的情感保留翻译；GPT-Realtime-Whisper 则实现了流式转写，说话同时文本即时输出。价格方面，GPT-Realtime-2 每百万输入 Token 32 美元、输出 64 美元；实时翻译每分钟 0.034 美元；实时转写每分钟 0.017 美元。Vimeo 已率先将其用于产品教学视频的实时全球同步。

为什么重要

此前，语音助手（如 Siri、Alexa）主要依赖线性指令执行，无法处理多步骤推理或复杂逻辑。GPT-Realtime-2 将 GPT-5 级别的推理能力注入语音交互，意味着 AI 能够在用户说话的同时进行战略分析、情感共鸣和多任务并行操作（如同时查日历、订票、说话）。这对语音助手行业是一次底层能力升级，直接拉高了实时语音交互的技术门槛。OpenAI 通过 API 以极具竞争力的定价（尤其是实时翻译和转写）推广这种能力，试图将语音推理变成像自来水一样的基础设施。此举将对谷歌 Assistant、亚马逊 Alexa 等竞品形成直接压力，也可能重塑 SaaS、客服、医疗、教育等领域的人机交互方式。

对用户/开发者/创作者的影响

对普通用户而言，语音助手的“智障”体验可能终结——AI 能听懂复杂请求（如“帮我找一套我买得起的房，离闹市区远点，周六约个看房”），并给出有逻辑的执行方案；情感交互也更自然，能感知沮丧并用轻柔语气回应。对开发者来说，通过 API 接入 GPT-Realtime-2、Translate 和 Whisper 后，可以在自己的 App 或服务中快速实现具有推理能力的语音功能，且 128K 上下文窗口支持长时间对话。对内容创作者（如播客、视频博主），实时翻译和流式转写可大幅降低多语言分发和字幕生成的成本。不过，目前该模型主要通过 API 提供，尚未直接集成到 ChatGPT 语音模式中，开发者需关注调用配额和延迟优化。

值得关注的后续

1. 产品落地节奏：目前 API 已开放，但具体接入哪些客户端应用（如 ChatGPT 官方客户端）尚未明确，需要观察 OpenAI 是否会将其整合进现有产品线。2. 竞品跟进：谷歌、亚马逊等拥有语音生态的公司是否会推出类似推理级音频模型，以及价格是否更具竞争力。3. 开发者生态：各行业的实际用例（如医疗转写、会议记录、同传）将如何利用低延迟推理能力，以及是否存在隐私和安全方面的监管挑战——因为实时语音处理涉及更敏感的音频数据。

来源：36氪 · 24小时热榜

绝杀，OpenAI正式接管人类耳朵，首个GPT-5级推理音频模型来了