OpenAI 前 CTO 创业大模型首秀,第一剑先斩 ChatGPT 聊天框

OpenAI 前 CTO 创业大模型首秀,第一剑先斩 ChatGPT 聊天框

OpenAI 前 CTO 创业大模型首秀,第一剑先斩 ChatGPT 聊天框

一句话看懂:OpenAI 前 CTO Mira Murati 创立的 Thinking Machines Lab 发布首个模型研究预览,核心目标是让 AI 从被动响应的“聊天框”变为持续在线的“对话者”,其模型在实时交互测试中已大幅领先 GPT-4o 和 Gemini 的语音模式。

事件核心:发生了什么

Thinking Machines Lab 于 2025 年发布了一篇题为《交互模型:人机协作的可扩展方案》的研究预览,并公布了一款名为 TML-Interaction-Small(活跃参数 12B)的模型。该模型采用了基于 200 毫秒为单位的“微轮次”处理机制,使 AI 能够同步说话、中途插话、边听边看,甚至在对话中并行调用工具或生成界面。在名为 FD-bench v1.5 的实时语音基准测试中,该模型得分 77.8,远超 GPT Realtime-2.0(46.8 分)和 Gemini(54.3 分),轮次切换延迟仅 0.40 秒。在需要深度推理的 FD-bench v3 测试中,其响应质量(82.8)也优于竞品的高延迟版本。Mira Murati 曾在 2024 年于 OpenAI 主持发布 GPT-4o 的高级语音模式,此次创业被视为从公司层面重新推进“原生交互”设计思路。

为什么重要

这项研究直接将当前主流 AI 交互的底层逻辑从“用户发问-模型回答”的回合制,转向“持续在场”的全双工沟通。当前大多数商业语音系统(如 GPT-4o 的语音模式)依赖外挂的语音活动检测组件,导致模型无法主动打断、无法感知语气迟疑,也无法对视觉变化做出即时反应。Thinking Machines 选择了强化学习学者 Richard Sutton 强调的“端到端学习”路线,将交互能力训练为模型原生功能,而非通过人工设计组件拼接。这一路径如果规模化落地,将彻底改变语音助手、实时协作工具和人机对话界面的产品形态,并可能促使其他大模型公司在下一代模型中跟进“原生全双工”架构。

对用户/开发者/创作者的影响

对于普通用户,这意味着未来与 AI 的对话将更接近与人交谈——AI 可以主动插话、纠正、追问,甚至在用户沉默时识别出“在思考”的状态。对于开发者,该模型提供了一个异步架构(前台实时交互 + 后台深度推理),使 API 可以同时支持实时语音响应和复杂逻辑调用,降低了构建“类人协作”应用的门槛。对于内容创作者,尤其是在直播、同声传译、即时教育等场景下,这种低延迟、可打断、能同步处理多模态输入的模型,有望替代当前需要人工控制轮次、被动唤醒的AI工具。不过目前该模型仅发布研究预览,计划于 2025 年晚些时候发布更大参数版本,且长会话管理依赖网络稳定性,商业化落地仍需观察。

值得关注的后续

第一,Thinking Machines Lab 尚未公布 API 定价、开放公测时间以及是否有开源计划,这是决定开发者能否迅速接入的关键。第二,团队表示该架构尚未扩展至更大参数版本(如 70B 级别),其在通用智力测试(如 IFEval 指令遵循)上已接近 Qwen 3.5 Omni,但纯语言推理方面仍有差距,后续大模型表现将直接决定其竞争力。第三,安全方面,模型在 Harmbench 实现了 99.0% 的拒绝率,但“持续在场”带来的隐私和情感依赖风险尚无明确应对方案,可能触发监管层面的持续关注。

来源:36氪 · 24小时热榜

celebrityanime
celebrityanime
文章: 5033

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注