OpenAI 前 CTO 创业大模型首秀，第一剑先斩 ChatGPT 聊天框

一句话看懂：OpenAI 前 CTO Mira Murati 创立的 Thinking Machines Lab 发布首个模型研究预览，核心目标是让 AI 从被动响应的“聊天框”变为持续在线的“对话者”，其模型在实时交互测试中已大幅领先 GPT-4o 和 Gemini 的语音模式。

事件核心：发生了什么

Thinking Machines Lab 于 2025 年发布了一篇题为《交互模型：人机协作的可扩展方案》的研究预览，并公布了一款名为 TML-Interaction-Small（活跃参数 12B）的模型。该模型采用了基于 200 毫秒为单位的“微轮次”处理机制，使 AI 能够同步说话、中途插话、边听边看，甚至在对话中并行调用工具或生成界面。在名为 FD-bench v1.5 的实时语音基准测试中，该模型得分 77.8，远超 GPT Realtime-2.0（46.8 分）和 Gemini（54.3 分），轮次切换延迟仅 0.40 秒。在需要深度推理的 FD-bench v3 测试中，其响应质量（82.8）也优于竞品的高延迟版本。Mira Murati 曾在 2024 年于 OpenAI 主持发布 GPT-4o 的高级语音模式，此次创业被视为从公司层面重新推进“原生交互”设计思路。

为什么重要

这项研究直接将当前主流 AI 交互的底层逻辑从“用户发问-模型回答”的回合制，转向“持续在场”的全双工沟通。当前大多数商业语音系统（如 GPT-4o 的语音模式）依赖外挂的语音活动检测组件，导致模型无法主动打断、无法感知语气迟疑，也无法对视觉变化做出即时反应。Thinking Machines 选择了强化学习学者 Richard Sutton 强调的“端到端学习”路线，将交互能力训练为模型原生功能，而非通过人工设计组件拼接。这一路径如果规模化落地，将彻底改变语音助手、实时协作工具和人机对话界面的产品形态，并可能促使其他大模型公司在下一代模型中跟进“原生全双工”架构。

对用户/开发者/创作者的影响

对于普通用户，这意味着未来与 AI 的对话将更接近与人交谈——AI 可以主动插话、纠正、追问，甚至在用户沉默时识别出“在思考”的状态。对于开发者，该模型提供了一个异步架构（前台实时交互 + 后台深度推理），使 API 可以同时支持实时语音响应和复杂逻辑调用，降低了构建“类人协作”应用的门槛。对于内容创作者，尤其是在直播、同声传译、即时教育等场景下，这种低延迟、可打断、能同步处理多模态输入的模型，有望替代当前需要人工控制轮次、被动唤醒的AI工具。不过目前该模型仅发布研究预览，计划于 2025 年晚些时候发布更大参数版本，且长会话管理依赖网络稳定性，商业化落地仍需观察。

值得关注的后续

第一，Thinking Machines Lab 尚未公布 API 定价、开放公测时间以及是否有开源计划，这是决定开发者能否迅速接入的关键。第二，团队表示该架构尚未扩展至更大参数版本（如 70B 级别），其在通用智力测试（如 IFEval 指令遵循）上已接近 Qwen 3.5 Omni，但纯语言推理方面仍有差距，后续大模型表现将直接决定其竞争力。第三，安全方面，模型在 Harmbench 实现了 99.0% 的拒绝率，但“持续在场”带来的隐私和情感依赖风险尚无明确应对方案，可能触发监管层面的持续关注。

来源：36氪 · 24小时热榜

OpenAI 前 CTO 创业大模型首秀，第一剑先斩 ChatGPT 聊天框