前 OpenAI CTO 创业后首个「交互」大模型：原生、实时处理人机协作

一句话看懂：前 OpenAI CTO Mira Murati 创立的 Thinking Machines Lab 发布了首个产品——Interaction Models 研究预览。该模型不再采用一问一答的轮次式设计，而是以 200 毫秒为粒度持续同步处理语音、视频和文本，实现真正意义上的人机实时协作对话，其延迟和交互质量在部分评测中已显著优于 GPT-4o 和 Gemini 的实时版本。

事件核心：发生了什么

当地时间 4 月 16 日，Thinking Machines Lab 发布了交互模型 Interaction Models 的研究预览。该模型由两个子系统组成：一个 200 毫秒级实时响应的“交互模型”，负责持续接收用户输入并即时生成输出；另一个“异步后台模型”，专用于长时推理、网页浏览、工具调用等任务，结果以流式方式交给交互模型。这种双系统架构打破了传统大模型“用户输入完再等回答”的轮次限制。实测数据显示，TML-Interaction-Small（276B 参数 MoE，12B 激活参数）在 FD-bench V1 的简单话轮延迟仅为 0.40 秒，低于 GPT-realtime-2.0 minimal 的 1.18 秒和 Gemini-3.1-flash-live-preview 的 0.57 秒。在“时间感知”和“语音触发线索识别”等自建内部任务上，该模型得分（64.7、81.7）远超 GPT-realtime-2.0 minimal 的（4.3、2.9）。

为什么重要

这一发布直接冲击了当前大模型的交互范式。目前主流实时语音助手（如 ChatGPT 语音模式）本质上仍是将语音识别、大模型、TTS 等模块拼接而成，体验上难以避免延迟与割裂。Interaction Models 通过原生端到端设计和细粒度微轮次架构，让模型在沉默、打断、重叠发言时能自主判断是否回应，不再依赖外部对话管理模块。对于 AI 行业而言，这可能意味着从“问答机器”向“协作伙伴”的技术路线转折。同时，Mira Murati 作为前 OpenAI CTO 的身份，使得该模型成为 GPT-4o 和 Gemini 实时模式的直接竞品，尤其在延迟和音频回合指标上表现突出。

对用户/开发者/创作者的影响

对于普通用户，该模型有望带来更接近与人自然交流的体验：模型会一边听你说话、一边做事、甚至主动插话；你可以随时打断而不会打断流程。对于开发者，Interaction Models 提供了一个低延迟的音频、视频、文本多模态交互 API 基础，可用于构建实时客服、协作写作、远程辅助、智能教育等应用。对于内容创作者，官方演示显示模型能在用户讲故事时自然接话或提供背景搜索，意味着未来创作工具可能在录制、剪辑、搜索等环节实现真正的实时协作。不过目前模型仅为研究预览，且 TML-Interaction-Small 激活参数达 12B，部署成本较高，开发者还需等待正式 API 或开源版本。此外，实时工具调用和持续视频分析也意味着更高的算力与网络需求。

值得关注的后续

一、Thinking Machines Lab 计划在今年发布更大版本模型，届时原型的延迟与智能水平能否稳定提升是关键。二、该技术路线是否会引发 OpenAI、Google、Anthropic 等公司的跟进优化，以及它们是否会在自家产品中集成类似原生实时交互能力。三、官博已指出实时场景下的网络可靠性、安全校准（模型何时该沉默、不该打断）和后台 Agent 协作仍待完善，后续产品是否解决这些问题直接影响商业化落地进程。

来源：Readhub · AI

前 OpenAI CTO 创业后首个「交互」大模型：原生、实时处理人机协作