ChatGPT那一套要过时了？翁荔实测创业首个模型，回合制AI被“原生实时交互”秒了

一句话看懂：前OpenAI核心团队创立的Thinking Machines Lab发布了首个原生交互模型TML-Interaction-Small，该模型能以200毫秒为时间单位实时处理音频、视频和文本，在一次对话中并行进行思考、响应和工具调用，打破了当前主流大模型“人类输入—AI等待—再输出”的回合制交互模式。

事件核心：发生了什么

Thinking Machines Lab由前OpenAI CTO Mira Murati、联合创始人John Schulman等人于2024年创立，今天正式公布首个模型TML-Interaction-Small。该模型拥有2760亿参数（混合专家架构，活跃参数120亿），从零训练，采用多流、微回合设计，不依赖外部拼接模块即可实现打断对话、同时语音、时间感知和并行工具调用等能力。在FD-bench V1.5交互质量基准上，模型得分77.8，几乎是GPT-realtime-2.0 minimal的两倍；轮次响应延迟0.40秒，低于Gemini-3.1-flash-live和GPT-realtime-2.0 minimal。同时，在视觉主动性和指令遵循测试中，模型显著优于现有实时系统。当前模型仅供有限研究预览，计划2025年下半年更广泛发布。

为什么重要

当前主流大模型（包括GPT-4、Claude、Gemini等）本质上是“回合制”对话：用户说完后AI才开始生成，且生成过程中感知冻结。Thinking Machines将“交互性”内化为模型原生能力，而非靠外部代码拼接实现打断或多模态并发——这种架构设计直接挑战了ChatGPT等产品奠定的基础交互范式。其“200毫秒级实时交互+异步后台推理模型”的组合，解决了实时响应与深度推理之间的冲突，可能重新定义AI工具的交互体验标准。此外，Meta近期已挖走该公司7名创始成员，扎克伯格此前试图收购被拒，也侧面印证了这一技术路线对头部玩家的吸引力。

对用户/开发者/创作者的影响

如果该模型向企业开放，最直接的影响将出现在语音客服和实时监控场景：0.40秒延迟和原生同时语音能力，能让AI客服更像真人对话，而非等待一段段录音播放。对开发者而言，原生交互模型意味着可以省去大量用于实现打断、对话管理、虚拟时钟等功能的脚手架代码，减少API调用复杂度和额外算力消耗。在制造业或实验室环境下，模型可作为“实时审计员”持续监控视频流并主动插话提醒，这是当前标准多模态模型难以稳定实现的。内容创作者可能在使用实时翻译、AI协作写作或交互式UI生成时获得更流畅的打断式协作体验。

值得关注的后续

第一，产品开放节奏：有限研究预览将在几个月内启动，2025年下半年开放范围会扩大，但开源策略尚未明确——Thinking Machines曾承诺“重要的开源组件”，目前看交互模型是否会开源仍是关键变量。第二，竞争格局：Gemini和GPT-4的实时语音模式已经上线，但Thinking Machines的架构更底层，一旦大规模可用，可能倒逼OpenAI和Google调整模型设计方向。第三，人才流动影响：公司被Meta定向挖走后，仍然聘请了PyTorch创始人Soumith Chintala担任CTO，团队规模已增至约130人，实际研发进度和生态建设速度值得跟踪。

来源：InfoQ CN

ChatGPT那一套要过时了？翁荔实测创业首个模型，回合制AI被“原生实时交互”秒了