
ChatGPT那一套要过时了?翁荔实测创业首个模型,回合制AI被“原生实时交互”秒了
一句话看懂:前OpenAI核心团队创立的Thinking Machines Lab发布了首个原生交互模型TML-Interaction-Small,该模型能以200毫秒为时间单位实时处理音频、视频和文本,在一次对话中并行进行思考、响应和工具调用,打破了当前主流大模型“人类输入—AI等待—再输出”的回合制交互模式。
事件核心:发生了什么
Thinking Machines Lab由前OpenAI CTO Mira Murati、联合创始人John Schulman等人于2024年创立,今天正式公布首个模型TML-Interaction-Small。该模型拥有2760亿参数(混合专家架构,活跃参数120亿),从零训练,采用多流、微回合设计,不依赖外部拼接模块即可实现打断对话、同时语音、时间感知和并行工具调用等能力。在FD-bench V1.5交互质量基准上,模型得分77.8,几乎是GPT-realtime-2.0 minimal的两倍;轮次响应延迟0.40秒,低于Gemini-3.1-flash-live和GPT-realtime-2.0 minimal。同时,在视觉主动性和指令遵循测试中,模型显著优于现有实时系统。当前模型仅供有限研究预览,计划2025年下半年更广泛发布。
为什么重要
当前主流大模型(包括GPT-4、Claude、Gemini等)本质上是“回合制”对话:用户说完后AI才开始生成,且生成过程中感知冻结。Thinking Machines将“交互性”内化为模型原生能力,而非靠外部代码拼接实现打断或多模态并发——这种架构设计直接挑战了ChatGPT等产品奠定的基础交互范式。其“200毫秒级实时交互+异步后台推理模型”的组合,解决了实时响应与深度推理之间的冲突,可能重新定义AI工具的交互体验标准。此外,Meta近期已挖走该公司7名创始成员,扎克伯格此前试图收购被拒,也侧面印证了这一技术路线对头部玩家的吸引力。
对用户/开发者/创作者的影响
如果该模型向企业开放,最直接的影响将出现在语音客服和实时监控场景:0.40秒延迟和原生同时语音能力,能让AI客服更像真人对话,而非等待一段段录音播放。对开发者而言,原生交互模型意味着可以省去大量用于实现打断、对话管理、虚拟时钟等功能的脚手架代码,减少API调用复杂度和额外算力消耗。在制造业或实验室环境下,模型可作为“实时审计员”持续监控视频流并主动插话提醒,这是当前标准多模态模型难以稳定实现的。内容创作者可能在使用实时翻译、AI协作写作或交互式UI生成时获得更流畅的打断式协作体验。
值得关注的后续
第一,产品开放节奏:有限研究预览将在几个月内启动,2025年下半年开放范围会扩大,但开源策略尚未明确——Thinking Machines曾承诺“重要的开源组件”,目前看交互模型是否会开源仍是关键变量。第二,竞争格局:Gemini和GPT-4的实时语音模式已经上线,但Thinking Machines的架构更底层,一旦大规模可用,可能倒逼OpenAI和Google调整模型设计方向。第三,人才流动影响:公司被Meta定向挖走后,仍然聘请了PyTorch创始人Soumith Chintala担任CTO,团队规模已增至约130人,实际研发进度和生态建设速度值得跟踪。
来源:InfoQ CN


