前 OpenAI CTO 创业后首个「交互」大模型:原生、实时处理人机协作

前 OpenAI CTO 创业后首个「交互」大模型:原生、实时处理人机协作

前 OpenAI CTO 创业后首个「交互」大模型:原生、实时处理人机协作

一句话看懂:前 OpenAI CTO Mira Murati 创立的 Thinking Machines Lab 发布了首个产品——Interaction Models 研究预览。该模型不再采用一问一答的轮次式设计,而是以 200 毫秒为粒度持续同步处理语音、视频和文本,实现真正意义上的人机实时协作对话,其延迟和交互质量在部分评测中已显著优于 GPT-4o 和 Gemini 的实时版本。

事件核心:发生了什么

当地时间 4 月 16 日,Thinking Machines Lab 发布了交互模型 Interaction Models 的研究预览。该模型由两个子系统组成:一个 200 毫秒级实时响应的“交互模型”,负责持续接收用户输入并即时生成输出;另一个“异步后台模型”,专用于长时推理、网页浏览、工具调用等任务,结果以流式方式交给交互模型。这种双系统架构打破了传统大模型“用户输入完再等回答”的轮次限制。实测数据显示,TML-Interaction-Small(276B 参数 MoE,12B 激活参数)在 FD-bench V1 的简单话轮延迟仅为 0.40 秒,低于 GPT-realtime-2.0 minimal 的 1.18 秒和 Gemini-3.1-flash-live-preview 的 0.57 秒。在“时间感知”和“语音触发线索识别”等自建内部任务上,该模型得分(64.7、81.7)远超 GPT-realtime-2.0 minimal 的(4.3、2.9)。

为什么重要

这一发布直接冲击了当前大模型的交互范式。目前主流实时语音助手(如 ChatGPT 语音模式)本质上仍是将语音识别、大模型、TTS 等模块拼接而成,体验上难以避免延迟与割裂。Interaction Models 通过原生端到端设计和细粒度微轮次架构,让模型在沉默、打断、重叠发言时能自主判断是否回应,不再依赖外部对话管理模块。对于 AI 行业而言,这可能意味着从“问答机器”向“协作伙伴”的技术路线转折。同时,Mira Murati 作为前 OpenAI CTO 的身份,使得该模型成为 GPT-4o 和 Gemini 实时模式的直接竞品,尤其在延迟和音频回合指标上表现突出。

对用户/开发者/创作者的影响

对于普通用户,该模型有望带来更接近与人自然交流的体验:模型会一边听你说话、一边做事、甚至主动插话;你可以随时打断而不会打断流程。对于开发者,Interaction Models 提供了一个低延迟的音频、视频、文本多模态交互 API 基础,可用于构建实时客服、协作写作、远程辅助、智能教育等应用。对于内容创作者,官方演示显示模型能在用户讲故事时自然接话或提供背景搜索,意味着未来创作工具可能在录制、剪辑、搜索等环节实现真正的实时协作。不过目前模型仅为研究预览,且 TML-Interaction-Small 激活参数达 12B,部署成本较高,开发者还需等待正式 API 或开源版本。此外,实时工具调用和持续视频分析也意味着更高的算力与网络需求。

值得关注的后续

一、Thinking Machines Lab 计划在今年发布更大版本模型,届时原型的延迟与智能水平能否稳定提升是关键。二、该技术路线是否会引发 OpenAI、Google、Anthropic 等公司的跟进优化,以及它们是否会在自家产品中集成类似原生实时交互能力。三、官博已指出实时场景下的网络可靠性、安全校准(模型何时该沉默、不该打断)和后台 Agent 协作仍待完善,后续产品是否解决这些问题直接影响商业化落地进程。

来源:Readhub · AI

celebrityanime
celebrityanime
文章: 5153

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注