
一句话看懂:昆仑万维Skywork团队在智源大会上公布了其世界模型Matrix-Game 3.5的技术突破,核心是将“状态预测”与“动作生成”进行联合训练,并计划于2026年7月正式发布。这一思路可能改变当前世界模型仅关注“预测下一帧”的研发方向。
事件核心:发生了什么
6月13日,在第8届智源大会的世界模型分论坛上,昆仑万维旗下Skywork首席科学家刘扬系统阐述了Matrix-Game的研发历程,并首次公开了Matrix-Game 3.5的多项技术细节。
不同于主流路线将视频预测与动作控制分开训练,刘扬提出应将“下一帧状态生成”与“动作生成”进行联合训练。实验表明,这一统一框架能同时提升状态理解与动作预测的效果。此外,Matrix-Game 3.5在数据采集上构建了基于Unreal Engine 5和跨游戏控制的自动化数据引擎,已产出500万+视频切片和1200+游戏场景数据。在技术架构上,3.5版本引入了PRoPE机制替代额外参数注入,并采用空间块(spatial tokens)记忆检索以解决长时程一致性问题。
为什么重要
这一动态的意义在于为世界模型的研发路线提供了一个明确且可验证的新框架。当前行业对“世界模型”的定义极其混乱,不同团队分别聚焦视频生成、3D表征或交互模拟。Matrix-Game 3.5提出的“状态-动作联合生成”,将世界模型从单向的“观察者”转变为“参与者”,使其更接近物理世界的因果逻辑。此举不仅巩固了昆仑万维在国内世界模型赛道的先发优势——其2.0版本已被纽约大学谢赛宁团队用作Solaris模型底座——也向业界展示了从游戏仿真向机器人控制等真实场景扩展的可行路径。
对用户/开发者/创作者的影响
对AI研究者和开发者,Matrix-Game 3.5开源组件的迭代(尤其是PRoPE机制和空间记忆检索的实现)有望成为搭建交互式世界模型的关键参考模板,降低从零构建的技术门槛。对游戏和影视创作者,该模型支持多风格动态切换与NPC交互,未来可能被用于快速生成可交互的虚拟场景,替代部分传统3D引擎的繁重工作。对机器人及自动驾驶领域,联合训练框架下的动作输出能力,意味着世界模型可直接服务于决策与控制算法训练,而非仅提供仿真回放。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
1. 开源兑现与生态建设:Matrix-Game 3.5计划于2026年7月正式发布,届时是否保持开源、能否延续2.0版本吸引外部学术团队合作的能力,将影响其技术影响力。2. 跨场景迁移效果:目前模型数据以游戏为主,向真实物理场景(如机器人操作环境)迁移的表现尚待验证,后续报告中的多场景测试结果值得关注。3. 竞品响应:智源大会上多家机构展示了不同路线的世界模型,如果Matrix-Game联合训练框架被验证为更优范式,可能引发行业技术路线的快速收敛。
来源:量子位 · 每日最新


