机器人告别“逐帧学动作”!全球首个事件级具身智能世界模型发布

机器人告别“逐帧学动作”!全球首个事件级具身智能世界模型发布

机器人告别“逐帧学动作”!全球首个事件级具身智能世界模型发布

一句话看懂:2026年5月29日,Variable Robot团队发布了WALL-WM,这是全球首个基于“事件级预测”的具身智能世界模型。它不再让机器人逐帧学习机械动作,而是以“事件”为基本单元来理解与执行任务,直接回应了当前具身大模型泛化能力差的行业痛点。

事件核心:发生了什么

Variable Robot团队推出的WALL-WM模型,核心变化在于将世界模型的预测单元从连续的“帧”切换为有语义的“事件”。例如,机器人不再需要逐帧计算如何移动手臂去抓取杯子,而是先理解“抓取”这个事件会发生,然后生成对应的运动轨迹。系统支持“事件模式”(变长动作输出)和“统一模式”(实时闭环控制)在同一基础权重下灵活切换,并在视频模型与动作模型之间实现了单向耦合,保护了互联网视频预训练的动态先验不被动作数据过早带偏。针对多摄像头设备,模型引入视锥遮罩与管状遮罩机制,强制建立跨视图的三维几何对应能力;决策延迟方面,则采用了“阶梯式思维链解码”技术来降低解码时延。这些工程改造确保了新架构能在真实物理世界中稳定运行。

为什么重要

目前主流的视觉-语言-动作(VLA)模型普遍采用“文本-视觉-动作”在单一共享空间对齐的思路,但文本、视觉与动作信息在时间尺度与流形几何上天然不同,强行对齐容易破坏预训练几何先验。这导致机器人虽然在训练集上表现良好,但一旦遇到场景或物体变化(如换杯子、换桌面)就容易“翻车”。WALL-WM将预测单元从帧升级为事件,本质上改变了机器人的学习范式:它不再死记硬背关节角度序列,而是学会预测“世界在下个事件中如何变化”。如果这一技术路线被验证可行,它将直接降低具身智能在真实工业、家庭等场景中落地的泛化门槛,有望推动机器人在非结构化环境中的任务执行能力进入新阶段。

对用户/开发者/创作者的影响

对于机器人研发团队和具身智能开发者,WALL-WM提供了一个新的技术方向:未来在设计机器人规划系统时,可以不再依赖高精度的逐帧动作标签,而是转向事件级的数据标注与训练方式。这可能会降低数据采集成本,并提高模型在任务级推理上的可解释性。对于机器人硬件厂商,这种模型架构可能更适合多摄像头、多传感器融合的场景,减少因视角变化导致的失败率。普通用户短期还无法直接体验,但长期来看,这或许意味着购买家用或服务机器人时,机器对“换一个杯子、换一张桌子”这类常见干扰的适应能力会明显增强。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

第一,WALL-WM目前发布的是学术论文与技术方案,尚未公布在真实复杂环境(如家庭、工厂)中的大规模测试结果,泛化能力到底提升多少,需要看到独立复现或第三方评测。第二,Variable Robot团队是否计划开源该模型或配套的事件级数据标注工具?这会直接影响开发者社区能否快速跟进。第三,这一“事件级预测”思路是否会引发其他具身智能团队(如Google DeepMind、Figure AI等)调整自身技术路线,行业是否会从“逐帧对齐”向“事件驱动”迁移,值得持续观察。

来源:AIbase

celebrityanime
celebrityanime
文章: 4612

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注