场景泛化能力反超主流VLA模型?大晓机器人开源新世界模型,以极小代价直达家庭

大晓机器人(ACE ROBOTICS)于2025年12月开源了名为“开悟”(Kairos)的世界模型,该模型在RoboTwin 2.0、LIBERO-Plus、WorldModelBench Robot、DreamGen四项具身智能权威评测中均获第一,并在复杂双臂操作和场景泛化能力上超越主流VLA模型。

场景泛化能力反超主流VLA模型?大晓机器人开源新世界模型,以极小代价直达家庭

一句话看懂:大晓机器人(ACE ROBOTICS)于2025年12月开源了名为“开悟”(Kairos)的世界模型,该模型在RoboTwin 2.0、LIBERO-Plus、WorldModelBench Robot、DreamGen四项具身智能权威评测中均获第一,并在复杂双臂操作和场景泛化能力上超越主流VLA模型。

事件核心:发生了什么

大晓机器人发布了自研的世界模型Kairos,并宣布向全行业开源。该模型采用“多模态理解—生成—预测”一体化架构,摒弃了传统基于视频生成模型后训练的“外挂式”方法,自研混合线性注意力算子与全局状态共享机制。在数据层面,Kairos使用了十余万小时人类实景数据和数百万小时互联网视频,涵盖数百类职业场景。在RoboTwin 2.0评测中,Kairos以96.1%的平均成功率登顶,显著领先G0.5、starVLA等VLA模型以及MotuBrain、Fast-WAM等其他世界模型;在LIBERO-Plus场景级泛化测试中,其以89.0分超越所有主流VLA和世界模型;在WorldModelBench Robot中,Kairos-4B以9.30分总成绩超越28B参数的Lingbot等更大模型;在DreamGen Bench中斩获物理遵循和总平均分双第一。目前,项目已在GitHub、Hugging Face和ModelScope上公开。

为什么重要

这次开源标志着世界模型技术路线在具身智能领域取得实质性突破。传统VLA模型在处理长时序推理、环境动力学预测和未知场景泛化方面存在局限性,而Kairos通过一体化架构和自主预训练范式,在物理理解、因果推理和鲁棒性上实现了全方位提升。尤其值得注意的是,Kairos-4B仅用4B参数就在多项评测中击败参数规模数倍于己的模型,展现出极高的参数效率。大晓机器人此次以全部开源的方式推进技术,降低了行业进入门槛,可能加速具身智能从实验室走向商业化的进程。这对整个机器人行业的技术路线选择——是继续深耕VLA路径,还是转向世界模型路线——将产生重要影响。

对用户/开发者/创作者的影响

对于机器人开发者和具身智能研究人员,Kairos的开源直接提供了一个可直接端侧驱动机器人本体的世界模型。开发者可以基于该模型进行二次开发,避免从零开始训练世界模型所需的海量数据和算力成本。对于企业采购和场景部署者,Kairos在LIBERO-Plus评测中表现出的光照、背景、噪声等环境鲁棒性,意味着机器人能更直接地部署到家庭、工厂、商场等非结构化场景,减少对人工调试的依赖。对于AI内容创作者和合成数据使用者,Kairos在DreamGen中展示的泛化能力说明其生成的合成数据质量可靠,可能用于替代部分真实数据采集,降低训练成本。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

1. 开源生态建设:虽然项目已发布三个平台,但后续社区贡献、第三方适配和文档完善程度将决定其能否形成真正的开发者生态。2. 商业落地验证:目前评测数据主要来自实验室基准,需要观察该模型在真实家庭或工业场景中的长期运行稳定性和意外处理能力。3. 主流VLA模型竞品反应:OpenVLA、RT系列等主流VLA模型团队可能会调整技术路线或发布对标产品,行业技术路线之争可能进一步白热化。

来源:InfoQ CN

celebrityanime
celebrityanime
文章: 8292

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注