
2B 参数「四两拨千斤」,智元自研世界模型 GE 2.0 登顶 WorldArena 榜单
一句话看懂:智元机器人团队自研的世界模型 GE 2.0,以仅 20 亿(2B)参数的小模型,击败英伟达、微软等超大参数旗舰模型,在具身智能领域权威榜单 WorldArena Track1 中登顶。这一成绩表明在机器人应用中,轻量化模型同样可以实现顶级效果,对大模型能力与资源投入之间的传统认知形成了挑战。
事件核心:发生了什么
5 月 29 日,智元 AGIBOT 官方宣布,其自研世界模型 Genie Envisioner-Sim 2.0(简称 GE 2.0)在具身领域热门榜单 WorldArena Track1(世界模型感知与动作响应赛道)评测中夺冠。该赛道的竞争对手包括英伟达最新模型 DreamDojo、清华联合斯坦福的 Ctrl-World 团队等国内外 AI 顶尖团队。智元团队表示,GE 2.0 在评测中未进行特殊优化,仅基于榜单数据进行了基础微调。该模型在功能上首次全面覆盖长时序生成、多视角生成、本体状态生成、近实时推理及奖励判别等环节,构建了完整的世界模拟器技术能力闭环。
为什么重要
GE 2.0 的登顶具有两重意义。第一,它验证了“小参数高效”的技术路线可行性:2B 参数模型在长时序推理中表现出极强稳定性,即使在连续推演 40-50 秒的长视频片段时,生成质量依然超越基线模型前 10 秒内的表现,有效证明了轻量化模型在人形机器人应用中的适配性不逊于超大参数模型。第二,GE 2.0 作为策略评测器的可靠性得到数据支撑——团队通过逐案 rollout 对比和混淆矩阵量化验证,证明其与真实世界保持强相关,能通过奖励模型将高质量数据回流给策略模型,助力策略模型实现性能涨点。这意味着世界模型从“理论演示”向“实际辅助训练工具”迈出关键一步。
对用户/开发者/创作者的影响
对于具身智能领域的开发者,GE 2.0 提供了一种更平价的模型选择——2B 参数意味着更低的推理成本和部署门槛。机器人公司或研究团队可能无需再依赖昂贵的大模型算力。同时,GE 2.0 的“长时序生成”和“多视角生成”能力,可用于机器人在复杂环境中的任务模拟,降低了真实环境测试成本。对于关注人形机器人的企业采购方,这提示了一种方向:在选型时不应仅以参数规模或模型名称论英雄,应更关注模型在实际任务中的闭环效果和与真实世界的一致性。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
首先,GE 2.0 是否会在智元机器人产品中落地,以及其闭环训练机制是否能够持续提升下游策略模型性能,将是检验“小模型”实用性的关键。其次,英伟达、微软等尚未公开回应此次评测结果,其后续是否会推出参数更小但效果相当的竞品模型值得关注。最后,WorldArena 榜单赛题的设置是否会被行业广泛接受为世界模型能力的标准度量,将影响后续技术演进与评测生态的形成。
来源:Readhub · AI


