
国家队出手!北京人形推出全球首个统一具身智能模型,拿下两榜 SOTA,具身大脑达到世界第一梯队
一句话看懂:北京人形机器人创新中心于5月15日发布了全球首个按“大一统”思想训练的具身智能模型 Pelican-Unify 1.0,该模型在 World Arena 全球评测中以66.03分登顶,成为唯一在核心赛道同时夺冠的企业。它验证了机器人“先预演、再行动”的闭环智能能力。
事件核心:发生了什么
北京人形机器人创新中心(简称北京人形)发布了其通用具身智能平台“慧思开物”的核心组件——Pelican-Unify 1.0。该模型是一个统一了“理解-推理-想象-行动”的闭环智能体,在由清华、普林斯顿、北大等机构发起的 World Arena 评测中,以66.03的 EWM 综合得分拿下榜首。正式论文已上传至 arXiv(编号2605.15153)。该模型基于 Qwen3-VL-4B-Instruct 和 Wan2.2 扩散 Transformer,实现了三种统一:统一理解、统一推理和统一生成。在真实机器人测试中,UR5e 机械臂仅凭两个原子任务的训练数据,成功完成了“插RJ45接头并做防水”的零样本连续任务,成功率高达93.5%。
为什么重要
当前业内多数具身智能方案采用“视觉模块+语言模块+行动模块”的碎片化架构,而 Pelican-Unify 1.0 证明了将感知、规划与执行统一在单一模型中的可行性。它通过共享潜变量 z 将语言推理、未来视频生成和动作轨迹生成耦合在一起,训练时同时优化语言损失、视频损失和行动损失,意味着模型能同时学会“看、想、动”。这一思路打破了机械的“看见-执行”映射,使机器人开始在内心预演未来后再行动。北京人形因此成为全球唯一在 World Arena 数据引擎和模型评测两大核心赛道同时夺冠的企业,标志着国家队的具身大脑已跻身世界第一梯队。这一技术范式如果落地,将对机器人行业的研发效率、应用场景扩展以及供应链格局产生根本性影响。
对用户/开发者/创作者的影响
对于开发者和机器人企业,Pelican-Unify 1.0 的公开论文和评测结果提供了一套可复现的“统一训练”框架。开发者可以研究其共享潜变量 z 的设计,以及扩散 Transformer 如何同时处理视频和动作 token,从而在自己的机器人平台上复现类似能力。对于使用机器人进行自动化生产或服务的企业,这表明未来可能不再需要针对每个任务单独训练模型,而是通过输入自然语言指令,机器人就能依赖自身的内化物理常识完成零样本迁移——这在柔性制造、仓储拣选等场景中价值极高。对于 AI 内容创作者,该模型展示了如何将视频生成技术与机器人控制结合,其“预演未来”的思路可能启发更高效的人机交互设计。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
第一,Pelican-Unify 1.0 目前基于 Qwen3-VL-4B 模型,是否能迁移至更大规模模型(如 7B 或 72B)并保持高成功率和低推理延迟,是观察重点。第二,该模型在公开论文中仅提到 UR5e 和天宫人形机器人的测试结果,是否能顺利适配更多主流硬件平台(如波士顿动力、宇树等企业的人形机器人)尚未公布。第三,北京人形作为“国家队”平台,是否会开放 API 或提供模型权重下载,将直接影响开发者生态的建立速度。如果形成类似开源大模型社区那样的生态,将加速国内具身智能的产业化进程。
来源:Readhub · AI


