国家队出手！北京人形推出全球首个统一具身智能模型，拿下两榜 SOTA，具身大脑达到世界第一梯队

一句话看懂：北京人形机器人创新中心于5月15日发布了全球首个按“大一统”思想训练的具身智能模型 Pelican-Unify 1.0，该模型在 World Arena 全球评测中以66.03分登顶，成为唯一在核心赛道同时夺冠的企业。它验证了机器人“先预演、再行动”的闭环智能能力。

事件核心：发生了什么

北京人形机器人创新中心（简称北京人形）发布了其通用具身智能平台“慧思开物”的核心组件——Pelican-Unify 1.0。该模型是一个统一了“理解-推理-想象-行动”的闭环智能体，在由清华、普林斯顿、北大等机构发起的 World Arena 评测中，以66.03的 EWM 综合得分拿下榜首。正式论文已上传至 arXiv（编号2605.15153）。该模型基于 Qwen3-VL-4B-Instruct 和 Wan2.2 扩散 Transformer，实现了三种统一：统一理解、统一推理和统一生成。在真实机器人测试中，UR5e 机械臂仅凭两个原子任务的训练数据，成功完成了“插RJ45接头并做防水”的零样本连续任务，成功率高达93.5%。

为什么重要

当前业内多数具身智能方案采用“视觉模块+语言模块+行动模块”的碎片化架构，而 Pelican-Unify 1.0 证明了将感知、规划与执行统一在单一模型中的可行性。它通过共享潜变量 z 将语言推理、未来视频生成和动作轨迹生成耦合在一起，训练时同时优化语言损失、视频损失和行动损失，意味着模型能同时学会“看、想、动”。这一思路打破了机械的“看见-执行”映射，使机器人开始在内心预演未来后再行动。北京人形因此成为全球唯一在 World Arena 数据引擎和模型评测两大核心赛道同时夺冠的企业，标志着国家队的具身大脑已跻身世界第一梯队。这一技术范式如果落地，将对机器人行业的研发效率、应用场景扩展以及供应链格局产生根本性影响。

对用户/开发者/创作者的影响

对于开发者和机器人企业，Pelican-Unify 1.0 的公开论文和评测结果提供了一套可复现的“统一训练”框架。开发者可以研究其共享潜变量 z 的设计，以及扩散 Transformer 如何同时处理视频和动作 token，从而在自己的机器人平台上复现类似能力。对于使用机器人进行自动化生产或服务的企业，这表明未来可能不再需要针对每个任务单独训练模型，而是通过输入自然语言指令，机器人就能依赖自身的内化物理常识完成零样本迁移——这在柔性制造、仓储拣选等场景中价值极高。对于 AI 内容创作者，该模型展示了如何将视频生成技术与机器人控制结合，其“预演未来”的思路可能启发更高效的人机交互设计。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，Pelican-Unify 1.0 目前基于 Qwen3-VL-4B 模型，是否能迁移至更大规模模型（如 7B 或 72B）并保持高成功率和低推理延迟，是观察重点。第二，该模型在公开论文中仅提到 UR5e 和天宫人形机器人的测试结果，是否能顺利适配更多主流硬件平台（如波士顿动力、宇树等企业的人形机器人）尚未公布。第三，北京人形作为“国家队”平台，是否会开放 API 或提供模型权重下载，将直接影响开发者生态的建立速度。如果形成类似开源大模型社区那样的生态，将加速国内具身智能的产业化进程。

来源：Readhub · AI

国家队出手！北京人形推出全球首个统一具身智能模型，拿下两榜 SOTA，具身大脑达到世界第一梯队