
一句话看懂:跨维智能发布 Dexterity-BEV,将自动驾驶领域的关键技术 BEV(鸟瞰视角)引入机器人训练,试图解决机器人数据因多本体、多视角、多坐标系导致的“无法统一训练、难以跨机迁移”问题,为具身智能的数据规模化铺平道路。
事件核心:发生了什么
跨维智能于 2026 年 6 月 12 日公开了其 Dexterity-BEV 技术方案。该方案的核心思路,是将来自不同机器人(如 Franka、双臂平台、半人形机器人)、不同相机视角、不同操作者的异构数据,统一对齐到一个 BEV 三维空间坐标系中。它并非放弃已有的 2D 视觉大模型,而是通过“顶点图”和“顶点谱”机制,给每个视觉 token 加上三维空间坐标,同时将动作从具体的关节角度解放出来,转为学习末端执行器在这一统一空间中的位姿。实验数据显示,在面对相机视角变化、机器人基座扰动、场景布局变化等传统 VLA 模型易失败的场景时,Dexterity-BEV 在 LIBERO 和 RoboTwin 2.0 等仿真任务中表现稳定,并已完成了折叠纸盒、双臂递书等真实机器人长程任务测试。
为什么重要
具身智能当前面临的核心矛盾,并非传统意义上的“数据量不足”,而是“数据高度异构”导致的熵暴:多个本体、多种相机、不同操作习惯产生的数据难以互通,无法用于统一训练和迁移。这类似自动驾驶早期的多相机感知拼凑困境。BEV 范式曾在自动驾驶领域完成了“从在图像里猜世界”到“在物理空间里理解世界”的关键跃迁。Dexterity-BEV 将同一方法论系统性推进到机器人数据基建层,为规模化训练提供了可复用的“空间底座”。这意味着行业竞争的前置条件,可能将从“谁采了更多数据”,转向“谁能先建立起数据秩序”。
对用户/开发者/创作者的影响
对于机器人算法开发者和创业者而言,这项技术的直接价值在于降低了跨平台泛化的门槛。过去,为了在不同硬件上复现一个操作技能,往往需要从零重新采集数据并调整模型。Dexterity-BEV 提供了一把“空间尺子”,让开发者在不同机器人本体上训练的知识能更容易地迁移和复用。对于行业采购方和集成商,这意味着未来购买的机器人产品,其“大脑”的通用性可能及对环境的适应能力会显著增强。对于普通用户,这可能意味着家用的、能适应不同环境和操作习惯的通用服务机器人,离落地更近了一步。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
1. 产品落地与开源情况:目前公开信息显示该方案处于技术验证阶段,跨维智能是否会将其作为产品对外提供或开源关键管线,将直接影响行业是否能快速跟进。2. 生态兼容性:Dexterity-BEV 对已有 2D VLM 模型的兼容性是重要优势,但能否被主流的机器人操作系统和仿真平台(如 ROS、Isaac Sim)广泛集成,是衡量其成败的关键。3. 数据闭环的验证:在真实机器人上,单次任务的成功只是起点。能否构建一个稳定的、支持多本体持续采集、训练、回传迭代的数据闭环,才是检验其能否真正推动具身智能“Scaling”的核心。
来源:量子位 · 每日最新


