机器人有了“通用大脑”:RoboScience 发布 Visics 大模型,实现跨场景自主执行

机器人创业公司 RoboScience 在 6 月 24 日发布了通用具身大模型 Visics,并公开了其核心架构 VLOA(视觉-语言-物体-动作)。这意味着机器人不再只能重复单一任务的训练轨迹,而是具备了在不同硬件、不同物体和不同任务间自主执行的能力。

机器人有了“通用大脑”:RoboScience 发布 Visics 大模型,实现跨场景自主执行

一句话看懂:机器人创业公司 RoboScience 在 6 月 24 日发布了通用具身大模型 Visics,并公开了其核心架构 VLOA(视觉-语言-物体-动作)。这意味着机器人不再只能重复单一任务的训练轨迹,而是具备了在不同硬件、不同物体和不同任务间自主执行的能力。

事件核心:发生了什么

RoboScience 机器科学创始人兼 CEO 叶天野在发布会上指出,过去行业普遍采用的“动作复制”模式——即让机器人记忆特定的关节运动轨迹——在硬件或物体发生变化时模型能力会完全失效。为解决这一通用性差、难以执行长周期任务的行业瓶颈,Visics 模型引入了“物体 3D 点云轨迹”作为统一中间表示标准。

在内部架构上,Visics 采用双引擎设计:具身世界模型通过海量视频预训练理解物理世界中物体的运动规律和因果关系;通用操作模型则将预测的轨迹转化为具体的硬件控制指令。这种分层解耦的设计,让机器人能像人类一样先理解物体运动的逻辑,再灵活使用不同“身体”完成任务。

针对行业普遍存在的数据采集成本高、效率低的难题,RoboScience 构建了“仿真+视频”双数据飞轮。依托自研的高精度仿真引擎 RoboMirage 和自动化数据标注流水线,单条数据获取成本已降至传统方法的 1% 以下。公司正在向 2026 年底构建 1T 规模高质量数据集的目标推进,目前每周以数万小时的速度增长。

为什么重要

这一技术路线最大的意义在于,它打破了“一个机器人只能干一件事”的长期行业天花板。传统工业机器人需要针对每个新物体或新任务重新训练,部署成本极高。Visics 通过将物体运动逻辑与硬件执行解耦,使得同一个软件大脑可以驱动不同形态的机器人完成不同场景的工作。这是具身智能从实验室走向产业深水区的重要一步——机器人终于有可能在多变的生产和服务一线自主创造价值,而不再只是封闭环境里的“动作复读机”。

对用户/开发者/创作者的影响

目前公开信息显示,RoboScience 在商业化落地上选择了从“物体维度”切入。联合创始人王涛表示,公司聚焦超市、物流、医疗等 SKU 数量大、多品类操作需求高的场景,而非与工业领域的现有自动化方案正面竞争。这意味着零售、物流行业的企业采购者可能率先看到 Visics 驱动的机器人产品:例如在分拣、上货、搬运等高频操作岗位上,机器人能够适应不同规格的包装和商品,而无需每次更换硬件或重新编程。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

对于机器人开发者和系统集成商而言,Visics 的双引擎架构和统一的点云轨迹标准降低了跨品牌、跨形态机器人适配的门槛。未来如果 RoboScience 开放 Visics 的 API 或预训练模型,开发者或许可以基于该“通用大脑”快速搭建面向不同行业的上层应用,从而缩短产品落地周期。

值得关注的后续

1. 产品落地进度:公司计划年内实现标准化机器人本体产品的量产。需要观察其量产时间是 2026 年内还是 2027 年初,以及在实际零售、物流场景中能否稳定应对高频率、多品类的操作需求。

2. 数据飞轮的可持续性:虽然目前数据成本已大幅降低,但构建 1T 级数据集并保持每周数万小时的增速,对算力、仿真精度以及标注质量都是持续考验。后续是否会出现数据瓶颈或标注偏差值得关注。

3. 竞品与技术路线对比:目前国内外多家具身智能公司(如 Google DeepMind 的 RT-2、国内清华系的星动纪元等)也在探索通用操作模型。Visics 的“物体 3D 点云轨迹”方案能否在跨场景泛化能力上显著领先竞争对手,是评估其长期竞争力的关键。

来源:AIbase

celebrityanime
celebrityanime
文章: 9896

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注