VLA 死了,遥操也死了!英伟达机器人一号位说的

VLA 死了,遥操也死了!英伟达机器人一号位说的

VLA 死了,遥操也死了!英伟达机器人一号位说的

一句话看懂:英伟达机器人负责人 Jim Fan 在 2026 年红杉 AI Ascent 上公开宣布,过去三年主导具身智能的 VLA(视觉-语言-动作模型)和遥操作数据采集范式已经过时,取而代之的是世界动作模型(WAM)和基于人类第一视角视频的数据策略。这是一次从技术路线到数据获取策略的全面转向。

事件核心:发生了什么

Jim Fan 在演讲中明确将 VLA 定义为“已死”的旧范式,并提出了新的预训练范式——世界动作模型(WAM,World Action Models)。WAM 的核心思路是:先预训练模型模拟物理世界的“下一个世界状态”(类似 LLM 的 next token prediction),再通过动作微调校准对真实机器人有价值的部分,最后由强化学习完成优化。英伟达已经通过 Dream Zero 模型展示了这一路线的可行性——它能零样本完成训练中未见过的任务,且能实时将视频预测与动作执行关联起来。

同时,Jim Fan 认为遥操作(数据采集)的黄金时代已经结束。他强调未来 1-2 年内遥操作占比将降至可忽略,数据采集的核心将转向第一视角人类视频(human egocentric videos)。英伟达已发布 EgoScale 项目,在 2.1 万小时真实人第一视角视频上预训练模型,不使用任何机器人数据,仅用少量高精度数据手套和遥操数据微调,就实现了端到端的机器人策略模型。

为什么重要

这不仅是英伟达内部的技术路线调整,而是对整个具身智能行业的技术栈和商业模式冲击。过去三年,几乎所有具身智能公司都在投资 VLA 和遥操作基础设施(VR 头显、外骨骼、高成本数据采集流水线)。Jim Fan 的发言等于宣判这些投入在 2-3 年内将过时。WAM 和人类视频策略具备更强的 scaling 能力:理论上,人可以像开车一样自然地产出操作数据,且数据获取不受机器人物理数量和运行时间的限制。如果这一路线验证成功,具身智能将走向类似大语言模型的“数据飞轮”模式——算力=环境=数据,从而大幅降低机器人训练成本,加速 AI 在物理世界的部署。

对用户/开发者/创作者的影响

对开发者与研究者:需要立刻审视自身技术栈是否过度依赖 VLA 和遥操作数据。如果依赖传统 VLA 预训练模型(如 RT-2 及其衍生),建议关注英伟达后续发布的 WAM 开源项目或等效预训练权重。同时,学术研究方向应从“设计复杂遥操作设备”转向“高效利用第一视角视频数据”,包括手势追踪、语言标注和场景理解。

对机器人公司与创业团队:数据采集的“硬件成本”会大幅降低——没必要买昂贵的遥操作外骨骼或建设专用数据采集间,一台带摄像头的机器人加上人类操作员的第一视角视频即可。但这也意味着需要更强大的视频预训练和视频-动作对齐技术,对算力和算法能力要求提升。

对普通用户/创作者:短期内影响有限,但如果 WAM 路线成功,机器人将更早进入家庭和商业场景(如服务机器人、物流分拣)。对内容创作者而言,第一视角视频(如 Vlog、手持设备操作视频)可能成为一种新的“训练数据资产”,未来或许可以上传自己的操作视频来训练专属机器人。

值得关注的后续

1. 英伟达的 WAM 开源计划。Jim Fan 暗示 Dream Zero 只是“GPT-2 时刻”,意味着更大规模的、开源的世界动作模型可能在 2026 下半年或 2027 年发布。这是判断 WAM 是否真正取代 VLA 的关键节点。

2. EgoScale 的商业化与落地。2.1 万小时人类视频数据集是否会开放给研究者?英伟达是否会推出基于第一视角视频的数据服务或 API?目前公开信息显示该数据策略仍在验证阶段。

3. 竞品响应。Google DeepMind(RT-2 系列作者)、Hugging Face/LeRobot 等社区是否会跟进 WAM 范式?特斯拉的人形机器人在自动数据采集(FSD 式)上已有实践,英伟达的转向可能迫使整个行业加速放弃遥操作。

来源:Readhub · AI

celebrityanime
celebrityanime
文章: 3142

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注