VLA 死了，遥操也死了！英伟达机器人一号位说的

一句话看懂：英伟达机器人负责人 Jim Fan 在 2026 年红杉 AI Ascent 上公开宣布，过去三年主导具身智能的 VLA（视觉-语言-动作模型）和遥操作数据采集范式已经过时，取而代之的是世界动作模型（WAM）和基于人类第一视角视频的数据策略。这是一次从技术路线到数据获取策略的全面转向。

事件核心：发生了什么

Jim Fan 在演讲中明确将 VLA 定义为“已死”的旧范式，并提出了新的预训练范式——世界动作模型（WAM，World Action Models）。WAM 的核心思路是：先预训练模型模拟物理世界的“下一个世界状态”（类似 LLM 的 next token prediction），再通过动作微调校准对真实机器人有价值的部分，最后由强化学习完成优化。英伟达已经通过 Dream Zero 模型展示了这一路线的可行性——它能零样本完成训练中未见过的任务，且能实时将视频预测与动作执行关联起来。

同时，Jim Fan 认为遥操作（数据采集）的黄金时代已经结束。他强调未来 1-2 年内遥操作占比将降至可忽略，数据采集的核心将转向第一视角人类视频（human egocentric videos）。英伟达已发布 EgoScale 项目，在 2.1 万小时真实人第一视角视频上预训练模型，不使用任何机器人数据，仅用少量高精度数据手套和遥操数据微调，就实现了端到端的机器人策略模型。

为什么重要

这不仅是英伟达内部的技术路线调整，而是对整个具身智能行业的技术栈和商业模式冲击。过去三年，几乎所有具身智能公司都在投资 VLA 和遥操作基础设施（VR 头显、外骨骼、高成本数据采集流水线）。Jim Fan 的发言等于宣判这些投入在 2-3 年内将过时。WAM 和人类视频策略具备更强的 scaling 能力：理论上，人可以像开车一样自然地产出操作数据，且数据获取不受机器人物理数量和运行时间的限制。如果这一路线验证成功，具身智能将走向类似大语言模型的“数据飞轮”模式——算力=环境=数据，从而大幅降低机器人训练成本，加速 AI 在物理世界的部署。

对用户/开发者/创作者的影响

对开发者与研究者：需要立刻审视自身技术栈是否过度依赖 VLA 和遥操作数据。如果依赖传统 VLA 预训练模型（如 RT-2 及其衍生），建议关注英伟达后续发布的 WAM 开源项目或等效预训练权重。同时，学术研究方向应从“设计复杂遥操作设备”转向“高效利用第一视角视频数据”，包括手势追踪、语言标注和场景理解。

对机器人公司与创业团队：数据采集的“硬件成本”会大幅降低——没必要买昂贵的遥操作外骨骼或建设专用数据采集间，一台带摄像头的机器人加上人类操作员的第一视角视频即可。但这也意味着需要更强大的视频预训练和视频-动作对齐技术，对算力和算法能力要求提升。

对普通用户/创作者：短期内影响有限，但如果 WAM 路线成功，机器人将更早进入家庭和商业场景（如服务机器人、物流分拣）。对内容创作者而言，第一视角视频（如 Vlog、手持设备操作视频）可能成为一种新的“训练数据资产”，未来或许可以上传自己的操作视频来训练专属机器人。

值得关注的后续

1. 英伟达的 WAM 开源计划。Jim Fan 暗示 Dream Zero 只是“GPT-2 时刻”，意味着更大规模的、开源的世界动作模型可能在 2026 下半年或 2027 年发布。这是判断 WAM 是否真正取代 VLA 的关键节点。

2. EgoScale 的商业化与落地。2.1 万小时人类视频数据集是否会开放给研究者？英伟达是否会推出基于第一视角视频的数据服务或 API？目前公开信息显示该数据策略仍在验证阶段。

3. 竞品响应。Google DeepMind（RT-2 系列作者）、Hugging Face/LeRobot 等社区是否会跟进 WAM 范式？特斯拉的人形机器人在自动数据采集（FSD 式）上已有实践，英伟达的转向可能迫使整个行业加速放弃遥操作。

来源：Readhub · AI

VLA 死了，遥操也死了！英伟达机器人一号位说的