LeCun 10亿押注的方向，全球领先视觉大模型团队早已布局

一句话看懂：Yann LeCun 离开 Meta 后创立的 AMI Labs，以 10.3 亿美元种子轮押注隐空间世界模型。而中国团队视启未来（DINO-X 原班人马）已在该方向上提前布局，并于近期发布了首个产品化落地工具 EgoTwin，将人手操作数据转化为机器人可用的训练数据，采集效率达到行业主流的 3.75 倍。

事件核心：发生了什么

2026 年 5 月 15 日，视启未来创始人张磊在深圳举办的全球人工智能终端展上，正式阐述了团队在“隐空间世界模型”上的技术路线。该团队此前因推出全球领先的视觉大模型 Grounding DINO 和 DINO-X 而知名。与主流世界模型预测像素级未来画面不同，视启未来选择在更为抽象的表征空间（Latent Space）中对世界状态演化进行建模，并将此路线称为“视觉原生世界模型”。其关键技术特征包括：以物体为中心的表征（而非像素）、跨本体动作对齐（人手与机械臂的统一表示空间）、以及因果驱动的学习方式。同场发布会上，团队还联合百度智能云推出了人手 3D 对齐引擎 EgoTwin，直接解决具身智能领域的数据匮乏问题。

为什么重要

当前，世界模型的主流路线仍以像素级视频预测为主，这导致模型容易被纹理、光照等视觉细节干扰，难以学到真正的物理规律和因果关系。LeCun 长期批评“在输入空间做预测是糟糕的”，他新创立的 AMI Labs 正是为了推进隐空间路线。视启未来的做法更进一步：他们认为，模型必须先理解场景中“有哪些物体、它们如何关联、哪些变化来自交互”，才能高效学习物理因果。这种对“物体理解”能力的强调，与其在 DINO 系列模型上多年的积累直接相关。如果这条路线被验证可行，意味着机器人不再需要数亿次真实环境试错，可在隐空间中“预演”动作后果，从而显著降低训练成本和安全风险。

对用户/开发者/创作者的影响

对机器人领域的开发者而言，视启未来推出的 EgoTwin 直接降低了数据采集门槛。它能够将人类日常操作视频（如用手拧螺丝、抓取物体）直接转化为机器人能够学习的对齐数据，无需昂贵的遥操作设备。对于使用现有 DINO 系列模型的 AI 应用开发者，这套世界模型路线意味着未来可能通过一个更轻量级的 API 调用获得“动作预测”能力，而不仅仅是物体检测的结果。企业采购机器人解决方案时，应关注供应商是否采用了带物体理解能力的世界模型——它直接影响机器人在开放环境中自主决策的有效性。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，EgoTwin 的真实采集效率是否能在多场景（如厨房、仓库）中稳定达到宣称的 3.75 倍提升，需要更多独立机构验证。第二，视启未来目前主要发布的是数据产品，其隐空间世界模型是否有一个可公开调用的 API 或模型权重尚未明确，开发者可关注后续是否开源。第三，LeCun 的 AMI Labs 目前仍处于早期研发阶段，两者的路线竞争是否会引发更多资本涌入隐空间方向，以及国内其他视觉团队是否跟进，值得持续观察。

来源：量子位 · 每日最新

LeCun 10亿押注的方向，全球领先视觉大模型团队早已布局