LeCun 10亿押注的方向,全球领先视觉大模型团队早已布局

LeCun 10亿押注的方向,全球领先视觉大模型团队早已布局

LeCun 10亿押注的方向,全球领先视觉大模型团队早已布局

一句话看懂:Yann LeCun 离开 Meta 后创立的 AMI Labs,以 10.3 亿美元种子轮押注隐空间世界模型。而中国团队视启未来(DINO-X 原班人马)已在该方向上提前布局,并于近期发布了首个产品化落地工具 EgoTwin,将人手操作数据转化为机器人可用的训练数据,采集效率达到行业主流的 3.75 倍。

事件核心:发生了什么

2026 年 5 月 15 日,视启未来创始人张磊在深圳举办的全球人工智能终端展上,正式阐述了团队在“隐空间世界模型”上的技术路线。该团队此前因推出全球领先的视觉大模型 Grounding DINO 和 DINO-X 而知名。与主流世界模型预测像素级未来画面不同,视启未来选择在更为抽象的表征空间(Latent Space)中对世界状态演化进行建模,并将此路线称为“视觉原生世界模型”。其关键技术特征包括:以物体为中心的表征(而非像素)、跨本体动作对齐(人手与机械臂的统一表示空间)、以及因果驱动的学习方式。同场发布会上,团队还联合百度智能云推出了人手 3D 对齐引擎 EgoTwin,直接解决具身智能领域的数据匮乏问题。

为什么重要

当前,世界模型的主流路线仍以像素级视频预测为主,这导致模型容易被纹理、光照等视觉细节干扰,难以学到真正的物理规律和因果关系。LeCun 长期批评“在输入空间做预测是糟糕的”,他新创立的 AMI Labs 正是为了推进隐空间路线。视启未来的做法更进一步:他们认为,模型必须先理解场景中“有哪些物体、它们如何关联、哪些变化来自交互”,才能高效学习物理因果。这种对“物体理解”能力的强调,与其在 DINO 系列模型上多年的积累直接相关。如果这条路线被验证可行,意味着机器人不再需要数亿次真实环境试错,可在隐空间中“预演”动作后果,从而显著降低训练成本和安全风险。

对用户/开发者/创作者的影响

对机器人领域的开发者而言,视启未来推出的 EgoTwin 直接降低了数据采集门槛。它能够将人类日常操作视频(如用手拧螺丝、抓取物体)直接转化为机器人能够学习的对齐数据,无需昂贵的遥操作设备。对于使用现有 DINO 系列模型的 AI 应用开发者,这套世界模型路线意味着未来可能通过一个更轻量级的 API 调用获得“动作预测”能力,而不仅仅是物体检测的结果。企业采购机器人解决方案时,应关注供应商是否采用了带物体理解能力的世界模型——它直接影响机器人在开放环境中自主决策的有效性。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

第一,EgoTwin 的真实采集效率是否能在多场景(如厨房、仓库)中稳定达到宣称的 3.75 倍提升,需要更多独立机构验证。第二,视启未来目前主要发布的是数据产品,其隐空间世界模型是否有一个可公开调用的 API 或模型权重尚未明确,开发者可关注后续是否开源。第三,LeCun 的 AMI Labs 目前仍处于早期研发阶段,两者的路线竞争是否会引发更多资本涌入隐空间方向,以及国内其他视觉团队是否跟进,值得持续观察。

来源:量子位 · 每日最新

celebrityanime
celebrityanime
文章: 5488

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注