
一句话看懂:2026年北京智源大会上,智源研究院院长王仲远明确将“世界模型”定义为下一代AI的基座模型,并指出当前面临真实物理数据匮乏、技术路线未收敛、评测体系不完善三大瓶颈。这意味着AI研发方向正从“理解语言”转向“理解物理世界”。
事件核心:发生了什么
在2026年6月13日召开的北京智源大会上,智源研究院院长王仲远详细阐述了团队从“悟道”到“悟界”的技术演进逻辑。他提出,世界模型是下一代人工智能的基座模型,而非简单的语言或视觉模型的延伸。当前制约世界模型发展的主要障碍包括:真实物理世界的数据获取成本极高、技术实现路径尚未形成学界共识、缺乏针对世界模型性能的标准化评测体系。这一表态源自智源研究院自身在大模型研发中的实践观察,并非针对单一产品的发布。
为什么重要
以往AI大模型主要聚焦于语言、图像等数字领域,世界模型的目标则是让AI具备对三维物理空间、时间演化、因果关系和物体交互的深层理解。如果这一方向成立,将直接挑战现有以Transformer架构为核心的“语言基座”范式。这对整个AI行业的影响在于:算力需求可能从训练万亿级参数的语言模型,转向构建高精度物理模拟和因果推理网络;数据供给将从互联网文本转向机器人传感器数据、工业仿真数据和视频流;开源社区和产业界可能需要重新规划基础模型研发路线。目前公开信息显示,包括智源在内的多家机构正在探索基于Diffusion Transformer、NeRF等不同技术路线的世界模型方案。
对用户/开发者/创作者的影响
对开发者而言,世界模型若成为基座,未来AI应用开发将更加依赖与物理世界的交互能力,而非仅仅是自然语言接口。简单说,API调用可能从“ChatGPT式问答”转向“模拟式执行”。对创作者(如游戏、影视、3D设计领域),世界模型意味着AI能够直接生成符合物理规律的三维场景、动态行为和交互反馈,而非静态像素或文字描述。对普通用户而言,短期内难以直接感知变化,但长期看,智能机器人、自动驾驶、增强现实设备的体验将因此受益。不过,三大瓶颈的存在意味着这些影响短期内仍属探索阶段。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
第一,智源“悟界”项目是否有具体的技术框架或开源模型发布,将验证这一方向是否已进入工程化阶段。第二,其他大厂(如Google DeepMind、OpenAI、Meta)是否同步调整对世界模型的研究投入,特别是技术路线是否会向NeRF或物理引擎方向收敛。第三,物理数据获取方式是否有突破,例如是否出现低成本的合成数据平台或开放的机器人数据协议,这直接决定世界模型能否跨越数据瓶颈。
来源:Readhub · AI


