小鹏三登 CVPR：自动驾驶下一步，不是 VLA 与世界模型二选一

一句话看懂：6月4日，小鹏在CVPR 2026上公开了其物理世界基座模型的完整技术路线：第二代VLA（视觉-语言-动作模型）与世界模型并非对立，而是驱动自动驾驶的两大支柱。这标志着国内头部车企在基座模型落地、纯视觉方案与软硬协同上，已进入全球顶尖阵营。

事件核心：发生了什么

在CVPR 2026首次设立的具身智能基座模型部署研讨会上，小鹏集团通用智能中心负责人刘先明作为唯一受邀的中国企业代表登台。他展示了小鹏第二代VLA模型（已量产落地）与世界模型的融合架构：VLA向人类学习（驾驶视频→动作指令），世界模型向物理世界学习（海量无标注视频→逐帧预测动力学），两者互补。小鹏同时发布了四项关键技术：X-World（可控生成世界模型，用于仿真测试）、X-Foresight（长时序推演，预判危险）、X-Mind（主动推理与可解释性，论文即将发布）以及X-Cache（推理加速器，减少约70%计算量，实现2.7倍提速）。该推送首月，用户辅助驾驶里程占比突破50%。

为什么重要

这一公开路线图直接回应了行业争议：VLA与世界模型不是二选一，而是“理解地球”与“预测物理变化”的协同。传统模块化架构面对开放道路的长尾场景（施工、异形路口、多车博弈）容易失效，而基座模型通过统一的视觉理解与因果推理能力，天然解决泛化难题。小鹏与特斯拉同时选择纯视觉作为感知介质（高信息密度、短链路），并在基座模型架构、算力Scaling上向同一终点收敛，验证了该技术方向的可行性。这也意味着，只有具备全栈软硬一体能力、万卡级智算集群的公司，才能走通L4。

对用户/开发者/创作者的影响

对车主与乘客：实际体验上，VLA+世界模型的组合正在超越“辅助驾驶”阶段——从城市道路渗透至无导航园区、地库的漫游能力（接近点对点闭环），并在刚发布的量产Robotaxi上落地。习惯使用辅助驾驶的用户将获得更连贯、更少接管的通勤体验。对开发者与行业从业者：小鹏密集公开的四篇论文提供了工程化的参考——可控生成用于仿真测试、推理加速用于车端实时交互。关注自动驾驶、仿真平台或端侧AI的团队，可直接借鉴X-World、X-Cache的缓存加速思路。对内容创作者：基座模型的“主动思考”（X-Mind的可视化推理过程）降低了调参和Debug门槛，使非专业用户也能理解驾驶决策逻辑，有助于技术科普与信任建立。