
小米开源 Xiaomi OneVL 自动驾驶模型,业内率先实现 VLA、世界模型等多技术路线统一
一句话看懂:小米于 5 月 13 日发布并开源了 Xiaomi OneVL 自动驾驶模型,首次将视觉-语言-动作模型(VLA)与世界模型融合到同一框架中,通过潜空间推理实现了速度与精度的兼顾,现已开放模型权重和代码。
事件核心:发生了什么
小米技术发布了 Xiaomi OneVL(一步式潜空间语言视觉推理框架),并全面开源了模型权重、训练及推理代码。官方资料显示,该模型在 ROADWork、Impromptu、Alpamayo-R1 等三个主流基准上达到了行业最优(SOTA),同时在 NAVSIM 上展现了优越性能。Xiaomi OneVL 的核心突破在于通过潜空间推理机制,将过去分立的 VLA 路线(理解场景并输出驾驶动作)和世界模型路线(预测未来场景演变)统一到一个框架中,并同时提供语言和视觉两个维度的可解释性——既能用文字说明决策原因,也能用预测画面展示未来场景。
为什么重要
在自动驾驶领域,VLA 和世界模型长期被看作是两条独立的技术路线:前者偏向实时决策,后者侧重环境预测。小米 OneVL 在潜空间层面实现两者统一,意味着可以在推理过程中同时完成“理解-预测-决策”的闭环,而无需拆分模块。这种方法在精度上超越了显式链式思维(CoT)方案,在速度上对齐了“仅答案”预测类方法。对于行业而言,这提供了一个兼顾推理速度和决策可解释性的可行路径,可能影响后续自动驾驶模型的设计方向。此外,全面开源的策略降低了开发者复现和验证的门槛,有利于推动该技术在学术界和产业界的扩散。
对用户/开发者/创作者的影响
对自动驾驶领域的开发者与研究人员而言,Xiaomi OneVL 的开源提供了可直接使用的预训练模型和完整的训练、推理代码,降低了在潜空间推理方向上的复现和实验成本。对自动驾驶企业的技术选型团队来说,该模型展示了多技术路线融合的可行性,可能影响企业内部对不同方案(VLA 或世界模型)的评估权重。对普通用户而言,目前公开信息显示该模型尚未直接搭载于量产车辆,需关注小米后续的实际部署计划;但技术方案的演进方向——更快的推理速度与更清晰的可解释性——长远看有助于提升自动驾驶系统的安全感和信任度。
值得关注的后续
一是 Xiaomi OneVL 是否会实际应用到小米汽车的自动驾驶系统中,以及部署后的性能表现。二是国内其他自动驾驶厂商或研究院是否会跟进推出类似的统一框架,从而加速行业技术路线的收敛。三是开源社区对 OneVL 的反馈与二次开发情况,包括是否会有团队基于该方案进行实证验证或针对特定场景(如城市道路、高速)做定制化调优。
来源:Readhub · AI


