
定义新一代具身大脑:酷哇 CooWAIM 2.0 发布,让机器人拥有「交互式物理推演」本能
一句话看懂:酷哇科技于近期发布了基于全新 DAWN 架构的 CooWAIM 2.0 世界模型。这是全球范围内首款将“世界预测”与“动作生成”在推理过程中实时交互的具身大模型,它的论文与开源代码已上线,并在权威自动驾驶基准测试 NAVSIM 中取得最高综合评分(89.1 PDMS),将闭环平均轨迹误差降低至行业新低(0.33米)。通俗来说,这能让机器人不再“先想后动”,而是“边想边动”,大幅提升复杂场景下的反应准确性和安全性。
事件核心:发生了什么
酷哇科技(COOWA)于日前发布了新一代交互式世界模型 CooWAIM 2.0,其底层架构 DAWN(Denoising Actions and World iNteractive model)已开源,论文发表于 arXiv。该模型的核心突破在于:抛弃了传统“先预测世界、再规划动作”的两阶段流水线,转而让世界预测器与动作降噪器在推理时协同迭代。这意味着机器人在执行动作前,不仅预判环境如何变化,还会根据预判结果实时微调动作,整个过程在高度压缩的16个潜变量 Token 空间内完成,相比使用64个Token的方案,推理延迟从近1秒压缩至0.33秒,同时几乎未牺牲精度(PDMS仅下降0.4分)。在闭环规划测试中,其3秒规划误差仅0.52米,平均碰撞率趋近0.11%。
为什么重要
此次发布在技术路线上具有明确的产业信号:一是打破了学术界与工业界在“世界模型”应用上的瓶颈——过去模型要么做零推演(Zero-rollout),要么做全周期推演(4秒以上),既耗算力又易产生幻觉。DAWN 实验证实,最佳效果是2-3秒的短时潜空间推演,这一发现为追求低延迟、低功耗的终端部署(如轮式机器人、机器狗)提供了可复现的工程范式。二是将自动驾驶领域的感知-规划分离架构进一步推向“感知-规划-交互三位一体”,提升了在早高峰路口、台阶、松软地面等极端交互场景的安全边界。对行业而言,酷哇此举将具身智能从“给视频看未来”推向“在逻辑层面博弈未来”,可能加速城市服务机器人的商业化落地。
对用户/开发者/创作者的影响
机器人开发者:可直接使用开源的 DAWN 模型代码与预训练权重,降低构建“具身大脑”的入门门槛。模型支持轮式、四足、人形等不同形态,只需接入传感器数据和动作接口,即可获得实时环境交互能力。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
城市服务运营商:酷哇已在自家的 X 系列智能清扫机器人、Coobus L4 无人小巴及四足机器狗上部署该模型。这意味着企业采购机器人产品时,可期待更低的碰撞率(0.11%)、更平顺的汇流/避让行为,以及更低的运维成本。
AI 研究者:该架构证明“16个潜变量 Token + 四阶段渐进式训练”策略是可行的,其中 Resampler 时空压缩、世界预测器与动作降噪器联合训练的代码与论文均可直接参考,对研究交互式预测、强化学习与隐空间推理的学者具有直接引用价值。
硬件厂商:模型在高分辨率处理上不要求全像素级视频渲染,只在语义特征空间进行计算,对车载芯片、边缘计算盒子的算力要求比传统视频预测模型更低,可能催生更多端侧具身智能硬件方案。
值得关注的后续
1. 酷哇是否在自有产品中大规模替换旧的决策模型,以及消费者是否能实际体验到碰撞率下降带来的安全性提升。2. 开源社区对 DAWN 架构的复现与改进热度——这决定了该技术能否成为具身世界模型的新基线。3. 竞品(如 Waymo、特斯拉、国内其他 L4 自动驾驶公司)是否会跟进“交互式推演”路线,或提出与之冲突的新型架构。
来源:Readhub · AI


