从月球漫步到赛博都市，WBench 测出了世界模型的边界

一句话看懂：美团 LongCat 团队推出 WBench，这是首个专门评测“交互式视频世界模型”的系统性基准。它对 20 个前沿模型进行了多轮测试，结果发现：目前没有模型能兼顾所有能力，而最关键的“导航”能力与画质几乎无关，多轮交互后模型性能会显著下降。

事件核心：发生了什么

2026 年 6 月 12 日，美团技术团队发布 WBench 评测框架，旨在系统评估 AI 世界模型从“生成视频”到“支持用户交互”的能力。该基准包含 289 个测试案例、1058 轮交互，覆盖导航、主体动作、事件编辑和视角切换四种交互类型，并从视频质量、设定遵循度、交互遵循度、一致性、物理真实性五个维度打分。

测试的 20 个模型包括 Kling 3.0、HY-World 1.5、Genie 3 等业界主流模型。关键发现是：没有任何模型是全能的——Kling 3.0 和 Wan 2.7 在语义理解上领先，HY-World 1.5 和 Genie 3 在导航控制上突出，LingBot-World 在保持一致性上表现最佳。所有模型在视角切换任务上表现最差，平均得分仅 30.7。

为什么重要

这项工作从评测层面揭示了当前世界模型的两大结构性瓶颈。第一，导航能力与其他能力“脱钩”：相关性矩阵显示，模型的视频画质与导航控制能力几乎无关，说明模型“知道”世界的样子，但不理解自己在空间中的位置和方向。第二，多轮交互是系统级难题：所有模型在连续交互后性能下降，导航能力从首轮到第四轮后分数下降 33 点，表明位姿误差的逐轮累积是当前迭代生成范式的固有缺陷。

WBench 还首次提供了统一评测框架，能同时评估文本驱动模型和专用世界模型，打破了不同技术路线之间的比较壁垒。其自动评分与 400 名人类标注者的偏好高度一致（Spearman ρ ≥ 0.94），为行业提供了可复现的评估标准。

对用户/开发者/创作者的影响

对开发者：WBench 已开源，开发者可以利用这套基准模型评估自己的世界模型在导航、多轮交互等维度上的真实水平。数据显示，开源模型 HY-World 1.5 在导航上甚至超过了部分闭源模型，说明开源路线在某些垂直能力上有追赶甚至反超的机会。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

对创作者和普通用户：目前的世界模型还不能真正支持“走进 AI 世界自由探索”的体验。如果你想用 AI 生成一个可交互的虚拟场景，需注意：现有模型能生成高质量静态视频，但在多轮操作下（特别是连续移动和视角切换）容易“迷路”，导航控制仍需专门优化。

值得关注的后续

第一，WBench 评测结果是否会推动模型厂商调整技术路线：导航能力与画质的“脱钩”表明，仅训练生成先验不够，模型可能需要引入显式的空间状态表示模块。第二，多轮交互这一结构性缺陷如何解决：是转向并行生成、引入外部记忆，还是重构推演范式？这可能会成为 2026 年下半年世界模型研究的焦点。第三，开源生态的跟进：WBench 的基准数据开放后，有望吸引更多团队参与评测和竞争，推动世界模型从“被动看视频”向“主动交互”演进。

来源：美团技术团队 (Meituan Tech)

从月球漫步到赛博都市，WBench 测出了世界模型的边界

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

bug: Multi-worker websocket delivery breaks: chat:completion events with embedded RAG sources can exceed Redis pubsub buffer limits (>32MB)

issue: PersistentConfig Duplicate Inserts Cause External Connections and Model Parameters to be Lost After Restart

微信支付发布AI接入工具箱2.0：升级双AI专家并支持9国语言

发表回复取消回复