从月球漫步到赛博都市,WBench 测出了世界模型的边界

美团 LongCat 团队推出 WBench,这是首个专门评测“交互式视频世界模型”的系统性基准。它对 20 个前沿模型进行了多轮测试,结果发现:目前没有模型能兼顾所有能力,而最关键的“导航”能力与画质几乎无关,多轮交互后模型性能会显著下降。

从月球漫步到赛博都市,WBench 测出了世界模型的边界

一句话看懂:美团 LongCat 团队推出 WBench,这是首个专门评测“交互式视频世界模型”的系统性基准。它对 20 个前沿模型进行了多轮测试,结果发现:目前没有模型能兼顾所有能力,而最关键的“导航”能力与画质几乎无关,多轮交互后模型性能会显著下降。

事件核心:发生了什么

2026 年 6 月 12 日,美团技术团队发布 WBench 评测框架,旨在系统评估 AI 世界模型从“生成视频”到“支持用户交互”的能力。该基准包含 289 个测试案例、1058 轮交互,覆盖导航、主体动作、事件编辑和视角切换四种交互类型,并从视频质量、设定遵循度、交互遵循度、一致性、物理真实性五个维度打分。

测试的 20 个模型包括 Kling 3.0、HY-World 1.5、Genie 3 等业界主流模型。关键发现是:没有任何模型是全能的——Kling 3.0 和 Wan 2.7 在语义理解上领先,HY-World 1.5 和 Genie 3 在导航控制上突出,LingBot-World 在保持一致性上表现最佳。所有模型在视角切换任务上表现最差,平均得分仅 30.7。

为什么重要

这项工作从评测层面揭示了当前世界模型的两大结构性瓶颈。第一,导航能力与其他能力“脱钩”:相关性矩阵显示,模型的视频画质与导航控制能力几乎无关,说明模型“知道”世界的样子,但不理解自己在空间中的位置和方向。第二,多轮交互是系统级难题:所有模型在连续交互后性能下降,导航能力从首轮到第四轮后分数下降 33 点,表明位姿误差的逐轮累积是当前迭代生成范式的固有缺陷。

WBench 还首次提供了统一评测框架,能同时评估文本驱动模型和专用世界模型,打破了不同技术路线之间的比较壁垒。其自动评分与 400 名人类标注者的偏好高度一致(Spearman ρ ≥ 0.94),为行业提供了可复现的评估标准。

对用户/开发者/创作者的影响

对开发者:WBench 已开源,开发者可以利用这套基准模型评估自己的世界模型在导航、多轮交互等维度上的真实水平。数据显示,开源模型 HY-World 1.5 在导航上甚至超过了部分闭源模型,说明开源路线在某些垂直能力上有追赶甚至反超的机会。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

对创作者和普通用户:目前的世界模型还不能真正支持“走进 AI 世界自由探索”的体验。如果你想用 AI 生成一个可交互的虚拟场景,需注意:现有模型能生成高质量静态视频,但在多轮操作下(特别是连续移动和视角切换)容易“迷路”,导航控制仍需专门优化。

值得关注的后续

第一,WBench 评测结果是否会推动模型厂商调整技术路线:导航能力与画质的“脱钩”表明,仅训练生成先验不够,模型可能需要引入显式的空间状态表示模块。第二,多轮交互这一结构性缺陷如何解决:是转向并行生成、引入外部记忆,还是重构推演范式?这可能会成为 2026 年下半年世界模型研究的焦点。第三,开源生态的跟进:WBench 的基准数据开放后,有望吸引更多团队参与评测和竞争,推动世界模型从“被动看视频”向“主动交互”演进。

来源:美团技术团队 (Meituan Tech)

celebrityanime
celebrityanime
文章: 7828

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注