英伟达清华团队提出 Gamma-World：世界模型从「一个人玩」到「多人共处」

一句话看懂：英伟达联合清华大学、多伦多大学及 Vector Institute 发布了 Gamma-World，这是一套专为多智能体场景设计的世界模型框架，通过重新设计位置编码和注意力机制，首次实现了从“双人训练”到“四人零样本泛化”的实时多视角视频推演。

事件核心：发生了什么

当前视频世界模型几乎都基于单智能体假设——给定一个玩家的动作序列，预测该视角下的未来画面。但多智能体场景要求模型同时维护时间一致性、跨视角一致性和交互一致性。Gamma-World 从两个底层组件入手解决这一结构性问题：

一是提出了 Simplex Rotary Agent Encoding（单纯形旋转智能体编码），将玩家的身份表示放在一个正单纯形的顶点上，使得任意两个玩家在旋转角空间中的距离完全相等，既保留了可区分性，又保证了置换对称性。这种编码无需可学习参数，支持在推理时直接扩展玩家数量。

二是设计了 Sparse Hub Attention（稀疏枢纽注意力），通过一组可学习的枢纽 token 实现轮辐式通信拓扑，将跨智能体通信的计算成本从玩家数量的平方复杂度降为线性。从 2 人扩展到 8 人，计算量增长从原本的约 16 倍压缩到接近线性。

论文在多人 Minecraft 环境中的五个场景均全面超越了现有最强模型 Solaris，关键指标 FVD 降幅超过 40%。研究团队还验证了该框架可以直接迁移到真实双臂机器人协同任务，无需额外适配。

为什么重要

多智能体世界模型一直缺乏系统性的架构方案。此前的工作，如 Solaris，通过为每个玩家分配固定的可学习槽位身份向量，本质上学到了“特定角色的交互模式”而非“多个平等主体共享世界的规律”，导致模型无法泛化到训练时未见过的玩家数量。Gamma-World 的单纯形编码和稀疏注意力机制，直接将对问题结构的理解编码进架构，而非期待模型从数据中隐式学习。

这一方法论的意义超越了具体场景：现实世界中几乎所有有价值的场景——手术室里的多臂协同、工厂产线上的多机器人调度、自动驾驶中的多车交互——本质上都是多个主体在共享环境中协作或博弈。统一的多智能体世界模型框架如果能够落地，将为 Physical AI 领域提供一个新的数据生产和策略训练基础设施。

对用户/开发者/创作者的影响

对 AI 研究者和开发者而言，Gamma-World 提供了一个可复现的技术路线：双人数据训练的模型可以零样本泛化到四人场景，这意味着训练多智能体系统的数据成本有望大幅降低。同时，框架从游戏环境到真实机器人操作的任务迁移验证了其通用性，对从事机器人仿真、自动驾驶模拟和多智能体强化学习的团队具有参考价值。

对关注 AI 应用的创作者和产品经理来说，这项技术指向了更逼真的多人互动 NPC、协同机器人仿真以及多视角实时生成的游戏内推演——这些场景此前受制于算力和算法架构，难以在有限资源下实现。

值得关注的后续

第一，Gamma-World 目前还是论文阶段，代码和模型是否开源尚未明确，这将直接影响技术复现和社区采用的节奏。第二，从 4 人场景到更大规模的多智能体系统（如 10 人以上），单纯形编码和稀疏注意力机制能否继续保持效率和一致性，需要进一步验证。第三，竞品方面，Solaris 已有工程化尝试，Odyssey 的 Agora-1 也在探索多智能体世界模型，未来几个月可能出现功能或性能上的直接对标。

来源：Readhub · AI

英伟达清华团队提出 Gamma-World：世界模型从「一个人玩」到「多人共处」