
英伟达清华团队提出 Gamma-World:世界模型从「一个人玩」到「多人共处」
一句话看懂:英伟达联合清华大学、多伦多大学及 Vector Institute 发布了 Gamma-World,这是一套专为多智能体场景设计的世界模型框架,通过重新设计位置编码和注意力机制,首次实现了从“双人训练”到“四人零样本泛化”的实时多视角视频推演。
事件核心:发生了什么
当前视频世界模型几乎都基于单智能体假设——给定一个玩家的动作序列,预测该视角下的未来画面。但多智能体场景要求模型同时维护时间一致性、跨视角一致性和交互一致性。Gamma-World 从两个底层组件入手解决这一结构性问题:
一是提出了 Simplex Rotary Agent Encoding(单纯形旋转智能体编码),将玩家的身份表示放在一个正单纯形的顶点上,使得任意两个玩家在旋转角空间中的距离完全相等,既保留了可区分性,又保证了置换对称性。这种编码无需可学习参数,支持在推理时直接扩展玩家数量。
二是设计了 Sparse Hub Attention(稀疏枢纽注意力),通过一组可学习的枢纽 token 实现轮辐式通信拓扑,将跨智能体通信的计算成本从玩家数量的平方复杂度降为线性。从 2 人扩展到 8 人,计算量增长从原本的约 16 倍压缩到接近线性。
论文在多人 Minecraft 环境中的五个场景均全面超越了现有最强模型 Solaris,关键指标 FVD 降幅超过 40%。研究团队还验证了该框架可以直接迁移到真实双臂机器人协同任务,无需额外适配。
为什么重要
多智能体世界模型一直缺乏系统性的架构方案。此前的工作,如 Solaris,通过为每个玩家分配固定的可学习槽位身份向量,本质上学到了“特定角色的交互模式”而非“多个平等主体共享世界的规律”,导致模型无法泛化到训练时未见过的玩家数量。Gamma-World 的单纯形编码和稀疏注意力机制,直接将对问题结构的理解编码进架构,而非期待模型从数据中隐式学习。
这一方法论的意义超越了具体场景:现实世界中几乎所有有价值的场景——手术室里的多臂协同、工厂产线上的多机器人调度、自动驾驶中的多车交互——本质上都是多个主体在共享环境中协作或博弈。统一的多智能体世界模型框架如果能够落地,将为 Physical AI 领域提供一个新的数据生产和策略训练基础设施。
对用户/开发者/创作者的影响
对 AI 研究者和开发者而言,Gamma-World 提供了一个可复现的技术路线:双人数据训练的模型可以零样本泛化到四人场景,这意味着训练多智能体系统的数据成本有望大幅降低。同时,框架从游戏环境到真实机器人操作的任务迁移验证了其通用性,对从事机器人仿真、自动驾驶模拟和多智能体强化学习的团队具有参考价值。
对关注 AI 应用的创作者和产品经理来说,这项技术指向了更逼真的多人互动 NPC、协同机器人仿真以及多视角实时生成的游戏内推演——这些场景此前受制于算力和算法架构,难以在有限资源下实现。
值得关注的后续
第一,Gamma-World 目前还是论文阶段,代码和模型是否开源尚未明确,这将直接影响技术复现和社区采用的节奏。第二,从 4 人场景到更大规模的多智能体系统(如 10 人以上),单纯形编码和稀疏注意力机制能否继续保持效率和一致性,需要进一步验证。第三,竞品方面,Solaris 已有工程化尝试,Odyssey 的 Agora-1 也在探索多智能体世界模型,未来几个月可能出现功能或性能上的直接对标。
来源:Readhub · AI


