
英伟达清华团队提出 Gamma-World:世界模型从「一个人玩」到「多人共处」
一句话看懂:英伟达联合清华大学等机构发布了 Gamma-World(γ-World),这是首个系统性解决多智能体世界建模问题的框架,能让 AI 模型在共享世界中同时模拟多个玩家的交互,并在双人数据训练后零样本扩展到四人场景,为机器人协同、自动驾驶等 Physical AI 应用铺平了道路。
事件核心:发生了什么
2026年5月30日,英伟达、清华大学、多伦多大学和 Vector Institute 联合发布了论文《Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players》。该研究针对现有视频世界模型只能处理单智能体(即一个人玩)的局限,提出了三项核心设计:Simplex Rotary Agent Encoding(将玩家身份编码在正单纯形顶点上,确保所有玩家地位平等且可扩展)、Sparse Hub Attention(通过枢纽 token 将跨玩家通信复杂度从平方级降至线性级,使 8 人场景计算量从 7.6T FLOPs 降至约 1/8)、以及三阶段蒸馏(将双向教师模型的知识压缩为因果学生模型,实现 24 FPS 的实时动作推演)。在多人 Minecraft 基准测试中,Gamma-World 的关键指标 FVD 平均降幅超过 40%,全面超越现有最强方案 Solaris。
为什么重要
这项工作的意义在于它从架构底层解决了多智能体世界建模的对称性与扩展性问题。此前,无论是身份编码还是全连接注意力,都迫使模型将“特定角色间的交互模式”学成固化规则,而非理解“任意多个平等主体共享世界的规律”。Gamma-World 通过纯几何编码和枢纽广播设计,将先验知识直接编入模型结构,使得双人数据训练的模型能零参数扩展至四人场景。这代表技术路线的范式转变:世界模型不再需要为每种玩家数单独训练,为机器人多臂协同、工厂产线调度、自动驾驶多车交互等现实场景提供了统一的基础设施。
对用户/开发者/创作者的影响
对开发者与研究者而言,Gamma-World 的开源框架(论文已公开)意味着可以基于同一套架构,在双人 Minecraft 这类廉价数据上训练出支持任意玩家数的世界模型,大幅降低多智能体仿真数据的获取成本。对 Physical AI 领域从业者,研究团队已成功将同一框架迁移至真实双臂机器人协同任务(RealOmin-Open 数据集),开发者可直接套用此框架构建手术室多臂控制或自动驾驶多车交互的仿真环境,无需从头设计底层结构。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
目前公开信息显示,Gamma-World 的关键瓶颈仍在于:1)真实场景泛化验证:虽然 Minecraft 和机器人双臂任务验证了可行性,但能否直接扩展至复杂工业场景仍需更多实验;2)开源计划与社区采用:英伟达是否会在其 Omniverse 平台中集成该架构,以及开源代码是否提供易用的 API 接口,将直接影响开发者生态的扩展速度;3)竞品跟进压力:Solaris、Enigma Labs 的 Multiverse 等已有竞品是否会采用类似的设计思路,从而引发多智能体世界模型的技术路线竞赛。
来源:Readhub · AI
![[人工智能] 我还以为大模型的训练语料早就覆盖了 zlib 或安娜档案这类的资料库了呢](https://www.chat-gpts.plus/wp-content/uploads/2026/05/ai_cover_1-1090-768x403.jpg)

