智谱联合清华等提出ZCube组网架构:大模型推理吞吐提升15%,网络成本削减三分之一

智谱联合清华等提出ZCube组网架构:大模型推理吞吐提升15%,网络成本削减三分之一

智谱联合清华等提出ZCube组网架构:大模型推理吞吐提升15%,网络成本削减三分之一

一句话看懂:智谱、清华大学等机构提出的新型网络架构ZCube已在GLM-5.1生产环境中落地,在不更换GPU和软件栈的前提下,将推理吞吐提升15%、首Token延迟降低40%,同时将交换机与光模块的资本支出砍掉三分之一。

事件核心:发生了什么

2025年9月,智谱、玉宸网络与清华大学在ACM SIGCOMM 2025上发表了ZCube网络架构研究。2026年5月21日,智谱宣布该架构已成功部署于GLM-5.1编码生产环境,实现千卡级集群稳定运行超过两周。在GPU、软件栈与应用不变的前提下,ZCube带来多项指标改善:交换机与光模块的资本支出减少33%,GPU平均推理吞吐提升15%,首Token延迟(TTFT P99)降低40.6%。

ZCube架构的核心创新在于“去分层”:它消除了传统Clos架构中的Spine层交换机,采用两组完全扁平化的交换机进行二分图互连,配合双端口网卡的单/多轨道混合接入机制。这种拓扑从结构上避免了“总带宽充足但局部频繁拥塞”的瓶颈——任何GPU对之间都有专用最优路径,实现完美流量负载均衡,且支持数万甚至数十万GPU的超大规模扩展。

为什么重要

当前长上下文推理和Prefill-Decode分离部署已成为行业标准,KV Cache的跨节点传输具有高度不对称性。传统ROFT(Rail-Optimized Fat-Tree)架构依赖多层交换机堆叠,静态拓扑下极易出现局部热点和PFC反压,形成结构性瓶颈。ZCube直接解决了这一痛点,将网络从“足够用但总卡”升级为“按需无冲突”,对大规模推理集群尤其关键。

这个案例证明:在算力瓶颈转向网络通信的当下,网络架构创新能够绕过GPU升级的高昂成本,以更低的硬件投入换取更高的系统性能。对MaaS服务商而言,这直接意味着更低的运营成本和更快的Token产出效率。

对用户/开发者/创作者的影响

对于使用GLM系列模型的开发者,ZCube带来的性能提升将直接反映为更低的API调用延迟(特别是首Token等待时间)和更高的并发支持能力。目前公开信息显示,该架构已部署在GLM-5.1编码环境中,未来可能推广至其他模型。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

对于企业采购方,ZCube的组网方案意味着同等算力预算下可支撑更大的推理集群,或同等规模集群下可降低网络部分的开支。企业可关注智谱及合作伙伴是否将该架构作为MaaS基础设施的标配选项推出。

值得关注的后续

第一,ZCube是否会在智谱其他模型(如更强调长上下文或对话场景的模型)中落地,这将决定其价值是否能覆盖编码以外的更多场景。第二,千卡集群已稳定运行,但能否平滑扩展到万卡甚至十万卡级别,仍需更大的实际部署验证。第三,其他云厂商或MaaS服务商(如百度、阿里、字节)是否会跟进类似的去分层扁平化网络方案,将影响整个推理基础设施的竞争走向。

来源:AIbase

celebrityanime
celebrityanime
文章: 3247

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注