
智谱联合清华等提出ZCube组网架构:大模型推理吞吐提升15%,网络成本削减三分之一
一句话看懂:智谱、清华大学等机构提出的新型网络架构ZCube已在GLM-5.1生产环境中落地,在不更换GPU和软件栈的前提下,将推理吞吐提升15%、首Token延迟降低40%,同时将交换机与光模块的资本支出砍掉三分之一。
事件核心:发生了什么
2025年9月,智谱、玉宸网络与清华大学在ACM SIGCOMM 2025上发表了ZCube网络架构研究。2026年5月21日,智谱宣布该架构已成功部署于GLM-5.1编码生产环境,实现千卡级集群稳定运行超过两周。在GPU、软件栈与应用不变的前提下,ZCube带来多项指标改善:交换机与光模块的资本支出减少33%,GPU平均推理吞吐提升15%,首Token延迟(TTFT P99)降低40.6%。
ZCube架构的核心创新在于“去分层”:它消除了传统Clos架构中的Spine层交换机,采用两组完全扁平化的交换机进行二分图互连,配合双端口网卡的单/多轨道混合接入机制。这种拓扑从结构上避免了“总带宽充足但局部频繁拥塞”的瓶颈——任何GPU对之间都有专用最优路径,实现完美流量负载均衡,且支持数万甚至数十万GPU的超大规模扩展。
为什么重要
当前长上下文推理和Prefill-Decode分离部署已成为行业标准,KV Cache的跨节点传输具有高度不对称性。传统ROFT(Rail-Optimized Fat-Tree)架构依赖多层交换机堆叠,静态拓扑下极易出现局部热点和PFC反压,形成结构性瓶颈。ZCube直接解决了这一痛点,将网络从“足够用但总卡”升级为“按需无冲突”,对大规模推理集群尤其关键。
这个案例证明:在算力瓶颈转向网络通信的当下,网络架构创新能够绕过GPU升级的高昂成本,以更低的硬件投入换取更高的系统性能。对MaaS服务商而言,这直接意味着更低的运营成本和更快的Token产出效率。
对用户/开发者/创作者的影响
对于使用GLM系列模型的开发者,ZCube带来的性能提升将直接反映为更低的API调用延迟(特别是首Token等待时间)和更高的并发支持能力。目前公开信息显示,该架构已部署在GLM-5.1编码环境中,未来可能推广至其他模型。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
对于企业采购方,ZCube的组网方案意味着同等算力预算下可支撑更大的推理集群,或同等规模集群下可降低网络部分的开支。企业可关注智谱及合作伙伴是否将该架构作为MaaS基础设施的标配选项推出。
值得关注的后续
第一,ZCube是否会在智谱其他模型(如更强调长上下文或对话场景的模型)中落地,这将决定其价值是否能覆盖编码以外的更多场景。第二,千卡集群已稳定运行,但能否平滑扩展到万卡甚至十万卡级别,仍需更大的实际部署验证。第三,其他云厂商或MaaS服务商(如百度、阿里、字节)是否会跟进类似的去分层扁平化网络方案,将影响整个推理基础设施的竞争走向。
来源:AIbase


