智谱联合清华等提出ZCube组网架构:大模型推理吞吐提升15%，网络成本削减三分之一

一句话看懂：智谱、清华大学等机构提出的新型网络架构ZCube已在GLM-5.1生产环境中落地，在不更换GPU和软件栈的前提下，将推理吞吐提升15%、首Token延迟降低40%，同时将交换机与光模块的资本支出砍掉三分之一。

事件核心：发生了什么

2025年9月，智谱、玉宸网络与清华大学在ACM SIGCOMM 2025上发表了ZCube网络架构研究。2026年5月21日，智谱宣布该架构已成功部署于GLM-5.1编码生产环境，实现千卡级集群稳定运行超过两周。在GPU、软件栈与应用不变的前提下，ZCube带来多项指标改善：交换机与光模块的资本支出减少33%，GPU平均推理吞吐提升15%，首Token延迟（TTFT P99）降低40.6%。

ZCube架构的核心创新在于“去分层”：它消除了传统Clos架构中的Spine层交换机，采用两组完全扁平化的交换机进行二分图互连，配合双端口网卡的单/多轨道混合接入机制。这种拓扑从结构上避免了“总带宽充足但局部频繁拥塞”的瓶颈——任何GPU对之间都有专用最优路径，实现完美流量负载均衡，且支持数万甚至数十万GPU的超大规模扩展。

为什么重要

当前长上下文推理和Prefill-Decode分离部署已成为行业标准，KV Cache的跨节点传输具有高度不对称性。传统ROFT（Rail-Optimized Fat-Tree）架构依赖多层交换机堆叠，静态拓扑下极易出现局部热点和PFC反压，形成结构性瓶颈。ZCube直接解决了这一痛点，将网络从“足够用但总卡”升级为“按需无冲突”，对大规模推理集群尤其关键。

这个案例证明：在算力瓶颈转向网络通信的当下，网络架构创新能够绕过GPU升级的高昂成本，以更低的硬件投入换取更高的系统性能。对MaaS服务商而言，这直接意味着更低的运营成本和更快的Token产出效率。

对用户/开发者/创作者的影响

对于使用GLM系列模型的开发者，ZCube带来的性能提升将直接反映为更低的API调用延迟（特别是首Token等待时间）和更高的并发支持能力。目前公开信息显示，该架构已部署在GLM-5.1编码环境中，未来可能推广至其他模型。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

对于企业采购方，ZCube的组网方案意味着同等算力预算下可支撑更大的推理集群，或同等规模集群下可降低网络部分的开支。企业可关注智谱及合作伙伴是否将该架构作为MaaS基础设施的标配选项推出。

值得关注的后续

第一，ZCube是否会在智谱其他模型（如更强调长上下文或对话场景的模型）中落地，这将决定其价值是否能覆盖编码以外的更多场景。第二，千卡集群已稳定运行，但能否平滑扩展到万卡甚至十万卡级别，仍需更大的实际部署验证。第三，其他云厂商或MaaS服务商（如百度、阿里、字节）是否会跟进类似的去分层扁平化网络方案，将影响整个推理基础设施的竞争走向。

来源：AIbase

智谱联合清华等提出ZCube组网架构:大模型推理吞吐提升15%，网络成本削减三分之一