
不加一块 GPU,多榨出 15% 算力:大模型圈开始对网络「动刀」
一句话看懂:在大模型算力竞赛中,行业不再只靠“买更多 GPU”一条路。智谱近日公开的 ZCube 组网架构,在不动硬件、不改代码的条件下,将集群推理吞吐提升 15%,首 Token 响应尾延迟降低 40.6%,同时交换机与光模块用量减少三分之一。几乎同一时间,OpenAI 联合五大芯片巨头发布了 MRC 网络协议。两件事指向同一个判断:网络正在从被动连接件变成算力效率的核心变量。
事件核心:发生了什么
5 月 22 日,智谱首次公开了在生产集群中验证的 ZCube 组网架构。据透露,该架构通过重新设计 GPU 之间的互联“路网”,从拓扑层面消除拥塞,而非在发生拥堵后再疏导。一组在真实生产流量中跑出的数据是:GPU 未增加、服务器未更换、应用代码未改动,集群推理吞吐量提升 15%,TTFT(首 Token 响应时间)P99 尾延迟下降 40.6%,且所需交换机和光模块数量比原有方案少了三分之一。同期,OpenAI 联合 NVIDIA、AMD、Intel、Microsoft、Broadcom 正式发布 MRC 多路径可靠连接协议,这是一套面向超大规模 AI 集群的开放网络协议,已在 OpenAI 所有最大超算集群部署,用于训练 ChatGPT 等前沿模型。两家公司技术路径不同——智谱在架构层重构“路网”,OpenAI 等在协议层优化“交通规则”——但均指向对 AI 网络基础设施的效率挖潜。
为什么重要
过去两年,AI 行业应对算力需求的常规动作是采购更多 GPU、建设更大集群。但如今,从芯片到系统架构都在转向“挖效率”。NVIDIA Blackwell Ultra 通过精度格式和注意力层加速提升推理吞吐,Google TPU Ironwood 单芯片性能提升超 4 倍,Groq、Cerebras 等非 GPU 芯片也加速渗透。通义千问 Qwen3-Next 通过混合注意力与稀疏 MoE 设计将训练成本压缩至十分之一以下。这些探索均不再只依赖“买卡”这一杠杆。对于手握大量 GPU 存量的平台型公司,硬件折旧是固定成本,ZCube 这类方案意味着能以极低边际改造成本,从既有资产中榨出更多 Token 产出,在 API 价格持续下探的市场中拉大成本优势。同时,网络设备采购逻辑也将结构性调整:对高端交换机的需求从“更多层级”转向“更少层级、更大端口密度”,光模块加速向 800G 及以上速率集中。据 LightCounting 统计,2025 年 800G 光模块出货量同比翻倍,1.6T 光模块开始出货。
对用户/开发者/创作者的影响
对使用智谱 API 的开发者,这意味着同一套硬件基础设施能多扛 15% 的并发请求,流量洪峰下排队等待时间大幅缩短,P99 尾延迟 40% 的降幅会直接减少终端用户感知到的“卡顿感”。对使用 OpenAI API 的开发者和创作者,MRC 协议部署在训练 ChatGPt 的超算集群中,有助于降低训练和推理成本,长期来看可能影响 API 定价。对整个生态的 API 调用者而言,当上游供应商能更高效地利用存量算力,模型推理的响应速度和价格竞争力都有可能受益。目前公开信息显示,ZCube 已在智谱生产集群落地,但尚未披露是否计划对外输出或开源。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
第一,ZCube 架构的详细技术方案是否会公开或开源,以及其他云厂商或模型公司是否会推出类似的组网优化方案。第二,MRC 协议作为开放标准,其生态推广进度如何,能否在以太网替代 InfiniBand 的长期趋势中加速普及,从而影响数据中心交换机和光模块的采购节奏。第三,两项创新叠加,能否在市场上形成示范效应,推动更多企业从“堆硬件”转向“挖效率”,进而改变 AI 基础设施的投资逻辑。
来源:Readhub · AI


