不加一块 GPU，多榨出 15% 算力：大模型圈开始对网络「动刀」

一句话看懂：在大模型算力竞赛中，行业不再只靠“买更多 GPU”一条路。智谱近日公开的 ZCube 组网架构，在不动硬件、不改代码的条件下，将集群推理吞吐提升 15%，首 Token 响应尾延迟降低 40.6%，同时交换机与光模块用量减少三分之一。几乎同一时间，OpenAI 联合五大芯片巨头发布了 MRC 网络协议。两件事指向同一个判断：网络正在从被动连接件变成算力效率的核心变量。

事件核心：发生了什么

5 月 22 日，智谱首次公开了在生产集群中验证的 ZCube 组网架构。据透露，该架构通过重新设计 GPU 之间的互联“路网”，从拓扑层面消除拥塞，而非在发生拥堵后再疏导。一组在真实生产流量中跑出的数据是：GPU 未增加、服务器未更换、应用代码未改动，集群推理吞吐量提升 15%，TTFT（首 Token 响应时间）P99 尾延迟下降 40.6%，且所需交换机和光模块数量比原有方案少了三分之一。同期，OpenAI 联合 NVIDIA、AMD、Intel、Microsoft、Broadcom 正式发布 MRC 多路径可靠连接协议，这是一套面向超大规模 AI 集群的开放网络协议，已在 OpenAI 所有最大超算集群部署，用于训练 ChatGPT 等前沿模型。两家公司技术路径不同——智谱在架构层重构“路网”，OpenAI 等在协议层优化“交通规则”——但均指向对 AI 网络基础设施的效率挖潜。

为什么重要

过去两年，AI 行业应对算力需求的常规动作是采购更多 GPU、建设更大集群。但如今，从芯片到系统架构都在转向“挖效率”。NVIDIA Blackwell Ultra 通过精度格式和注意力层加速提升推理吞吐，Google TPU Ironwood 单芯片性能提升超 4 倍，Groq、Cerebras 等非 GPU 芯片也加速渗透。通义千问 Qwen3-Next 通过混合注意力与稀疏 MoE 设计将训练成本压缩至十分之一以下。这些探索均不再只依赖“买卡”这一杠杆。对于手握大量 GPU 存量的平台型公司，硬件折旧是固定成本，ZCube 这类方案意味着能以极低边际改造成本，从既有资产中榨出更多 Token 产出，在 API 价格持续下探的市场中拉大成本优势。同时，网络设备采购逻辑也将结构性调整：对高端交换机的需求从“更多层级”转向“更少层级、更大端口密度”，光模块加速向 800G 及以上速率集中。据 LightCounting 统计，2025 年 800G 光模块出货量同比翻倍，1.6T 光模块开始出货。

对用户/开发者/创作者的影响

对使用智谱 API 的开发者，这意味着同一套硬件基础设施能多扛 15% 的并发请求，流量洪峰下排队等待时间大幅缩短，P99 尾延迟 40% 的降幅会直接减少终端用户感知到的“卡顿感”。对使用 OpenAI API 的开发者和创作者，MRC 协议部署在训练 ChatGPt 的超算集群中，有助于降低训练和推理成本，长期来看可能影响 API 定价。对整个生态的 API 调用者而言，当上游供应商能更高效地利用存量算力，模型推理的响应速度和价格竞争力都有可能受益。目前公开信息显示，ZCube 已在智谱生产集群落地，但尚未披露是否计划对外输出或开源。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，ZCube 架构的详细技术方案是否会公开或开源，以及其他云厂商或模型公司是否会推出类似的组网优化方案。第二，MRC 协议作为开放标准，其生态推广进度如何，能否在以太网替代 InfiniBand 的长期趋势中加速普及，从而影响数据中心交换机和光模块的采购节奏。第三，两项创新叠加，能否在市场上形成示范效应，推动更多企业从“堆硬件”转向“挖效率”，进而改变 AI 基础设施的投资逻辑。

来源：Readhub · AI

不加一块 GPU，多榨出 15% 算力：大模型圈开始对网络「动刀」