
平头哥发布“磐脉 920”:解决AI算力“堵车”难题,补齐智能网卡短板
当行业还在疯狂堆砌GPU以追逐算力时,一个更隐蔽的瓶颈正在拖垮整个AI集群的效率。近日,阿里巴巴旗下半导体公司平头哥发布首款智能网卡——磐脉 920,试图解决这个被长期忽视的问题。这款网卡的最大意义在于,它不是在简单提升单卡性能,而是通过打通网络传输的“肠梗阻”,让昂贵的AI算力真正被用起来。
比“有多少卡”更关键的是“网力”
在大模型训练中,一个常见的困境是:GPU越来越强,但实际训练效率却没有同步提升。平头哥产品总监李旭慧打了个形象的比方:“如果把算力比作AI时代的石油,网力就是输油管道。”当前行业里很多万卡级智算集群,GPU实际利用率较低,能做到60%已属顶尖水平。问题的根源在于,系统运行效率受制于最慢的节点,导致大量算力在等待中闲置浪费。磐脉 920的出现,正是要补齐“网力”这一关键短板,它最大支持400Gbps吞吐带宽,并已率先部署在阿里云数据中心。
三项核心技术,让网络从“被动搬运”变“主动调度”
磐脉 920之所以被看作是一次质变,源于其三个关键设计。首先是支持多路径RDMA技术,它打破了传统单一路径的限制,通过逐包喷洒和乱序接收,可实现单QP打满400G带宽,性能是同类主流产品的约两倍。其次是内置PCIe Switch,这是国内首个做到这一点的400G智能网卡。它将传统服务器中绕路的PCIe交换集成进芯片内部,让网卡与CPU、GPU形成更直接的连接,从而大幅降低时延和不一致性。实测显示,部署后大模型训练和推理任务完成时间可缩短14%。最后,网卡引入了细粒度网络感知和可编程拥塞控制能力,使其能主动避堵,从被动传输变为主动调度。
全栈战略与“通云哥”闭环的显现
磐脉 920的发布,不仅是单一产品的成功,更揭示了平头哥不同于其他芯片公司的全栈布局思路。目前,平头哥已围绕数据中心构建了“算力(真武AI芯片)、存力(镇岳存储)、网力(磐脉网卡)”的完整产品线。这背后是阿里云大规模业务场景的倒推:通义模型驱动阿里云场景,阿里云场景又反向推动平头哥底层芯片演进。这种“通云哥”的全栈自研闭环,在国内科技公司中并不多见。随着AI从训练走向推理,大模型对低时延、高稳定的网络需求将更加苛刻,平头哥的这套“系统级”打法的优势,才刚刚开始显现。
总结:当整个行业都在关注“有多少GPU”时,平头哥选择去打通那根被堵住的“输油管”。磐脉 920的意义不仅在于性能数字,更在于它为释放AI集群的真实效率提供了一条务实的路径。


