AMD MI355X 上的 GLM5.2 为 2626 tok/s/节点,成本比 Blackwell 低 2 倍以上

Wafer 在 AMD MI355X 加速卡上成功部署了智谱 GLM5.2 大模型,单节点聚合吞吐量达到 2626 tok/s,在特定工作负载下性能达到 NVIDIA B200 的 80%,但成本仅为后者的一半以下。这意味着 AMD 在推理市场正快速追赶 NVIDIA,并为开发者提供了一个成本更低的高性能替代…

AMD MI355X 上的 GLM5.2 为 2626 tok/s/节点,成本比 Blackwell 低 2 倍以上

一句话看懂:Wafer 在 AMD MI355X 加速卡上成功部署了智谱 GLM5.2 大模型,单节点聚合吞吐量达到 2626 tok/s,在特定工作负载下性能达到 NVIDIA B200 的 80%,但成本仅为后者的一半以下。这意味着 AMD 在推理市场正快速追赶 NVIDIA,并为开发者提供了一个成本更低的高性能替代方案。

事件核心:发生了什么

AI 基础设施服务商 Wafer 于近日发布博文,公布了在 AMD Instinct MI355X 加速卡上运行 GLM5.2 模型的性能数据。在 20k 输入 / 1k 输出、60% 缓存命中率的工作负载下,Wafer 实现了2626 tok/s/节点的聚合吞吐量,请求成功率 100%,TTFT(首 token 延迟)在饱和度下 p50 为 0.81 秒、p95 为 2.22 秒。这一成绩约为相同条件下 B200 的 80%,但 MI355X 的单卡成本比 B300 便宜约 2.75 倍,因此在“性能/美元”维度上具有显著优势。

具体实现路径包括:使用 AMD Quark 工具将 GLM5.2 从 bf16 量化为 MXFP4 精度,经评测在 GPQA-Diamond、tau2、GSM8K 三项指标上与 FP8 基线相比几乎无损;采用 sglang 作为推理引擎并启用推测解码(speculative decoding),通过修复两处与 ROCm 相关的兼容性问题(量化权重前缀匹配、多步元数据内核缺少 ROCm 守卫),最终单流解码速度达到 213 tok/s(10k 输入 / 1.5k 输出),低于 Artificial Analysis 排行榜头部,但性价比更高。

为什么重要

当前前沿大模型(如 Claude Fable、GLM5.2、Minimax M3)发布节奏加快,推理需求激增,但 NVIDIA Blackwell 系列产能供不应求,导致 GPU 价格攀升、token 成本上涨。AMD MI350 系列在硅片层面已能与 Blackwell 竞争,但此前受限于软件生态和 day-0 支持不足,导致前沿模型在 AMD 平台上出理想性能往往需要数周工程优化。Wafer 的这一实践表明,通过针对性优化(量化、引擎选择、推测解码适配),AMD 平台在关键推理任务上已能输出接近 NVIDIA 的性能,且成本优势明显。这有助于打破 NVIDIA 在高性能推理市场的事实垄断,推动算力市场多元化,并可能降低 AI 应用的部署成本。

对用户/开发者/创作者的影响

对于开发者而言,这一结果意味着在部署 GLM 等 MoE 架构模型时,AMD 不再是备选,而是一个成本可量化的可行选项。若后续 AMD ROCm 生态能进一步降低适配门槛,开发者可直接利用现有工具链(如 sglang)在 MI355X 上获得接近 B200 的推理体验,同时节省约 50% 以上的硬件支出。对于企业采购者来说,在进行算力选型时可考虑 AMD + 优化栈的组合,尤其适合对 token 成本敏感的推理场景(如聊天、代码生成、RAG)。对于普通用户,最终受益可能是 API 调用价格的进一步下降。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

1. 推测解码的通用化:Wafer 的修复只是针对 sglang + GLM5.2 的特定组合,目前公开信息显示,ROCm 上 sglang 的推测解码仍缺少原生支持,未来版本是否默认支持,将直接影响 AMD 在推理市场的竞争力。
2. 竞品跟进:vLLM、ATOM 等其他推理框架在 AMD 上的表现值得关注,尤其是是否能解决 MXFP4 权重加载及长上下文稳定性问题。
3. 商业化落地:Wafer 和 TensorWave 等厂商是否会推出基于 MI355X 的低价推理 API,以及能否维持稳定的服务水平(如 TTFT ≤5s 的“knee”指标),是核心观察点。

来源:Hacker News

celebrityanime
celebrityanime
文章: 11428

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注