AMD MI355X 上的 GLM5.2 为 2626 tok/s/节点，成本比 Blackwell 低 2 倍以上

一句话看懂：Wafer 在 AMD MI355X 加速卡上成功部署了智谱 GLM5.2 大模型，单节点聚合吞吐量达到 2626 tok/s，在特定工作负载下性能达到 NVIDIA B200 的 80%，但成本仅为后者的一半以下。这意味着 AMD 在推理市场正快速追赶 NVIDIA，并为开发者提供了一个成本更低的高性能替代方案。

事件核心：发生了什么

AI 基础设施服务商 Wafer 于近日发布博文，公布了在 AMD Instinct MI355X 加速卡上运行 GLM5.2 模型的性能数据。在 20k 输入 / 1k 输出、60% 缓存命中率的工作负载下，Wafer 实现了2626 tok/s/节点的聚合吞吐量，请求成功率 100%，TTFT（首 token 延迟）在饱和度下 p50 为 0.81 秒、p95 为 2.22 秒。这一成绩约为相同条件下 B200 的 80%，但 MI355X 的单卡成本比 B300 便宜约 2.75 倍，因此在“性能/美元”维度上具有显著优势。

具体实现路径包括：使用 AMD Quark 工具将 GLM5.2 从 bf16 量化为 MXFP4 精度，经评测在 GPQA-Diamond、tau2、GSM8K 三项指标上与 FP8 基线相比几乎无损；采用 sglang 作为推理引擎并启用推测解码（speculative decoding），通过修复两处与 ROCm 相关的兼容性问题（量化权重前缀匹配、多步元数据内核缺少 ROCm 守卫），最终单流解码速度达到 213 tok/s（10k 输入 / 1.5k 输出），低于 Artificial Analysis 排行榜头部，但性价比更高。

为什么重要

当前前沿大模型（如 Claude Fable、GLM5.2、Minimax M3）发布节奏加快，推理需求激增，但 NVIDIA Blackwell 系列产能供不应求，导致 GPU 价格攀升、token 成本上涨。AMD MI350 系列在硅片层面已能与 Blackwell 竞争，但此前受限于软件生态和 day-0 支持不足，导致前沿模型在 AMD 平台上出理想性能往往需要数周工程优化。Wafer 的这一实践表明，通过针对性优化（量化、引擎选择、推测解码适配），AMD 平台在关键推理任务上已能输出接近 NVIDIA 的性能，且成本优势明显。这有助于打破 NVIDIA 在高性能推理市场的事实垄断，推动算力市场多元化，并可能降低 AI 应用的部署成本。

对用户/开发者/创作者的影响

对于开发者而言，这一结果意味着在部署 GLM 等 MoE 架构模型时，AMD 不再是备选，而是一个成本可量化的可行选项。若后续 AMD ROCm 生态能进一步降低适配门槛，开发者可直接利用现有工具链（如 sglang）在 MI355X 上获得接近 B200 的推理体验，同时节省约 50% 以上的硬件支出。对于企业采购者来说，在进行算力选型时可考虑 AMD + 优化栈的组合，尤其适合对 token 成本敏感的推理场景（如聊天、代码生成、RAG）。对于普通用户，最终受益可能是 API 调用价格的进一步下降。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

1. 推测解码的通用化：Wafer 的修复只是针对 sglang + GLM5.2 的特定组合，目前公开信息显示，ROCm 上 sglang 的推测解码仍缺少原生支持，未来版本是否默认支持，将直接影响 AMD 在推理市场的竞争力。
2. 竞品跟进：vLLM、ATOM 等其他推理框架在 AMD 上的表现值得关注，尤其是是否能解决 MXFP4 权重加载及长上下文稳定性问题。
3. 商业化落地：Wafer 和 TensorWave 等厂商是否会推出基于 MI355X 的低价推理 API，以及能否维持稳定的服务水平（如 TTFT ≤5s 的“knee”指标），是核心观察点。

来源：Hacker News

AMD MI355X 上的 GLM5.2 为 2626 tok/s/节点，成本比 Blackwell 低 2 倍以上

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

[程序员] Claude 账号被封风险检测工具

[Claude] 兄弟们还有什么渠道买 claude 啊，

Amdocs（DOX）、1Finity、Supermicro（SMCI）借助英伟达（NVDA）的基础设施验证了AI-RAN蓝图

发表回复取消回复