加速国产大模型：AMD 推出 vLLM-ATOM 插件大幅提升推理效率

一句话看懂：AMD 发布了专为国产大模型优化的 vLLM-ATOM 推理插件，可在不改变现有工作流的前提下，让 DeepSeek-R1、Kimi-K2 等模型在 AMD Instinct GPU 上运行更高效，重点是开发者无需修改代码即可完成迁移。

事件核心：发生了什么

AMD 于近期正式发布 vLLM-ATOM 插件，这是一个基于开源推理框架 vLLM 构建的优化工具。vLLM 本身以显存利用效率高著称，常用于高并发推理场景。AMD 的插件进一步贴合自家 Instinct 系列 GPU（重点面向 MI350 和 MI400 系列）的硬件特性，在后台自动接管请求调度与内核调优。架构上分为三层：顶层兼容 OpenAI 接口，中间层负责模型实现与路由，底层提供核心 GPU 内核，同时集成了混合专家模型（MoE）及量化支持。已适配 Qwen3、GLM、DeepSeek-R1、Kimi-K2 等主流中文大模型，以及稠密模型、视觉语言模型（VLM）。

为什么重要

这项发布直接降低了企业级 AI 部署对 NVIDIA 硬件的依赖门槛。此前，许多国产大模型在推理阶段主要依赖 CUDA 生态，而 AMD 的 Instinct 系列 GPU 在企业数据中心有一定装机量，但软件栈的适配与优化是主要短板。vLLM-ATOM 通过“零代码改动”的方式接入现有 vLLM 工作流，实质上是把硬件优化藏在了后台，让开发者可以继续使用熟悉的 API 和任务逻辑。对于推动国产大模型在更广泛的自主算力生态中落地，这是一个具体的、可验证的工程进展。同时，它也意味着 AMD 正在加速追赶 NVIDIA 在大模型推理软件生态上的布局。

对用户/开发者/创作者的影响

对 AI 应用开发者而言，这意味着多了一个硬件路线选择。如果你已有基于 vLLM 部署的推理服务，换成 AMD GPU 的迁移成本极低，不需要重写代码或重新训练模型。对算力采购决策者来说，这提供了更多成本权衡的空间——AMD 硬件在某些场景下可能更具性价比。对模型创作者和内容创作者而言，间接影响在于推理成本有进一步下降的可能，尤其是当更多厂商加入竞争后。短期看，对普通终端用户没有直接影响，但长期会推动国产大模型在更多企业级场景中落地。

值得关注的后续

目前公开信息显示，该插件已发布但尚未公布详细的推理性能对比数据（如 tokens/秒、延迟等对比 NVIDIA H100 或 AMD 上一代 MI300 的性能差异）。后续值得关注的是：第一，第三方机构是否进行独立性能评测，验证官方宣称的优化幅度；第二，该插件能否带动更多国产大模型厂商主动适配 AMD 硬件；第三，NVIDIA 是否会在软件生态上做出回应，比如优化 Triton Inference Server 在国产模型上的针对性适配。如果 vLLM-ATOM 被证明在成本与性能上有明显优势，可能会改变一部分数据中心采购决策。

来源：Readhub · AI

加速国产大模型：AMD 推出 vLLM-ATOM 插件大幅提升推理效率