加速国产大模型:AMD 推出 vLLM-ATOM 插件大幅提升推理效率

加速国产大模型:AMD 推出 vLLM-ATOM 插件大幅提升推理效率

加速国产大模型:AMD 推出 vLLM-ATOM 插件大幅提升推理效率

一句话看懂:AMD 发布了专为国产大模型优化的 vLLM-ATOM 推理插件,可在不改变现有工作流的前提下,让 DeepSeek-R1、Kimi-K2 等模型在 AMD Instinct GPU 上运行更高效,重点是开发者无需修改代码即可完成迁移。

事件核心:发生了什么

AMD 于近期正式发布 vLLM-ATOM 插件,这是一个基于开源推理框架 vLLM 构建的优化工具。vLLM 本身以显存利用效率高著称,常用于高并发推理场景。AMD 的插件进一步贴合自家 Instinct 系列 GPU(重点面向 MI350 和 MI400 系列)的硬件特性,在后台自动接管请求调度与内核调优。架构上分为三层:顶层兼容 OpenAI 接口,中间层负责模型实现与路由,底层提供核心 GPU 内核,同时集成了混合专家模型(MoE)及量化支持。已适配 Qwen3、GLM、DeepSeek-R1、Kimi-K2 等主流中文大模型,以及稠密模型、视觉语言模型(VLM)。

为什么重要

这项发布直接降低了企业级 AI 部署对 NVIDIA 硬件的依赖门槛。此前,许多国产大模型在推理阶段主要依赖 CUDA 生态,而 AMD 的 Instinct 系列 GPU 在企业数据中心有一定装机量,但软件栈的适配与优化是主要短板。vLLM-ATOM 通过“零代码改动”的方式接入现有 vLLM 工作流,实质上是把硬件优化藏在了后台,让开发者可以继续使用熟悉的 API 和任务逻辑。对于推动国产大模型在更广泛的自主算力生态中落地,这是一个具体的、可验证的工程进展。同时,它也意味着 AMD 正在加速追赶 NVIDIA 在大模型推理软件生态上的布局。

对用户/开发者/创作者的影响

对 AI 应用开发者而言,这意味着多了一个硬件路线选择。如果你已有基于 vLLM 部署的推理服务,换成 AMD GPU 的迁移成本极低,不需要重写代码或重新训练模型。对算力采购决策者来说,这提供了更多成本权衡的空间——AMD 硬件在某些场景下可能更具性价比。对模型创作者和内容创作者而言,间接影响在于推理成本有进一步下降的可能,尤其是当更多厂商加入竞争后。短期看,对普通终端用户没有直接影响,但长期会推动国产大模型在更多企业级场景中落地。

值得关注的后续

目前公开信息显示,该插件已发布但尚未公布详细的推理性能对比数据(如 tokens/秒、延迟等对比 NVIDIA H100 或 AMD 上一代 MI300 的性能差异)。后续值得关注的是:第一,第三方机构是否进行独立性能评测,验证官方宣称的优化幅度;第二,该插件能否带动更多国产大模型厂商主动适配 AMD 硬件;第三,NVIDIA 是否会在软件生态上做出回应,比如优化 Triton Inference Server 在国产模型上的针对性适配。如果 vLLM-ATOM 被证明在成本与性能上有明显优势,可能会改变一部分数据中心采购决策。

来源:Readhub · AI

celebrityanime
celebrityanime
文章: 5878

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注