DeepSeek V4 推理性能分析：NV 华为最优 AMD 实现 100x 提升 — 快科技

DeepSeek V4 推理性能分析：NV 华为最优 AMD 实现 100x 提升 — 快科技 — 科技改变未来

一句话看懂：SemiAnalysis 最新报告显示，开源模型 DeepSeek V4 在推理性能上呈现出鲜明的生态分化：NVIDIA 和华为昇腾在发布当日即实现 Day0 全栈支持，而 AMD 的 ROCm 生态虽起步滞后，却在 26 天内通过优化带来了 100 倍的性能飙升。这不仅是模型本身的技术迭代，更是对各大 AI 硬件生态成熟度的一次直接检验。

事件核心：发生了什么

分析机构 SemiAnalysis 发布长文，针对 DeepSeek V4 在不同硬件平台上的推理性能进行了定量对比。报告核心结论是，NVIDIA 的 CUDA 生态（配合 vLLM 及 SGLang 框架）在前沿大模型上的支持最为成熟和稳定，不仅 V4 发布当天即可 Day0 全栈运行，最新 GPU 如 GB200/300 也能做到开箱即用。华为的昇腾平台（包括硬件 950DT 和 CANN 框架）表现同样突出，同样实现了 Day0 的完整支持，这在国内 AI 生态中尚属首次。相比之下，AMD 的 MI355X 显卡和 ROCm 生态未能同步跟上首发，初期只能运行 FP8 精度，性能远落后于竞品；但 AMD 的 SGLang 团队反应极快，在短短 26 天内通过框架层面的优化，将 V4 的推理性能提升了整整 100 倍。

为什么重要

这一对比结果揭示了 DeepSeek V4 作为开源模型的战略选择：它在开发阶段已针对国产 AI 平台（昇腾）进行了适配和优化，使得华为成为除 NVIDIA 外唯一能够 Day0 全面支持的厂商，这对于国内算力生态的自主化是一个关键信号。同时，AMD 虽然纸面硬件规格不低，但生态成熟度的短板在关键模型适配时暴露无遗，100 倍的追赶虽然惊人，但也说明其在开发者工具链、框架兼容性与软硬件协同上仍存在巨大鸿沟。整体来看，Day0 支持能力正在成为衡量 AI 生态竞争力的一项硬指标。

对用户/开发者/创作者的影响

对于部署了 DeepSeek V4 进行推理任务的企业和开发者，选择 NVIDIA 的 CUDA 生态仍然是风险最低、开箱即用的方案，其 Token 成本在最新硬件（如 GB300）上依然具备显著优势。如果受制于合规要求或算力来源限制，华为的昇腾平台是目前国内唯一能够做到 Day0 支持的国产替代选项，但需要关注其硬件性能与 NVIDIA 之间的客观差距。AMD 平台的用户则需要做好“等待优化”的心理预期：尽管 100 倍提升的速度令人鼓舞，但生态的稳定性和成熟度仍需时间，目前更适合对性能和成本预算有较大弹性空间的团队。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

1. 华为昇腾能否持续在后续 V 系列模型上维持 Day0 支持，以及能否在硬件算力层面进一步缩小与 NVIDIA 的差距；
2. AMD 的 SGLang 团队在首轮 100 倍优化之后，能否持续迭代并推动 ROCm 生态从“追赶”进入“稳定”阶段；
3. 未来是否有第三方开源社区方案在不依赖 NVIDIA CUDA 的情况下，通过类似 DeepSeek V4 的适配进一步降低对单一生态的依赖。

来源：Readhub · AI

DeepSeek V4 推理性能分析：NV 华为最优 AMD 实现 100x 提升 — 快科技 — 科技改变未来