
DeepSeek V4 推理性能分析:NV 华为最优 AMD 实现 100x 提升 — 快科技 — 科技改变未来
一句话看懂:SemiAnalysis 最新报告显示,开源模型 DeepSeek V4 在推理性能上呈现出鲜明的生态分化:NVIDIA 和华为昇腾在发布当日即实现 Day0 全栈支持,而 AMD 的 ROCm 生态虽起步滞后,却在 26 天内通过优化带来了 100 倍的性能飙升。这不仅是模型本身的技术迭代,更是对各大 AI 硬件生态成熟度的一次直接检验。
事件核心:发生了什么
分析机构 SemiAnalysis 发布长文,针对 DeepSeek V4 在不同硬件平台上的推理性能进行了定量对比。报告核心结论是,NVIDIA 的 CUDA 生态(配合 vLLM 及 SGLang 框架)在前沿大模型上的支持最为成熟和稳定,不仅 V4 发布当天即可 Day0 全栈运行,最新 GPU 如 GB200/300 也能做到开箱即用。华为的昇腾平台(包括硬件 950DT 和 CANN 框架)表现同样突出,同样实现了 Day0 的完整支持,这在国内 AI 生态中尚属首次。相比之下,AMD 的 MI355X 显卡和 ROCm 生态未能同步跟上首发,初期只能运行 FP8 精度,性能远落后于竞品;但 AMD 的 SGLang 团队反应极快,在短短 26 天内通过框架层面的优化,将 V4 的推理性能提升了整整 100 倍。
为什么重要
这一对比结果揭示了 DeepSeek V4 作为开源模型的战略选择:它在开发阶段已针对国产 AI 平台(昇腾)进行了适配和优化,使得华为成为除 NVIDIA 外唯一能够 Day0 全面支持的厂商,这对于国内算力生态的自主化是一个关键信号。同时,AMD 虽然纸面硬件规格不低,但生态成熟度的短板在关键模型适配时暴露无遗,100 倍的追赶虽然惊人,但也说明其在开发者工具链、框架兼容性与软硬件协同上仍存在巨大鸿沟。整体来看,Day0 支持能力正在成为衡量 AI 生态竞争力的一项硬指标。
对用户/开发者/创作者的影响
对于部署了 DeepSeek V4 进行推理任务的企业和开发者,选择 NVIDIA 的 CUDA 生态仍然是风险最低、开箱即用的方案,其 Token 成本在最新硬件(如 GB300)上依然具备显著优势。如果受制于合规要求或算力来源限制,华为的昇腾平台是目前国内唯一能够做到 Day0 支持的国产替代选项,但需要关注其硬件性能与 NVIDIA 之间的客观差距。AMD 平台的用户则需要做好“等待优化”的心理预期:尽管 100 倍提升的速度令人鼓舞,但生态的稳定性和成熟度仍需时间,目前更适合对性能和成本预算有较大弹性空间的团队。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
1. 华为昇腾能否持续在后续 V 系列模型上维持 Day0 支持,以及能否在硬件算力层面进一步缩小与 NVIDIA 的差距;
2. AMD 的 SGLang 团队在首轮 100 倍优化之后,能否持续迭代并推动 ROCm 生态从“追赶”进入“稳定”阶段;
3. 未来是否有第三方开源社区方案在不依赖 NVIDIA CUDA 的情况下,通过类似 DeepSeek V4 的适配进一步降低对单一生态的依赖。
来源:Readhub · AI


