
一句话看懂:华尔街半导体研究机构 SemiAnalysis 对华为未正式上市的昇腾 950DT 芯片运行 DeepSeek V4 的推理过程进行了 Trace 级拆解,发现双方从芯片架构到模型设计进行了深度协同。这直接支撑了 DeepSeek V4 API 降价 75%,并引发字节跳动、阿里和腾讯的大规模采购,标志着国产芯片开始支撑顶级模型的低成本、高并发推理。
事件核心:发生了什么
知名研究机构 SemiAnalysis 发布了关于华为昇腾 950DT 芯片与 DeepSeek V4 推理链路的首份指令级分析报告。报告核心发现是:DeepSeek V4 的部分架构是“为了昇腾推理而协同设计”(in part co-designed for Huawei Ascend inference),意味着华为在模型发布前就深度参与了推理路径和软件栈优化,而非被动适配。硬件层面,950DT 搭载了专为解码(Decode)和训练设计的 HiZQ 2.0 内存(144GB / 4TB/s 带宽),其计算单元分为 AI Cube、AI Vector、AI CPU 和专用通信引擎 CCU,并通过华为自研的 CANN 软件栈实现了三层指令级优化:计算与通信完全重叠、元数据计算下沉至芯片内、多流并行执行。这一优化直接支撑了 DeepSeek 在今年早些时候宣布的 V4-Pro API 永久降价至原价的四分之一。
为什么重要
这次分析打破了“国产芯片只能玩替代”的叙事,转向“国产芯片能否支撑顶级模型的低成本高并发推理”。SemiAnalysis 报告明确指出,DeepSeek V4 的成本优势不只是模型侧的胜利,更是芯片带宽、编译器、融合算子和通信协同的结果。随着下半年昇腾 950 超节点批量上市,DeepSeek V4 流量份额已从不足 1% 升至 17%(超越 OpenAI),验证了这套成本结构的市场竞争力。更重要的是,DeepSeek 从英伟达底座向昇腾底座的迁移一旦完成,很可能是不可逆的。目前公开信息显示,字节跳动已包揽昇腾 950 系列约一半产能,阿里和腾讯各跟进数十万颗,中国移动集采也指定了 6208 张昇腾加速卡。这些动作说明互联网大厂对国产高端 AI 芯片的商业信心已从“能不能用”转变为“够不够买”。
对用户/开发者/创作者的影响
API 用户:DeepSeek V4 官方明确表示,昇腾 950 批量上市后价格将大幅下调,目前已公布的 Pro 版本永久降价至四分之一。这意味着开发者接入 DeepSeek V4 API 的成本将进一步降低,百万上下文的推理成本可能长期维持极低水平。开发者:华为将 CANN 开源,并针对 DeepSeek V4 打包了全套推理优化方案(包括量化、分布式推理配方等),这意味着开发者可以在昇腾平台直接使用 V4 模型,无需自己重新适配基础设施。企业采购者:字节的锁单行为释放了强烈信号——大型云厂商和互联网公司已开始将昇腾 950 等国产芯片纳入核心推理负载的采购清单,而非仅用于部分实验性任务。这会影响未来一年企业云 GPU 的采购决策。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
第一个观察点是 8 月昇腾 950DT 正式上线华为云后的实际推理性能和价格是否与 SemiAnalysis 的分析一致,以及是否会引发同级别模型的跟进降价。第二个观察点是英伟达是否会调整其针对中国市场的产品路线与定价策略,尤其是针对低精度和 MoE 模型的优化。第三个观察点是 DeepSeek V4 是否会进一步扩展到其他国产芯片(如寒武纪、海光),或者深化与华为的捆绑,这在未来会是看国产 AI 生态是否真正独立的关键标志。
来源:InfoQ CN


