
新突破!国产算力成功完成万亿级大模型全参数训练 — 快科技 — 科技改变未来
一句话看懂:深圳河套学院联合哈尔滨工业大学、华为GTS等单位,基于昇腾910C国产算力集群,在一个月内完成了DeepSeek-V4-Pro(1.6万亿参数MoE模型)的全参数续训练与微调,全程无异常,模型算力利用率超过34%。这标志着国产算力首次在工业级场景下,实现了对万亿级开源旗舰模型的稳定全参数后训练,而不仅仅是推理部署或轻量微调。
事件核心:发生了什么
项目团队基于千卡级昇腾910C国产算力集群,成功完成了DeepSeek-V4-Pro的全参数续训练与监督微调(SFT)。该模型拥有1.6万亿参数,采用混合专家(MoE)架构,包含CSA+HCA混合稀疏注意力等创新机制,对训练框架提出了极高要求。训练累计超过1500步,全程无迭代跳过或NaN异常,关键训练算子效率较初始版本提升约14%,模型算力利用率(MFU)稳定达到34.9%,单步训练时间稳定在27秒。这是业界首次由第三方机构基于国产算力集群完成该模型的完整后训练工程实践,而非一次性演示,项目已实现可复现、可工程化交付。
为什么重要
这一成果直接验证了国产算力基础设施具备了处理“万卡级、万亿参数”级别大模型复杂训练任务的能力。此前,国产算力在AI领域的应用多集中在推理部署和轻量微调,而全参数训练(尤其是后训练阶段)对算力集群的稳定性、通信效率、并行策略协同要求极高。此次突破意味着在OpenAI等海外厂商主导的大模型训练链条中,国产硬件和软件栈正式进入了核心环节。它证明在短期、低成本条件下,国产算力可以完成行业大模型的专项增强训练,这对降低国内AI企业和研究机构对海外高端GPU的依赖具有直接战略意义。
对用户/开发者/创作者的影响
对于开发者和大模型使用者,这一进展最直接的影响在于模型训练成本的潜在下降和基础设施选择的增加。过去依赖英伟达等海外硬件进行全参数训练的模式,现在有了基于国产算力的替代方案。项目公开信息显示,关键技术突破包括构建了分布式承载方案(覆盖权重、梯度、激活和优化器状态),以及优化了MoE路由与稀疏注意力算子,建立了专家负载均衡机制。这意味着,基于昇腾910C生态的开发者未来可能更容易获得托管的、自动化的大模型后训练服务,从而降低微调行业垂直模型的门槛。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
第一,DeepSeek-V4-Pro本身是开源模型,此次训练成果是否会转化为公开发布的可调用的API或开源训练代码,是下一个关键观察点。第二,项目团队已打通DeepSeek-V4-Flash的全参数续训练与SFT链路,后续是否能覆盖更多主流开源模型(如Llama、Qwen系列)并形成标准化工具链,将决定该成果的生态影响力。第三,目前验证了数学建模能力提升(ORGEval WL提升超5个百分点),但更大规模、更长周期的训练稳定性测试,以及与其他算力平台的性能对比数据,仍有待更多公开报告。
来源:Readhub · AI


