英伟达MoE新开源:一行import,微调加速3.7倍

英伟达开源了 NeMo AutoModel,允许用户在 Hugging Face Transformers v5 框架上仅通过增加一行 import 代码,即可实现 MoE 大模型微调速度提升 3.4-3.7 倍,同时 GPU 显存占用降低 29%-32%。这一方案已在 Qwen3-30B-A3B 等模型上验…

英伟达MoE新开源:一行import,微调加速3.7倍

一句话看懂:英伟达开源了 NeMo AutoModel,允许用户在 Hugging Face Transformers v5 框架上仅通过增加一行 import 代码,即可实现 MoE 大模型微调速度提升 3.4-3.7 倍,同时 GPU 显存占用降低 29%-32%。这一方案已在 Qwen3-30B-A3B 等模型上验证,为开发者提供了高性能微调的极低切换成本路径。

事件核心:发生了什么

2026 年 6 月 26 日,英伟达正式开源 NeMo AutoModel。该工具在不改变原 Hugging Face Transformers v5 API 使用习惯的前提下,通过插入一行 import 语句,即可启用专家并行(EP)、DeepEP(通信计算融合内核)和 TransformerEngine(内核加速)三项核心技术。在单节点 8×H100 80GB GPU 上,Qwen3-30B-A3B 的每 GPU 每秒吞吐量(TPS/GPU)从 3075 提升至 11340,增幅约 3.69 倍;显存占用从 68.2 GiB 降至 48.1 GiB。对于更大规模模型(如 Nemotron 3 Ultra 550B,128 张 H100),NeMo AutoModel 也能正常完成全参数微调,而原版 Transformers v5 在此规模下会直接导致内存溢出。

为什么重要

MoE(混合专家)架构已成为当前主流大模型的标配,但其训练和微调面临专家并行、通信融合、Kernel 优化等多层工程挑战。此前,Hugging Face Transformers v5 作为最广泛使用的训练底座,虽已增加对 MoE 的支持,但在吞吐和显存控制上仍有明显瓶颈。英伟达此次开源的 NeMo AutoModel 直接复用了现有生态的 API,将底层优化嵌入到兼容层中,用户无需大幅重构代码即可获得 3 倍以上的微调加速。这相当于将英伟达在 GPU 硬件、通信库(DeepEP)和计算库(TransformerEngine)上的底层能力,以“即插即用”的方式开放给整个 Hugging Face 开发者社区,有望大幅降低企业和研究者在大规模 MoE 微调上的算力门槛和适配成本。

对用户/开发者/创作者的影响

对于已基于 Transformers v5 开展 MoE 模型微调的工程师和团队,NeMo AutoModel 提供了一个几乎零侵入性的升级方案:只需在代码中加入一行 import,即可在现有工作流中直接获得吞吐 3 倍提升和显存近三成释放,这意味着可以在相同硬件预算下完成更大批次或更长序列的微调,或者缩短项目迭代周期。对于在 H100 集群上运行中小规模(如 30B MoE)微调的企业,该工具能直接降低 GPU 租用成本;对于尝试更大规模模型(如 550B 级别)的团队,它使原本无法在 Transformers v5 上运行的实验变为可行。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

目前公开信息显示,英伟达已将代码、配置和基准测试脚本全部公开在 GitHub 上。值得观察的是:第一,该工具对国产 GPU 或 AMD GPU 的兼容性如何,是否会限制其在非英伟达硬件上的使用;第二,Hugging Face 官方是否会考虑将类似优化纳入 Transformers 主干,从而大幅减少开发者的迁移顾虑;第三,在训练场景之外,NeMo AutoModel 的推理加速效果尚未披露,后续若扩展到推理侧,可能对 MoE 模型的部署和调用成本产生更大影响。

来源:量子位 · 每日最新

celebrityanime
celebrityanime
文章: 10155

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注