英伟达MoE新开源：一行import，微调加速3.7倍

一句话看懂：英伟达开源了 NeMo AutoModel，允许用户在 Hugging Face Transformers v5 框架上仅通过增加一行 import 代码，即可实现 MoE 大模型微调速度提升 3.4-3.7 倍，同时 GPU 显存占用降低 29%-32%。这一方案已在 Qwen3-30B-A3B 等模型上验证，为开发者提供了高性能微调的极低切换成本路径。

事件核心：发生了什么

2026 年 6 月 26 日，英伟达正式开源 NeMo AutoModel。该工具在不改变原 Hugging Face Transformers v5 API 使用习惯的前提下，通过插入一行 import 语句，即可启用专家并行（EP）、DeepEP（通信计算融合内核）和 TransformerEngine（内核加速）三项核心技术。在单节点 8×H100 80GB GPU 上，Qwen3-30B-A3B 的每 GPU 每秒吞吐量（TPS/GPU）从 3075 提升至 11340，增幅约 3.69 倍；显存占用从 68.2 GiB 降至 48.1 GiB。对于更大规模模型（如 Nemotron 3 Ultra 550B，128 张 H100），NeMo AutoModel 也能正常完成全参数微调，而原版 Transformers v5 在此规模下会直接导致内存溢出。

为什么重要

MoE（混合专家）架构已成为当前主流大模型的标配，但其训练和微调面临专家并行、通信融合、Kernel 优化等多层工程挑战。此前，Hugging Face Transformers v5 作为最广泛使用的训练底座，虽已增加对 MoE 的支持，但在吞吐和显存控制上仍有明显瓶颈。英伟达此次开源的 NeMo AutoModel 直接复用了现有生态的 API，将底层优化嵌入到兼容层中，用户无需大幅重构代码即可获得 3 倍以上的微调加速。这相当于将英伟达在 GPU 硬件、通信库（DeepEP）和计算库（TransformerEngine）上的底层能力，以“即插即用”的方式开放给整个 Hugging Face 开发者社区，有望大幅降低企业和研究者在大规模 MoE 微调上的算力门槛和适配成本。

对用户/开发者/创作者的影响

对于已基于 Transformers v5 开展 MoE 模型微调的工程师和团队，NeMo AutoModel 提供了一个几乎零侵入性的升级方案：只需在代码中加入一行 import，即可在现有工作流中直接获得吞吐 3 倍提升和显存近三成释放，这意味着可以在相同硬件预算下完成更大批次或更长序列的微调，或者缩短项目迭代周期。对于在 H100 集群上运行中小规模（如 30B MoE）微调的企业，该工具能直接降低 GPU 租用成本；对于尝试更大规模模型（如 550B 级别）的团队，它使原本无法在 Transformers v5 上运行的实验变为可行。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

目前公开信息显示，英伟达已将代码、配置和基准测试脚本全部公开在 GitHub 上。值得观察的是：第一，该工具对国产 GPU 或 AMD GPU 的兼容性如何，是否会限制其在非英伟达硬件上的使用；第二，Hugging Face 官方是否会考虑将类似优化纳入 Transformers 主干，从而大幅减少开发者的迁移顾虑；第三，在训练场景之外，NeMo AutoModel 的推理加速效果尚未披露，后续若扩展到推理侧，可能对 MoE 模型的部署和调用成本产生更大影响。

来源：量子位 · 每日最新

英伟达MoE新开源：一行import，微调加速3.7倍

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

字节与 Anthropic 打响 AI 制药暗战

微博 CLI 工具正式上线：专为开发者和 AI Agent 打造，超 70 API 一键调用

大学专业死亡潮来临，正准备报志愿的高考生傻眼了

发表回复取消回复