使用 Nemotron-Labs 扩散语言模型实现光速文本生成

一句话看懂：NVIDIA 发布了 Nemotron-Labs Diffusion 系列扩散语言模型（DLM），3B、8B、14B 三个尺寸均支持自回归、扩散和自推测三种生成模式。扩散模式在保持准确率的前提下，将 token 解码效率提升至传统自回归模型的 2.6 倍，自推测模式最高可达 6.4 倍，同时允许模型在生成过程中修订已生成 token，解决了自回归模型错误传播的固有问题。

事件核心：发生了什么

2026年5月23日，NVIDIA 在 Hugging Face 博客正式发布 Nemotron-Labs Diffusion 模型系列。关键技术突破在于：将预训练的自回归大模型转换为扩散语言模型（基于 Efficient-DLM 工作），使得同一模型可同时运行自回归、扩散和自推测三种推理模式。其中，8B 版本在 MMLU 等任务上的平均准确率比 Qwen3 8B 高 1.2%，而在硬件无关的令牌每前向传递（TPF）指标上，扩散模式是自回归模型的 2.6 倍，线性自推测模式达到 6 倍，二次自推测模式达到 6.4 倍。该系列包含 3B、8B、14B 三个纯文本模型及一个 8B 视觉语言模型，均可在 NVIDIA Nemotron 开放模型许可下商用。

为什么重要

长期以来，大语言模型生成文本的瓶颈不在于计算，而在于内存带宽——每生成一个 token 都需要从显存中加载全部模型权重。扩散语言模型通过一次性生成多个 token 并逐步精修，能更好地利用现代 GPU 的并行计算能力，从根本上改变了推理阶段的计算模式。同时，模型能回头修改已生成的错误 token，解决了自回归模型一旦生成就不可撤回的缺陷。对于 latency-sensitive 的应用（如实时对话、代码补全、中间填充任务），这一技术路线可能替代或补充现有的 speculative decoding 方案。NVIDIA 同时开源了基于 Megatron Bridge 框架的训练代码，这意味着更多开发者可以复现和优化扩散训练流程，可能加速整个行业从纯自回归向扩散生成迁移。

对用户/开发者/创作者的影响

对 API 调用者而言，如果模型提供商部署了 Nemotron-Labs Diffusion，在相同硬件条件下可以获得更快的首 token 延迟和更低的每次请求成本（尤其在 batch size=1 的单查询场景下）。对微调开发者而言，同一个模型支持三种推理模式意味着可以按需选择：需要兼容现有 pipeline 时使用自回归模式，追求速度时切换扩散模式，需要质量与速度平衡时使用自推测模式。对内容创作者，扩散模型的内置修订能力在长文本生成、文档回顾、按需填补中间内容等场景中，有望减少人工校对工作量。不过，目前公开信息显示，该模型上线 NVIDIA API 端点的时间尚未公布，开发者短期内需要自建推理环境才能体验。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，训练稳定性与扩展性：扩散语言模型历史上训练难度大，NVIDIA 的转换方法能否在更大规模（如 70B 以上）上复现，是检验技术上限的关键。第二，竞品反应：Meta 的 Llama 系列、Google 的 Gemma 系列、以及阿里 Qwen 系列是否会跟进扩散训练或自推测融合技术，将影响主流模型生态的路线选择。第三，实际部署成本：虽然 TPF 提升显著，但扩散模型的多次迭代推理是否会增加总计算量（FLOPs），以及在高并发场景下的真实延迟收益，需要独立基准测试验证。

来源：Hugging Face Blog

使用 Nemotron-Labs 扩散语言模型实现光速文本生成