使用 Nemotron-Labs 扩散语言模型实现光速文本生成

使用 Nemotron-Labs 扩散语言模型实现光速文本生成

使用 Nemotron-Labs 扩散语言模型实现光速文本生成

一句话看懂:NVIDIA 发布了 Nemotron-Labs Diffusion 系列扩散语言模型(DLM),3B、8B、14B 三个尺寸均支持自回归、扩散和自推测三种生成模式。扩散模式在保持准确率的前提下,将 token 解码效率提升至传统自回归模型的 2.6 倍,自推测模式最高可达 6.4 倍,同时允许模型在生成过程中修订已生成 token,解决了自回归模型错误传播的固有问题。

事件核心:发生了什么

2026年5月23日,NVIDIA 在 Hugging Face 博客正式发布 Nemotron-Labs Diffusion 模型系列。关键技术突破在于:将预训练的自回归大模型转换为扩散语言模型(基于 Efficient-DLM 工作),使得同一模型可同时运行自回归、扩散和自推测三种推理模式。其中,8B 版本在 MMLU 等任务上的平均准确率比 Qwen3 8B 高 1.2%,而在硬件无关的令牌每前向传递(TPF)指标上,扩散模式是自回归模型的 2.6 倍,线性自推测模式达到 6 倍,二次自推测模式达到 6.4 倍。该系列包含 3B、8B、14B 三个纯文本模型及一个 8B 视觉语言模型,均可在 NVIDIA Nemotron 开放模型许可下商用。

为什么重要

长期以来,大语言模型生成文本的瓶颈不在于计算,而在于内存带宽——每生成一个 token 都需要从显存中加载全部模型权重。扩散语言模型通过一次性生成多个 token 并逐步精修,能更好地利用现代 GPU 的并行计算能力,从根本上改变了推理阶段的计算模式。同时,模型能回头修改已生成的错误 token,解决了自回归模型一旦生成就不可撤回的缺陷。对于 latency-sensitive 的应用(如实时对话、代码补全、中间填充任务),这一技术路线可能替代或补充现有的 speculative decoding 方案。NVIDIA 同时开源了基于 Megatron Bridge 框架的训练代码,这意味着更多开发者可以复现和优化扩散训练流程,可能加速整个行业从纯自回归向扩散生成迁移。

对用户/开发者/创作者的影响

对 API 调用者而言,如果模型提供商部署了 Nemotron-Labs Diffusion,在相同硬件条件下可以获得更快的首 token 延迟和更低的每次请求成本(尤其在 batch size=1 的单查询场景下)。对微调开发者而言,同一个模型支持三种推理模式意味着可以按需选择:需要兼容现有 pipeline 时使用自回归模式,追求速度时切换扩散模式,需要质量与速度平衡时使用自推测模式。对内容创作者,扩散模型的内置修订能力在长文本生成、文档回顾、按需填补中间内容等场景中,有望减少人工校对工作量。不过,目前公开信息显示,该模型上线 NVIDIA API 端点的时间尚未公布,开发者短期内需要自建推理环境才能体验。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

第一,训练稳定性与扩展性:扩散语言模型历史上训练难度大,NVIDIA 的转换方法能否在更大规模(如 70B 以上)上复现,是检验技术上限的关键。第二,竞品反应:Meta 的 Llama 系列、Google 的 Gemma 系列、以及阿里 Qwen 系列是否会跟进扩散训练或自推测融合技术,将影响主流模型生态的路线选择。第三,实际部署成本:虽然 TPF 提升显著,但扩散模型的多次迭代推理是否会增加总计算量(FLOPs),以及在高并发场景下的真实延迟收益,需要独立基准测试验证。

来源:Hugging Face Blog

celebrityanime
celebrityanime
文章: 3628

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注