性能提升超两倍:英伟达发布 Nemotron-Labs-TwoTower 扩散语言模型

英伟达于7月1日开源了Nemotron-Labs-TwoTower扩散语言模型,通过“双塔”架构将生成吞吐量提升2.42倍,同时保留了98.7%的基线模型质量,为大规模文本合成任务提供了更高效的替代方案。

性能提升超两倍:英伟达发布 Nemotron-Labs-TwoTower 扩散语言模型

一句话看懂:英伟达于7月1日开源了Nemotron-Labs-TwoTower扩散语言模型,通过“双塔”架构将生成吞吐量提升2.42倍,同时保留了98.7%的基线模型质量,为大规模文本合成任务提供了更高效的替代方案。

事件核心:发生了什么

英伟达在2026年7月1日正式开源了Nemotron-Labs-TwoTower扩散语言模型。该模型的核心创新在于采用了“双塔”架构:一个“上下文塔”保持冻结,负责处理提示词,保留原有的语言理解能力;另一个“去噪器塔”则经过专门训练,能够并行生成并优化令牌(token),从而绕开了传统自回归模型逐令牌顺序解码的效率瓶颈。

在2×H100 GPU的测试环境下,该模型在默认设置下的生成质量达到了基线模型的98.7%,而实际生成吞吐量提升了2.42倍。目前,模型以开放权重形式发布,遵循英伟达Nemotron开放模型许可协议,支持商业用途。

为什么重要

这一技术路线的意义在于,它为加速大模型推理提供了一个可落地的架构方案。传统的自回归模型在处理大规模合成任务时,顺序解码的效率低下,英伟达将扩散模型与“双塔”设计结合,在几乎不牺牲质量的前提下大幅提升吞吐量,这对AI模型从研究走向大规模商业化生产至关重要。它表明,通过算法架构优化来换取速度,正成为大模型发展的一个新趋势,尤其针对数据合成、内容批量生成等对吞吐量有高要求的场景。

对用户/开发者/创作者的影响

对于需要大批量合成文本的数据团队和AI应用开发者,Nemotron-Labs-TwoTower模型提供了一个兼顾性能与效率的工具。开发者可以在扩散模式、模拟自回归、标准自回归三种解码模式中按需选择,灵活性较高。不过,目前公开信息显示,该模型在代码生成和数学推理任务上表现略逊于基线模型,且需要一定的GPU显存,因此更适合对生成速度和吞吐量有优先要求的任务,而非追求极致推理准确性的场景。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

首先,此模型目前以开放权重形式开源,但它是英伟达在非自回归大模型架构上的一次重要尝试,后续是否会推出更大参数或性能更优的版本值得观察。其次,该技术路线是否会引发其他大模型厂商在架构上的跟进或效仿,从而改变当前以自回归为主的推理格局,也是一个需要关注的竞争动向。最后,开发者社区对该模型的反馈以及基于此模型的应用生态能否快速建立,将直接决定其实际影响力。

来源:AIbase

celebrityanime
celebrityanime
文章: 10751

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注