英伟达双塔 AI 模型开源发布,文本生成速度提升 2.42 倍、画质保留 98.7%

英伟达于7月2日开源了Nemotron-Labs-TwoTower双塔离散扩散语言模型,通过并行生成机制,在保持原模型98.7%综合能力的前提下,文本生成吞吐量提升了2.42倍。此举旨在解决大模型逐token生成速度慢的问题,且无需从头训练。

英伟达双塔 AI 模型开源发布,文本生成速度提升 2.42 倍、画质保留 98.7%

一句话看懂:英伟达于7月2日开源了Nemotron-Labs-TwoTower双塔离散扩散语言模型,通过并行生成机制,在保持原模型98.7%综合能力的前提下,文本生成吞吐量提升了2.42倍。此举旨在解决大模型逐token生成速度慢的问题,且无需从头训练。

事件核心:发生了什么

英伟达正式发布并开源了Nemotron-Labs-TwoTower模型,其权重可在Huggingface上获取。该模型总参数量为600亿,采用独特的60B双塔架构:由两个独立的300亿参数神经网络组成,每个塔激活30亿参数,配备128个可路由专家模块。上下文塔负责保留整体语义信息且已被冻结,去噪塔则通过扩散机制并行生成文本,两塔通过交叉注意力交换数据。基准测试显示,该模型在常识、数学、代码、阅读理解等多任务中的综合能力保留了原始水平的98.7%,代码和数学任务略有下降,但文本生成吞吐量直接提升了2.42倍。

为什么重要

传统大模型逐个输出token的低效推理方式,是限制其应用落地的关键瓶颈,尤其在需要高吞吐服务的场景下。英伟达的双塔架构证明了通过并行扩散机制提升推理效率的可行性,且基于现有Nemotron骨干网络、复用预训练权重,显著降低了开发成本。这不仅为大模型推理加速提供了新思路,也意味着企业可以在不牺牲太多输出质量的情况下,大幅降低实时推理的硬件与时间成本。开源策略有利于吸引开发者生态,对行业技术路线选择产生潜在影响。

对用户/开发者/创作者的影响

对于开发者,该模型提供开源权重,可在Huggingface直接下载并进行商业部署,但需注意需两张H100或A100 80GB显卡协作才能发挥完整双塔推理能力;单卡仅支持纯自回归模式。对于内容创作者和企业用户,更快的生成速度意味着实时对话、批量文本生成等场景的延迟更低,同时模型质量达到了可商用水平。不过,代码和数学能力的轻微下降提示开发者,在需要高精度逻辑推理的特定场景中可能仍需选择其他模型。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

目前公开信息显示,该模型的开源许可为英伟达独家许可,具体商用条款与闭源模型的差异化竞争策略值得关注。后续值得观察三点:一是是否有厂商基于该模型开发面向特定任务的快速推理服务API;二是开源社区能否快速适配双塔架构以降低双卡推理门槛;三是传统自回归模型阵营(如Meta、Mistral)是否会在推理加速方面推出对标产品。

来源:AIbase

celebrityanime
celebrityanime
文章: 11263

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注