英伟达双塔 AI 模型开源发布，文本生成速度提升 2.42 倍、画质保留 98.7%

一句话看懂：英伟达于7月2日开源了Nemotron-Labs-TwoTower双塔离散扩散语言模型，通过并行生成机制，在保持原模型98.7%综合能力的前提下，文本生成吞吐量提升了2.42倍。此举旨在解决大模型逐token生成速度慢的问题，且无需从头训练。

事件核心：发生了什么

英伟达正式发布并开源了Nemotron-Labs-TwoTower模型，其权重可在Huggingface上获取。该模型总参数量为600亿，采用独特的60B双塔架构：由两个独立的300亿参数神经网络组成，每个塔激活30亿参数，配备128个可路由专家模块。上下文塔负责保留整体语义信息且已被冻结，去噪塔则通过扩散机制并行生成文本，两塔通过交叉注意力交换数据。基准测试显示，该模型在常识、数学、代码、阅读理解等多任务中的综合能力保留了原始水平的98.7%，代码和数学任务略有下降，但文本生成吞吐量直接提升了2.42倍。

为什么重要

传统大模型逐个输出token的低效推理方式，是限制其应用落地的关键瓶颈，尤其在需要高吞吐服务的场景下。英伟达的双塔架构证明了通过并行扩散机制提升推理效率的可行性，且基于现有Nemotron骨干网络、复用预训练权重，显著降低了开发成本。这不仅为大模型推理加速提供了新思路，也意味着企业可以在不牺牲太多输出质量的情况下，大幅降低实时推理的硬件与时间成本。开源策略有利于吸引开发者生态，对行业技术路线选择产生潜在影响。

对用户/开发者/创作者的影响

对于开发者，该模型提供开源权重，可在Huggingface直接下载并进行商业部署，但需注意需两张H100或A100 80GB显卡协作才能发挥完整双塔推理能力；单卡仅支持纯自回归模式。对于内容创作者和企业用户，更快的生成速度意味着实时对话、批量文本生成等场景的延迟更低，同时模型质量达到了可商用水平。不过，代码和数学能力的轻微下降提示开发者，在需要高精度逻辑推理的特定场景中可能仍需选择其他模型。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

目前公开信息显示，该模型的开源许可为英伟达独家许可，具体商用条款与闭源模型的差异化竞争策略值得关注。后续值得观察三点：一是是否有厂商基于该模型开发面向特定任务的快速推理服务API；二是开源社区能否快速适配双塔架构以降低双卡推理门槛；三是传统自回归模型阵营（如Meta、Mistral）是否会在推理加速方面推出对标产品。

来源：AIbase

英伟达双塔 AI 模型开源发布，文本生成速度提升 2.42 倍、画质保留 98.7%

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

AI 问题的根源并不是糟糕的风格。它不是物质。

中国人工智能视频制造商 Kling 融资 20 亿美元，为香港 IPO 做准备

特斯拉将员工人工智能支出上限限制为每周 200 美元

发表回复取消回复