NVIDIA 发布 Nemotron-Labs-TwoTower:基于冻结自回归 Nemotron-3-Nano-30B-A3B 主干网络构建的开放权重扩散语言模型

NVIDIA 开源了名为 Nemotron-Labs-TwoTower 的新型扩散语言模型,该模型基于其自回归大模型 Nemotron-3-Nano-30B-A3B 的冻结主干网络构建,旨在探索一种融合扩散模型与自回归模型优势的文本生成新路径。

NVIDIA 发布 Nemotron-Labs-TwoTower:基于冻结自回归 Nemotron-3-Nano-30B-A3B 主干网络构建的开放权重扩散语言模型

一句话看懂:NVIDIA 开源了名为 Nemotron-Labs-TwoTower 的新型扩散语言模型,该模型基于其自回归大模型 Nemotron-3-Nano-30B-A3B 的冻结主干网络构建,旨在探索一种融合扩散模型与自回归模型优势的文本生成新路径。

事件核心:发生了什么

NVIDIA 在2026年7月通过 MarkTechPost 等渠道发布了 Nemotron-Labs-TwoTower 开放权重模型。该模型的技术关键点在于:采用“双塔”架构,一条路径使用预训练的 Nemotron-3-Nano-30B-A3B 作为冻结的自回归主干网络,另一条路径则运行扩散过程来生成文本。这种方法颠覆了传统大语言模型从左到右逐令牌生成的方式,而是通过迭代去噪来直接“扩散”出完整的文本序列。模型权重已向社区开放,供研究者和开发者下载使用。

为什么重要

目前公开信息显示,Nemotron-Labs-TwoTower 的意义在于它探索了一种混合范式。传统自回归模型(如 GPT 系列)在长文本生成和全局连贯性上存在局限,而纯扩散模型(如文本到图像的 DALL-E)在文本领域的可控性和质量尚未成熟。NVIDIA 的尝试是将自回归模型的强语义理解能力(即冻结的 30B 参数主干)与扩散模型的并行生成能力结合,有望在需要精密局部控制和全局一致性的任务(如代码合成、复杂指令跟随、长故事生成)中取得突破。该模型的开放权重策略,也为学术界和中小开发者提供了研究前沿混合架构的入口,可能推动大模型训练和推理方式的多样化。

对用户/开发者/创作者的影响

对于 AI 开发者和研究者,Nemotron-Labs-TwoTower 提供了一个可直接实验的开放权重模型,便于深入分析扩散语言模型的推理机制、训练效率以及与传统 Transformer 的差异。对于内容创作者和企业用户,如果该模型在实际应用中证明其优势(例如在长文撰写、多轮对话修正等场景),未来可能出现基于该架构的 API 或工具,允许用户以迭代方式精调生成结果,而不是完全依赖一次性输出。不过,目前该模型仍处于研究与实验阶段,普通用户短期内尚无法直接通过商业产品体验到其效果。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

首先,NVIDIA 是否会推出基于 TwoTower 架构的商用产品(如融入 NeMo 服务或云端推理 API)是重要观察点。其次,其他大模型厂商(如 Meta、Google、Anthropic)是否会跟进类似的双塔扩散-自回归混合架构,将决定这一技术路线是否能成为新主流。第三,该模型在标准 NLP 基准(如推理、代码生成、长文本连贯性)上的实际性能排名,以及社区的反向传播和微调工具是否能够有效支持,将直接影响其在开发者生态中的普及速度。

来源:MarkTechPost Research

celebrityanime
celebrityanime
文章: 10732

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注