NVIDIA 发布 Nemotron-Labs-TwoTower：基于冻结自回归 Nemotron-3-Nano-30B-A3B 主干网络构建的开放权重扩散语言模型

一句话看懂：NVIDIA 开源了名为 Nemotron-Labs-TwoTower 的新型扩散语言模型，该模型基于其自回归大模型 Nemotron-3-Nano-30B-A3B 的冻结主干网络构建，旨在探索一种融合扩散模型与自回归模型优势的文本生成新路径。

事件核心：发生了什么

NVIDIA 在2026年7月通过 MarkTechPost 等渠道发布了 Nemotron-Labs-TwoTower 开放权重模型。该模型的技术关键点在于：采用“双塔”架构，一条路径使用预训练的 Nemotron-3-Nano-30B-A3B 作为冻结的自回归主干网络，另一条路径则运行扩散过程来生成文本。这种方法颠覆了传统大语言模型从左到右逐令牌生成的方式，而是通过迭代去噪来直接“扩散”出完整的文本序列。模型权重已向社区开放，供研究者和开发者下载使用。

为什么重要

目前公开信息显示，Nemotron-Labs-TwoTower 的意义在于它探索了一种混合范式。传统自回归模型（如 GPT 系列）在长文本生成和全局连贯性上存在局限，而纯扩散模型（如文本到图像的 DALL-E）在文本领域的可控性和质量尚未成熟。NVIDIA 的尝试是将自回归模型的强语义理解能力（即冻结的 30B 参数主干）与扩散模型的并行生成能力结合，有望在需要精密局部控制和全局一致性的任务（如代码合成、复杂指令跟随、长故事生成）中取得突破。该模型的开放权重策略，也为学术界和中小开发者提供了研究前沿混合架构的入口，可能推动大模型训练和推理方式的多样化。

对用户/开发者/创作者的影响

对于 AI 开发者和研究者，Nemotron-Labs-TwoTower 提供了一个可直接实验的开放权重模型，便于深入分析扩散语言模型的推理机制、训练效率以及与传统 Transformer 的差异。对于内容创作者和企业用户，如果该模型在实际应用中证明其优势（例如在长文撰写、多轮对话修正等场景），未来可能出现基于该架构的 API 或工具，允许用户以迭代方式精调生成结果，而不是完全依赖一次性输出。不过，目前该模型仍处于研究与实验阶段，普通用户短期内尚无法直接通过商业产品体验到其效果。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

首先，NVIDIA 是否会推出基于 TwoTower 架构的商用产品（如融入 NeMo 服务或云端推理 API）是重要观察点。其次，其他大模型厂商（如 Meta、Google、Anthropic）是否会跟进类似的双塔扩散-自回归混合架构，将决定这一技术路线是否能成为新主流。第三，该模型在标准 NLP 基准（如推理、代码生成、长文本连贯性）上的实际性能排名，以及社区的反向传播和微调工具是否能够有效支持，将直接影响其在开发者生态中的普及速度。

来源：MarkTechPost Research

NVIDIA 发布 Nemotron-Labs-TwoTower：基于冻结自回归 Nemotron-3-Nano-30B-A3B 主干网络构建的开放权重扩散语言模型

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

克劳德·科学

Anthropic 发布 Claude Science 新平台：AI 开始接管科研流水线 — 快科技 — 科技改变未来

亚当 CAD 副驾驶

发表回复取消回复