何恺明团队「扩散模型」新作:在「最后一公里」离散解码

何恺明团队「扩散模型」新作:在「最后一公里」离散解码

何恺明团队「扩散模型」新作:在「最后一公里」离散解码

一句话看懂:MIT 副教授何恺明团队提出 ELF 模型,解决了扩散模型在文本生成中“最后一公里”的离散解码难题,在仅消耗以往十分之一训练 token 的情况下,用更少采样步数实现了更低的生成困惑度,让连续扩散语言模型首次展现出与主流离散方法相当的竞争力。

事件核心:发生了什么

何恺明团队在 arXiv 上发布论文(编号 2605.10938),提出嵌入式语言流(Embedded Language Flows, ELF)模型。该模型的核心设计是:将文本 token 映射到连续嵌入空间后,在整个去噪过程中保持连续状态,仅在最终时间步通过共享权重网络将其解码回离散 token。这种“先连续生成,再离散解码”的机制,让模型能直接复用图像扩散领域的成熟技术,如流匹配(Flow Matching)和自条件机制。在 OpenWebText 无条件文本生成测试中,105M 参数的 ELF-B 仅用 32 个采样步就将生成困惑度降至 24,训练 token 消耗约 45.2B,仅为 MDLM、Duo 等基线模型(约 524.3B)的十分之一。在 WMT14 德译英任务上达到 BLEU 26.4,在 XSum 摘要任务上 ROUGE-1 得分为 36.0,均优于相近规模的自回归和扩散语言模型。

为什么重要

此前,扩散模型在图像生成领域已占主导,但在文本生成中长期存在乱码、重复词等问题,主流的应对方案是离散扩散模型,其效果虽强但与视觉扩散的技术栈割裂。ELF 证明,连续扩散语言模型完全可以在不依赖复杂蒸馏、仅对离散化做最小处理的条件下,取得与离散方法相当甚至更优的结果。这一突破可能推动文本扩散模型与图像扩散模型在架构、训练策略和开源框架上的统一,加速跨模态生成模型的整合。同时,大幅降低训练 token 消耗,意味着中小团队在有限算力下训练高质量文本扩散模型成为可能,有望改变当前生成式 AI 领域“自回归大模型一家独大”的技术生态。

对用户/开发者/创作者的影响

对于开发者,ELF 的开源代码和预训练模型(论文中未明确是否开源,但研究团队使用了公开编码器 T5)为构建低延迟、少步数的文本生成方案提供了新选择,尤其适合需要在单一模型中融合图像、视频和文本生成的场景。对于创作者,基于 ELF 的应用可能带来更少“AI 味”的文本输出(困惑度更低),且生成速度更可控。对于企业采购者,若 ELF 后续在翻译、摘要等垂直任务上实现产品化,其低训练预算特性可能降低企业的定制化模型部署成本。目前公开信息显示,模型尚未大规模部署验证,实际推理的端到端延迟和显存消耗仍有待测试。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

1. 模型开源与生态拓展:何恺明团队是否会像之前的工作那样开源 ELF 代码和预训练权重,将直接影响该技术能否被社区广泛验证和应用。2. 大规模模型验证:ELF 在 652M 参数以下表现良好,但能否有效扩展到十亿甚至百亿参数,与 GPT-4、Llama 等大模型正面对比,是判断其实际价值的关键。3. 竞品响应与融合:如果 ELF 的统一连续范式被验证可行,主流图像扩散模型(如 Stable Diffusion)和文本扩散模型可能会加速架构融合,出现更多“原生多模态”扩散模型。

来源:Readhub · AI

celebrityanime
celebrityanime
文章: 3222

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注