何恺明团队「扩散模型」新作：在「最后一公里」离散解码

一句话看懂：MIT 副教授何恺明团队提出 ELF 模型，解决了扩散模型在文本生成中“最后一公里”的离散解码难题，在仅消耗以往十分之一训练 token 的情况下，用更少采样步数实现了更低的生成困惑度，让连续扩散语言模型首次展现出与主流离散方法相当的竞争力。

事件核心：发生了什么

何恺明团队在 arXiv 上发布论文（编号 2605.10938），提出嵌入式语言流（Embedded Language Flows, ELF）模型。该模型的核心设计是：将文本 token 映射到连续嵌入空间后，在整个去噪过程中保持连续状态，仅在最终时间步通过共享权重网络将其解码回离散 token。这种“先连续生成，再离散解码”的机制，让模型能直接复用图像扩散领域的成熟技术，如流匹配（Flow Matching）和自条件机制。在 OpenWebText 无条件文本生成测试中，105M 参数的 ELF-B 仅用 32 个采样步就将生成困惑度降至 24，训练 token 消耗约 45.2B，仅为 MDLM、Duo 等基线模型（约 524.3B）的十分之一。在 WMT14 德译英任务上达到 BLEU 26.4，在 XSum 摘要任务上 ROUGE-1 得分为 36.0，均优于相近规模的自回归和扩散语言模型。

为什么重要

此前，扩散模型在图像生成领域已占主导，但在文本生成中长期存在乱码、重复词等问题，主流的应对方案是离散扩散模型，其效果虽强但与视觉扩散的技术栈割裂。ELF 证明，连续扩散语言模型完全可以在不依赖复杂蒸馏、仅对离散化做最小处理的条件下，取得与离散方法相当甚至更优的结果。这一突破可能推动文本扩散模型与图像扩散模型在架构、训练策略和开源框架上的统一，加速跨模态生成模型的整合。同时，大幅降低训练 token 消耗，意味着中小团队在有限算力下训练高质量文本扩散模型成为可能，有望改变当前生成式 AI 领域“自回归大模型一家独大”的技术生态。

对用户/开发者/创作者的影响

对于开发者，ELF 的开源代码和预训练模型（论文中未明确是否开源，但研究团队使用了公开编码器 T5）为构建低延迟、少步数的文本生成方案提供了新选择，尤其适合需要在单一模型中融合图像、视频和文本生成的场景。对于创作者，基于 ELF 的应用可能带来更少“AI 味”的文本输出（困惑度更低），且生成速度更可控。对于企业采购者，若 ELF 后续在翻译、摘要等垂直任务上实现产品化，其低训练预算特性可能降低企业的定制化模型部署成本。目前公开信息显示，模型尚未大规模部署验证，实际推理的端到端延迟和显存消耗仍有待测试。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

1. 模型开源与生态拓展：何恺明团队是否会像之前的工作那样开源 ELF 代码和预训练权重，将直接影响该技术能否被社区广泛验证和应用。2. 大规模模型验证：ELF 在 652M 参数以下表现良好，但能否有效扩展到十亿甚至百亿参数，与 GPT-4、Llama 等大模型正面对比，是判断其实际价值的关键。3. 竞品响应与融合：如果 ELF 的统一连续范式被验证可行，主流图像扩散模型（如 Stable Diffusion）和文本扩散模型可能会加速架构融合，出现更多“原生多模态”扩散模型。

来源：Readhub · AI

何恺明团队「扩散模型」新作：在「最后一公里」离散解码