
何恺明团队「扩散模型」新作:在「最后一公里」离散解码
一句话看懂:MIT 副教授何恺明团队提出 ELF 模型,解决了扩散模型在文本生成中“最后一公里”的离散解码难题,在仅消耗以往十分之一训练 token 的情况下,用更少采样步数实现了更低的生成困惑度,让连续扩散语言模型首次展现出与主流离散方法相当的竞争力。
事件核心:发生了什么
何恺明团队在 arXiv 上发布论文(编号 2605.10938),提出嵌入式语言流(Embedded Language Flows, ELF)模型。该模型的核心设计是:将文本 token 映射到连续嵌入空间后,在整个去噪过程中保持连续状态,仅在最终时间步通过共享权重网络将其解码回离散 token。这种“先连续生成,再离散解码”的机制,让模型能直接复用图像扩散领域的成熟技术,如流匹配(Flow Matching)和自条件机制。在 OpenWebText 无条件文本生成测试中,105M 参数的 ELF-B 仅用 32 个采样步就将生成困惑度降至 24,训练 token 消耗约 45.2B,仅为 MDLM、Duo 等基线模型(约 524.3B)的十分之一。在 WMT14 德译英任务上达到 BLEU 26.4,在 XSum 摘要任务上 ROUGE-1 得分为 36.0,均优于相近规模的自回归和扩散语言模型。
为什么重要
此前,扩散模型在图像生成领域已占主导,但在文本生成中长期存在乱码、重复词等问题,主流的应对方案是离散扩散模型,其效果虽强但与视觉扩散的技术栈割裂。ELF 证明,连续扩散语言模型完全可以在不依赖复杂蒸馏、仅对离散化做最小处理的条件下,取得与离散方法相当甚至更优的结果。这一突破可能推动文本扩散模型与图像扩散模型在架构、训练策略和开源框架上的统一,加速跨模态生成模型的整合。同时,大幅降低训练 token 消耗,意味着中小团队在有限算力下训练高质量文本扩散模型成为可能,有望改变当前生成式 AI 领域“自回归大模型一家独大”的技术生态。
对用户/开发者/创作者的影响
对于开发者,ELF 的开源代码和预训练模型(论文中未明确是否开源,但研究团队使用了公开编码器 T5)为构建低延迟、少步数的文本生成方案提供了新选择,尤其适合需要在单一模型中融合图像、视频和文本生成的场景。对于创作者,基于 ELF 的应用可能带来更少“AI 味”的文本输出(困惑度更低),且生成速度更可控。对于企业采购者,若 ELF 后续在翻译、摘要等垂直任务上实现产品化,其低训练预算特性可能降低企业的定制化模型部署成本。目前公开信息显示,模型尚未大规模部署验证,实际推理的端到端延迟和显存消耗仍有待测试。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
1. 模型开源与生态拓展:何恺明团队是否会像之前的工作那样开源 ELF 代码和预训练权重,将直接影响该技术能否被社区广泛验证和应用。2. 大规模模型验证:ELF 在 652M 参数以下表现良好,但能否有效扩展到十亿甚至百亿参数,与 GPT-4、Llama 等大模型正面对比,是判断其实际价值的关键。3. 竞品响应与融合:如果 ELF 的统一连续范式被验证可行,主流图像扩散模型(如 Stable Diffusion)和文本扩散模型可能会加速架构融合,出现更多“原生多模态”扩散模型。
来源:Readhub · AI


