何恺明首个语言模型：105M参数，不走GPT自回归老路

一句话看懂：计算机视觉（CV）顶级学者何恺明带队发布首个语言模型 ELF，采用“连续扩散”技术路线，而非 GPT 等主流模型使用的自回归“预测下一个词”范式。模型仅凭 105M 参数和 45B 训练数据，就在生成质量上超越了参数和训练数据量都大得多的同类扩散语言模型，证明了连续扩散方法在文本生成领域的可行性。

事件核心：发生了什么

何恺明团队在最新论文中推出了名为 ELF（Embedded Language Flows）的连续扩散语言模型。其核心创新在于：将整个文本生成过程完全放在连续的“嵌入空间”（embedding space）中进行去噪，仅在最后一步才将连续的表示离散化为具体的 token（词元），避免了以往连续扩散模型中每一步都需要与词表对齐的复杂操作。

具体数据上，ELF 在 OpenWebText 数据集上，以 105M 参数、45B 训练 token 和 32 步采样，达成了“生成困惑度”（Generative Perplexity）为 24 的成绩。这一指标用于衡量生成文本的自然度，数值越低越好。相比之下，许多主流的离散扩散语言模型（如 MDLM、LLaDA）通常需要 500B 以上的 token 和上千步采样才能接近这一水平。

为什么重要

该工作扭转了“语言模型必须走离散路线”的技术共识。自回归（如 GPT）和离散扩散（如 LLaDA）是当前两大主流路径，而连续扩散方法此前因处理语言离散特性的困难而被边缘化。ELF 用实际效果证明：只要将“连续去噪”和“离散输出”彻底解耦——前者完全在连续空间完成，后者仅保留在最后一步——连续路线就能在生成质量、采样速度（32 步 vs 上千步）和训练数据效率（45B vs 500B）上实现更优的权衡。这可能启发更多研究者重新审视连续扩散在自然语言处理中的潜力，并为模型压缩和边缘端部署提供新思路。

对用户/开发者/创作者的影响

目前 ELF 仍处于论文阶段，未开放可用 API 或模型权重。但其技术路线对开发者有直接启示：更少的采样步数意味着推理成本更低，更小的模型尺寸（105M 参数）意味着更快的本地部署可能性。对于内容创作者和普通用户而言，一旦这类模型的推理成本进一步下降，可能会诞生出更轻量、低延迟的 AI 写作或对话工具。不过，当前阶段其生成能力还无法与 GPT-4 级别的大模型相比，更可能影响的是资源受限场景下的应用开发。

值得关注的后续

1. 模型开源与否：论文已公布，但何恺明团队或 MIT 实验室是否会开放 ELF 的预训练权重或 API 接口，将直接影响开发者社区能否基于此进行微调或应用开发；2. 大模型竞争格局：ELF 仅有 105M 参数，未来是否会有更大规模的版本（如 7B、13B 级别）出现，以及能否维持当前的数据效率优势，是判断该路线能否冲击主流自回归模型的关键；3. 下游任务验证：目前该模型在机器翻译（WMT14）和文本摘要（XSum）上已超过一些扩散模型和自回归基线，未来需要更多零样本或少样本实验来检验其通用能力。

来源：量子位 · 每日最新

何恺明首个语言模型：105M参数，不走GPT自回归老路