
大模型自信且短视!Next-ToBE 破除 Next Token 预测诅咒 | ICLR’26
一句话看懂:华东师范大学与复旦大学团队在 ICLR 2026 上发表新工作,提出 Next-ToBE 训练方法,试图解决大模型因只预测下一个 token 而导致的“短视”问题,让模型在推理时兼顾未来 token 分布,已在数学、代码、常识等 35/36 组实验中取得最优结果。
事件核心:发生了什么
主流大模型均采用 Next-Token Prediction(NTP)训练目标:每一步只预测下一个 token。这种范式高效、可扩展,但本质上短视,导致模型在数学推理、多步代码生成等长程一致性任务中表现不佳。华东师大与复旦团队发现,大模型当前输出的概率分布其实已隐含对未来若干 token 的预判,这种“前瞻能力”可量化且与生成质量正相关,但被传统 NTP 的 one-hot 目标分布压制——它将全部概率集中于一个 token,抑制了其他路径。
团队提出的 Next-ToBE 不改变模型结构,只在训练目标上做调整:保留“预测下一个 token”主项的同时,引入一个覆盖未来窗口的软目标分布,让模型在为当前 token 分配概率时也关照未来几步的内容。这种目标分布的权重由模型自身的前瞻偏好(α)和 token 间时间-语义关系(β)共同决定。与 Multi-Token Prediction(MTP)增加多个预测头不同,Next-ToBE 推理时仍为标准单步自回归,训练开销更低。
为什么重要
这一工作直接挑战了 NTP 在 LLM 训练中的“默认地位”。它的核心洞见是:问题不在于大模型没有长远思考的能力(实验证明模型内部预测已覆盖未来 token),而在于训练目标不允许它表达出来。Next-ToBE 用轻量级目标改造,以当前预测置信度的小幅下降(文中从 0.87 降到 0.81)换来了推理准确率的整体提升,揭示了“适度不确定性”有利于长程推理的规律。如果此方法能成为可复用的训练增强策略,可能影响未来大模型的微调、预训练流程,尤其是需要多步推理的行业——如代码生成、科学计算、金融建模。
对用户/开发者/创作者的影响
• 对 AI 应用开发者: 该方法的直接价值在于提升模型在多步任务中的可靠性。如果你在调用 API 做数学推理、自动代码生成、多轮逻辑对话,使用以类似目标微调过的模型,可能得到更稳定、偏离更少的长输出。由于 Next-ToBE 不改变推理结构,现有 API 部署无需改动推理 pipeline,微调后的模型可直接替换。
• 对大模型研究人员: 这是一个低成本、高收益的训练目标改良思路——不需要增加参数量或推理时多步预测,只改 loss 函数。36 组对比实验中有 35 组最优,且对预训练场景有效,说明前瞻能力可以主动“塑造”,而非模型规模化后偶然出现。
• 对企业采购方: 选择在数学/代码场景下明确使用类似优化策略的大模型,可能减少 prompt 工程成本和对手动后验检查的依赖。
值得关注的后续
1. 能否在大规模商用模型上落地:当前实验基于 Qwen2.5-Math-1.5B/7B 和 Llama3.1-8B,公开说法尚未提及在更大尺寸(如 70B+)或闭源旗舰模型上的测试结果,需观察通用性表现。
2. 与推理时增强方法的兼容性:Next-ToBE 改善的是训练目标,能否与 Chain-of-Thought、树搜索等推理策略叠加产生更大增益,尚未验证。
3. 是否被主流模型厂商采纳:NTP 是当前从 GPT 到 LLaMA 全线模型的基础训练范式,要替换或增强它需要大量重复实验和工程信任。若开源社区中复现稳定并出现在 Hugging Face 的权重发布中,将是落地信号。
来源:Readhub · AI


