大模型自信且短视！Next-ToBE 破除 Next Token 预测诅咒

大模型自信且短视！Next-ToBE 破除 Next Token 预测诅咒 | ICLR’26

一句话看懂：华东师范大学与复旦大学团队在 ICLR 2026 上发表新工作，提出 Next-ToBE 训练方法，试图解决大模型因只预测下一个 token 而导致的“短视”问题，让模型在推理时兼顾未来 token 分布，已在数学、代码、常识等 35/36 组实验中取得最优结果。

事件核心：发生了什么

主流大模型均采用 Next-Token Prediction（NTP）训练目标：每一步只预测下一个 token。这种范式高效、可扩展，但本质上短视，导致模型在数学推理、多步代码生成等长程一致性任务中表现不佳。华东师大与复旦团队发现，大模型当前输出的概率分布其实已隐含对未来若干 token 的预判，这种“前瞻能力”可量化且与生成质量正相关，但被传统 NTP 的 one-hot 目标分布压制——它将全部概率集中于一个 token，抑制了其他路径。

团队提出的 Next-ToBE 不改变模型结构，只在训练目标上做调整：保留“预测下一个 token”主项的同时，引入一个覆盖未来窗口的软目标分布，让模型在为当前 token 分配概率时也关照未来几步的内容。这种目标分布的权重由模型自身的前瞻偏好（α）和 token 间时间-语义关系（β）共同决定。与 Multi-Token Prediction（MTP）增加多个预测头不同，Next-ToBE 推理时仍为标准单步自回归，训练开销更低。

为什么重要

这一工作直接挑战了 NTP 在 LLM 训练中的“默认地位”。它的核心洞见是：问题不在于大模型没有长远思考的能力（实验证明模型内部预测已覆盖未来 token），而在于训练目标不允许它表达出来。Next-ToBE 用轻量级目标改造，以当前预测置信度的小幅下降（文中从 0.87 降到 0.81）换来了推理准确率的整体提升，揭示了“适度不确定性”有利于长程推理的规律。如果此方法能成为可复用的训练增强策略，可能影响未来大模型的微调、预训练流程，尤其是需要多步推理的行业——如代码生成、科学计算、金融建模。

对用户/开发者/创作者的影响

• 对 AI 应用开发者： 该方法的直接价值在于提升模型在多步任务中的可靠性。如果你在调用 API 做数学推理、自动代码生成、多轮逻辑对话，使用以类似目标微调过的模型，可能得到更稳定、偏离更少的长输出。由于 Next-ToBE 不改变推理结构，现有 API 部署无需改动推理 pipeline，微调后的模型可直接替换。

• 对大模型研究人员： 这是一个低成本、高收益的训练目标改良思路——不需要增加参数量或推理时多步预测，只改 loss 函数。36 组对比实验中有 35 组最优，且对预训练场景有效，说明前瞻能力可以主动“塑造”，而非模型规模化后偶然出现。

• 对企业采购方： 选择在数学/代码场景下明确使用类似优化策略的大模型，可能减少 prompt 工程成本和对手动后验检查的依赖。

值得关注的后续

1. 能否在大规模商用模型上落地：当前实验基于 Qwen2.5-Math-1.5B/7B 和 Llama3.1-8B，公开说法尚未提及在更大尺寸（如 70B+）或闭源旗舰模型上的测试结果，需观察通用性表现。

2. 与推理时增强方法的兼容性：Next-ToBE 改善的是训练目标，能否与 Chain-of-Thought、树搜索等推理策略叠加产生更大增益，尚未验证。

3. 是否被主流模型厂商采纳：NTP 是当前从 GPT 到 LLaMA 全线模型的基础训练范式，要替换或增强它需要大量重复实验和工程信任。若开源社区中复现稳定并出现在 Hugging Face 的权重发布中，将是落地信号。

来源：Readhub · AI

大模型自信且短视！Next-ToBE 破除 Next Token 预测诅咒 | ICLR’26