token 级，精准控制生成长度：3B 模型击败 GPT 5.4、Claude

一句话看懂：来自 UC Santa Barbara 和 Apple 的研究团队提出 LenVM，将 AI 模型对生成长度的控制从“序列级”推进到“token 级”。一个 3B 参数的开源模型在精确长度控制任务上击败了 GPT-5.4、Claude-Opus-4-6 等顶级闭源模型，且核心训练方法具备与语言模型预训练相同的可扩展性。

事件核心：发生了什么

研究团队提出 Length Value Model（LenVM），核心思路是将生成长度视为一种“成本”，并为每个生成的 token 分配固定负奖励，通过强化学习中的值函数进行建模。这意味着模型在每一个解码步都能实时感知“还剩多远”，而非仅在序列结束时施加惩罚。

实验结果显示：在 LIFEBench 基准上，Qwen2.5-3B 搭配 LenVM（1.5B）后，长度得分从 25.6 跃升至 62.6，大幅超越 GPT-5.4（37.4）、Claude-Opus-4-6（35.5）和 Gemini-3.1-Pro（49.3）。在 GSM8K 上，使用 LenVM 引导解码，在仅 200 token 预算下的 Pass@1 达到 63%，而硬截断基线仅为 6%。论文和代码均已开源。

为什么重要

现有的长度控制方法——如 sequence-level 惩罚、prompt 指令或预解码长度预测——均未在 token 级别建模，本质上是“祈求”模型遵守。LenVM 打破了这一天花板，将控制粒度从序列级压缩到 token 级。更重要的是，其训练信号完全由采样过程自动生成，无需人工标注，且沿模型规模、数据量、采样数三个维度呈现无饱和的 scaling 效果。这意味着投入更多算力和数据，长度建模能力即可持续提升，这与大语言模型预训练的逻辑高度一致。对于依赖长链推理和智能体工作流的应用场景，这直接关系到推理成本与质量之间的精细权衡。

对用户/开发者/创作者的影响

对开发者而言，LenVM 提供了一个开源、可集成的长度控制组件。它可以插拔式地与现有基础模型搭配使用，无需修改模型结构，即可实现三类应用：精确控制生成长度（等于、至多、至少）、通过指数倾斜在性能与效率间连续调节，以及在解码前预测总生成长度（用于批处理调度和缓存预分配）。对于依赖 API 的创作者或企业，这意味着一部分极需控制成本的长文本生成任务，不再只能依赖闭源模型的高价调用。例如，在 GSM8K 上同 token 预算下准确率提升 10 倍，直接降低了推理算力消耗。

值得关注的后续

1. 产品落地速度：LenVM 目前已开源模型权重和推理代码，能否被主流推理框架（如 vLLM、TensorRT-LLM）集成，将决定它的实际可用性。2. 闭源模型竞争：GPT-5.4、Claude-Opus-4-6 等闭源模型在长度控制上被 3B 开源模型击败，这可能推动闭源厂商在推理阶段加入类似的 token 级信号机制。3. RL 训练应用：论文提到 LenVM 可作为 PPO 等强化学习训练的“价值基线”或“势函数”，这可能是未来更易扩展的 RL 训练路线的起点，值得关注后续是否有相关研究或开源项目跟进。

来源：Readhub · AI

token 级，精准控制生成长度：3B 模型击败 GPT 5.4、Claude