
token 级,精准控制生成长度:3B 模型击败 GPT 5.4、Claude
一句话看懂:来自 UC Santa Barbara 和 Apple 的研究团队提出 LenVM,将 AI 模型对生成长度的控制从“序列级”推进到“token 级”。一个 3B 参数的开源模型在精确长度控制任务上击败了 GPT-5.4、Claude-Opus-4-6 等顶级闭源模型,且核心训练方法具备与语言模型预训练相同的可扩展性。
事件核心:发生了什么
研究团队提出 Length Value Model(LenVM),核心思路是将生成长度视为一种“成本”,并为每个生成的 token 分配固定负奖励,通过强化学习中的值函数进行建模。这意味着模型在每一个解码步都能实时感知“还剩多远”,而非仅在序列结束时施加惩罚。
实验结果显示:在 LIFEBench 基准上,Qwen2.5-3B 搭配 LenVM(1.5B)后,长度得分从 25.6 跃升至 62.6,大幅超越 GPT-5.4(37.4)、Claude-Opus-4-6(35.5)和 Gemini-3.1-Pro(49.3)。在 GSM8K 上,使用 LenVM 引导解码,在仅 200 token 预算下的 Pass@1 达到 63%,而硬截断基线仅为 6%。论文和代码均已开源。
为什么重要
现有的长度控制方法——如 sequence-level 惩罚、prompt 指令或预解码长度预测——均未在 token 级别建模,本质上是“祈求”模型遵守。LenVM 打破了这一天花板,将控制粒度从序列级压缩到 token 级。更重要的是,其训练信号完全由采样过程自动生成,无需人工标注,且沿模型规模、数据量、采样数三个维度呈现无饱和的 scaling 效果。这意味着投入更多算力和数据,长度建模能力即可持续提升,这与大语言模型预训练的逻辑高度一致。对于依赖长链推理和智能体工作流的应用场景,这直接关系到推理成本与质量之间的精细权衡。
对用户/开发者/创作者的影响
对开发者而言,LenVM 提供了一个开源、可集成的长度控制组件。它可以插拔式地与现有基础模型搭配使用,无需修改模型结构,即可实现三类应用:精确控制生成长度(等于、至多、至少)、通过指数倾斜在性能与效率间连续调节,以及在解码前预测总生成长度(用于批处理调度和缓存预分配)。对于依赖 API 的创作者或企业,这意味着一部分极需控制成本的长文本生成任务,不再只能依赖闭源模型的高价调用。例如,在 GSM8K 上同 token 预算下准确率提升 10 倍,直接降低了推理算力消耗。
值得关注的后续
1. 产品落地速度:LenVM 目前已开源模型权重和推理代码,能否被主流推理框架(如 vLLM、TensorRT-LLM)集成,将决定它的实际可用性。2. 闭源模型竞争:GPT-5.4、Claude-Opus-4-6 等闭源模型在长度控制上被 3B 开源模型击败,这可能推动闭源厂商在推理阶段加入类似的 token 级信号机制。3. RL 训练应用:论文提到 LenVM 可作为 PPO 等强化学习训练的“价值基线”或“势函数”,这可能是未来更易扩展的 RL 训练路线的起点,值得关注后续是否有相关研究或开源项目跟进。
来源:Readhub · AI


