KV Cache 终于不用无脑全留了！百度 & 复旦用「投资回报率」重新分配缓存｜ICML 2026

一句话看懂：百度百舸团队与复旦大学联合提出 LU-KV 框架，将 KV Cache（键值缓存）的预算分配建模为全局组合优化问题，在 80% 压缩率下仅造成 0.52% 的性能损失（基于 Qwen2.5-32B 在 LongBench 上的评测），相关工作已被 ICML 2026 接收。

事件核心：发生了什么

随着 AI Coding、Agent、Deep Research 等应用普及，模型单次处理上下文长度从几万 Token 迈向百万 Token 量级，KV Cache 的内存占用随序列长度线性增长，成为推理效率瓶颈。现有方案（如 SnapKV、KeyDiff、AdaKV）多基于“注意力分数高则更重要”的假设，容易将缓存预算分配给短期分数高但长期贡献有限的 Token。

百度百舸与复旦大学团队在论文《Predicting Future Utility: Global Combinatorial Optimization for Task-Agnostic KV Cache Eviction》中提出 LU-KV 框架，核心思路是用“投资回报率”思维重新分配缓存：通过定义 Oracle Importance 指标前瞻 K 步解码窗口，量化每个 Token 的长期语义贡献；再借助凸包松弛和全局贪心算法逼近最优预算分布。此外，团队发现不同注意力头的压缩比例在各类任务中具有结构稳定性，因此采用离线画像生成查找表，在线推理时只需 O(1) 查表即可完成分配，实现零开销部署。

为什么重要

KV Cache 压缩直接关系到长上下文场景下的推理吞吐和显存成本。LU-KV 将头级预算分配从前经验式的启发式方法提升为有理论保证的全局组合优化，在 80% 压缩率下性能下降极小（相对仅 0.52%），且不依赖特定底层打分方法，可即插即用于 SnapKV、KeyDiff 等主流指标。这意味着在不增加推理延迟的前提下，开发者可以大幅压缩 KV Cache，降低单次推理的显存占用，从而支持更大的批次大小或更长的上下文。这项技术对于需要处理大规模上下文的实时应用（如 AI 编程助手、多轮对话 Agent、长文档分析）具有直接的经济价值。

对用户/开发者/创作者的影响

对于使用大模型 API 或自部署模型的开发者，LU-KV 的工程落地只需更新/替换缓存管理模块，不改变模型权重或推理流程。查表机制意味着压缩逻辑不增加在线计算开销，适合生产环境部署。对于依赖长上下文处理的应用（如代码补全、知识库问答），更低的显存消耗可能带来更低的 API 调用成本或更高的并发能力。目前公开信息显示，该框架已在百度的内部场景中验证，但尚未披露具体的产品化时间表。