
KVarN:华为开发的用于键值缓存量化的原生大规模语言模型后端
一句话看懂:华为团队开源了 KV 缓存量化后端 KVarN,能在不牺牲精度和吞吐量的前提下,将 KV 缓存容量提升 3-5 倍,同时支持更长的上下文和更大并发。它直接作为 vLLM 的原生后端插件运行,无需模型修改或校准。
事件核心:发生了什么
华为中央软件研究院团队在 GitHub 上开源了 KVarN(Variance-Normalized KV-Cache),这是一个用于大语言模型推理的 KV 缓存量化后端。它直接集成在 vLLM(v0.22.0)中,用户只需添加一个标志(--kv-cache-dtype kvarn_k4v2_g128)即可启用,无需修改模型或额外校准。根据官方数据,KVarN 在 Qwen3-32B 模型(AIME25 基准,16K 上下文突发,TP=2)上实现了与 FP16 相同的精度,同时吞吐量超过 FP16,并将 KV 缓存容量提升约 4 倍。目前发布的默认配置为键 4 位、值 2 位(kvarn_k4v2_g128),这是为了平衡最高精度与高于 FP16 的吞吐量。目前公开信息显示,KVarN 使用 Triton 内核进行 JIT 编译,运行在 float16 计算精度下,图块大小固定为 128。
为什么重要
大模型推理中,KV 缓存占用的显存是限制长上下文和高并发的关键瓶颈。以往量化方案(如 vLLM 的 TurboQuant)虽然能提升缓存容量(2.3-3.7 倍),但通常会牺牲 40-52% 的吞吐量,且低位宽量化常导致精度下降。KVarN 通过 Hadamard 旋转、迭代方差归一化和非对称逐近取整等步骤,在保持 FP16 级精度的同时实现了吞吐不低于甚至超过 FP16 的性能。这意味着它在“精度-吞吐量-容量”三角中同时优化了三者,而非传统方案那样做取舍。对生产部署而言,这大幅降低了 KV 缓存量化的启用门槛。该技术来自华为团队的论文《KVarN: Variance-Normalized KV-Cache Quantization Mitigates Error Accumulation in Reasoning Tasks》(arXiv:2606.03458),目前为 Apache 2.0 许可开源。
对用户/开发者/创作者的影响
对 LLM 推理服务部署者:KVarN 能让单卡支持更长的上下文窗口(例如从 8K 到 32K+),或在相同显存下服务更多并发请求,直接降低推理成本。安装方式与 vLLM 相同,使用成本低。对模型开发者:无需修改模型架构或进行后训练校准即可获得量化收益,降低了迭代成本。对高级用户:目前支持的图块大小固定为 128,其他尺寸正在开发中。在显存紧张的单 GPU 场景中,可能需要设置环境变量 VLLM_MEMORY_PROFILER_ESTIMATE_CUDAGRAPHS=0 或提高 --gpu-memory-utilization 以恢复完整缓存容量。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
1. 华为团队是否会发布更多位宽配置(如更低位的键值或非对称组合)以进一步挤压显存上限。2. 社区能否通过 PR 将 KVarN 集成到 vLLM 主线(目前为独立的 fork),这会决定其生态覆盖范围。3. 其他推理框架(如 TensorRT-LLM、llama.cpp)是否会借鉴其方差归一化思路,引发 KV 缓存量化方案的重新比较。
来源:github.com


