KVarN：华为开发的用于键值缓存量化的原生大规模语言模型后端

一句话看懂：华为团队开源了 KV 缓存量化后端 KVarN，能在不牺牲精度和吞吐量的前提下，将 KV 缓存容量提升 3-5 倍，同时支持更长的上下文和更大并发。它直接作为 vLLM 的原生后端插件运行，无需模型修改或校准。

事件核心：发生了什么

华为中央软件研究院团队在 GitHub 上开源了 KVarN（Variance-Normalized KV-Cache），这是一个用于大语言模型推理的 KV 缓存量化后端。它直接集成在 vLLM（v0.22.0）中，用户只需添加一个标志（--kv-cache-dtype kvarn_k4v2_g128）即可启用，无需修改模型或额外校准。根据官方数据，KVarN 在 Qwen3-32B 模型（AIME25 基准，16K 上下文突发，TP=2）上实现了与 FP16 相同的精度，同时吞吐量超过 FP16，并将 KV 缓存容量提升约 4 倍。目前发布的默认配置为键 4 位、值 2 位（kvarn_k4v2_g128），这是为了平衡最高精度与高于 FP16 的吞吐量。目前公开信息显示，KVarN 使用 Triton 内核进行 JIT 编译，运行在 float16 计算精度下，图块大小固定为 128。

为什么重要

大模型推理中，KV 缓存占用的显存是限制长上下文和高并发的关键瓶颈。以往量化方案（如 vLLM 的 TurboQuant）虽然能提升缓存容量（2.3-3.7 倍），但通常会牺牲 40-52% 的吞吐量，且低位宽量化常导致精度下降。KVarN 通过 Hadamard 旋转、迭代方差归一化和非对称逐近取整等步骤，在保持 FP16 级精度的同时实现了吞吐不低于甚至超过 FP16 的性能。这意味着它在“精度-吞吐量-容量”三角中同时优化了三者，而非传统方案那样做取舍。对生产部署而言，这大幅降低了 KV 缓存量化的启用门槛。该技术来自华为团队的论文《KVarN: Variance-Normalized KV-Cache Quantization Mitigates Error Accumulation in Reasoning Tasks》（arXiv:2606.03458），目前为 Apache 2.0 许可开源。

对用户/开发者/创作者的影响

对 LLM 推理服务部署者：KVarN 能让单卡支持更长的上下文窗口（例如从 8K 到 32K+），或在相同显存下服务更多并发请求，直接降低推理成本。安装方式与 vLLM 相同，使用成本低。对模型开发者：无需修改模型架构或进行后训练校准即可获得量化收益，降低了迭代成本。对高级用户：目前支持的图块大小固定为 128，其他尺寸正在开发中。在显存紧张的单 GPU 场景中，可能需要设置环境变量 VLLM_MEMORY_PROFILER_ESTIMATE_CUDAGRAPHS=0 或提高 --gpu-memory-utilization 以恢复完整缓存容量。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

1. 华为团队是否会发布更多位宽配置（如更低位的键值或非对称组合）以进一步挤压显存上限。2. 社区能否通过 PR 将 KVarN 集成到 vLLM 主线（目前为独立的 fork），这会决定其生态覆盖范围。3. 其他推理框架（如 TensorRT-LLM、llama.cpp）是否会借鉴其方差归一化思路，引发 KV 缓存量化方案的重新比较。

来源：github.com

KVarN：华为开发的用于键值缓存量化的原生大规模语言模型后端