
变形金刚需要三个投影吗? QKV 变体的系统研究
一句话看懂:来自 ICML 2026 的一项系统研究表明:Transformer 里的 QKV(查询、键、值)三个投影矩阵并非缺一不可。将 K 和 V 的投影共享(Q‑K=V)后,模型在语言任务上仅有 3.1% 的困惑度损失,却能削减 50% 的 KV 缓存;若与 GQA‑4 或 MQA 组合,缓存压缩比最高达 96.9%,这为将大模型部署到终端设备提供了一条清晰的优化路径。
事件核心:发生了什么
该研究由 Ali Kayyam 等人完成,被 ICML 2026 接收。研究者 systematically 评估了三种投影共享策略:Q‑K=V(共享键值投影)、Q=K‑V(共享查询‑键投影)以及 Q=K=V(单一投影)。实验覆盖从合成任务、计算机视觉(MNIST、CIFAR、TinyImageNet)到 1.2B 参数规模的语言模型(在 10B tokens 上训练)。结果明确显示:Q‑K=V 的共享方式在语言建模中几乎不牺牲质量,而 Q=K‑V 因破坏了注意力的方向性而效果变差。关键在于,这种投影共享与已有的 GQA/MQA 头共享正交兼容:Q‑K=V 加上 GQA‑4 可将 KV 缓存减少 87.5%,加上 MQA 则达到 96.9%。代码已开源。
为什么重要
对 AI 行业而言,这项发现直接挑战了自 Attention Is All You Need 以来“Q/K/V 三者缺一不可”的默认设计。在此之前,业界主要通过分组查询注意力(GQA)和多查询注意力(MQA)降低推理时的内存压力,但从未系统地质疑过投影矩阵本身的冗余性。本工作说明:在注意力机制呈现低秩行为的条件下,K 和 V 的表示空间可以共用同一个投影,这为在边缘设备(手机、IoT)上运行大语言模型提供了新的节省方向——不仅减小缓存,还减少了参数数量和访存带宽,且无需改变训练架构。
对用户/开发者/创作者的影响
对开发者而言,Q‑K=V 的改动极其轻量:只需在现有 Transformer 代码中将 Key 和 Value 的线性层权重绑定即可,与 GQA/MQA 没有冲突。这意味着个人开发者和创业团队可以更高效地将开源大模型部署到本地设备、浏览器甚至嵌入式硬件。对普通使用大模型 API 的用户来说,这一技术若被模型服务商采纳(如 Meta、Google 或云端推理平台),有望降低推理阶段的单位成本,进而让生成式 AI 产品的定价更亲民。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
首先,该论文的结论是否在更大规模(如 10B+ 参数)模型上持续成立,目前尚未验证,值得追踪后续重复实验。其次,主流推理框架(如 vLLM、TensorRT‑LLM)是否会加入对 Q‑K=V 的原生支持,将直接影响开发者采纳的易用性。最后,这一发现是否会在即将发布的 Llama 或 GPT 系列中得到应用,将很大程度上决定“三个投影”的传统设计是否被业界普遍放弃。


