变形金刚需要三个投影吗？ QKV 变体的系统研究

一句话看懂：一篇关于简化 Transformer 注意力机制的研究论文，发现将 Key 和 Value 矩阵合并（K=V）在许多任务上性能几乎不降，而更具理论趣味的 Q=K-V 变体却未在推理基准上得到充分验证。

事件核心：发生了什么

一篇来自学术界的论文系统探索了 Transformer 中 Query、Key、Value（QKV）三个线性投影的关系是否必须独立。研究者测试了“K=V”、“Q=K=V”以及“Q=K-V”等多种约束方案，发现 K=V 在一个 1.2B 参数的模型上仅训练了 10B tokens（远低于 Chinchilla 最优计算的约 25B tokens），在部分任务上的表现与标准多头注意力接近。然而，社区注意到，10B tokens 训练量仅为现代先进 1B 规模模型常用训练量（约 10T tokens）的千分之一，属于“欠训练”状态。

为什么重要

这一研究挑战了“注意力机制天然需要三个独立投影空间”的假设。如果 K=V 或类似简化结构在充分训练后依然成立，将可能减少模型参数量、降低推理时的显存占用，尤其对长序列场景有利。但当前实验规模不足以支撑这一结论——注意力机制在学习初期“表达能力”较弱，简化方案在欠训练阶段表现好可能是“假象”。此外，论文未公布最受关注的 Q=K-V 变体在推理和数学推理基准上的结果，使得该方案的理论价值无法验证。

对用户/开发者/创作者的影响

对关注模型效率的开发者而言，这项研究提供了一个未来可能降低 Attention 计算成本的方向，但现阶段不宜直接采用。如果后续在更大算力、更长训练（如 1T 以上 tokens）上验证有效，模型微调、推理 API 的端侧部署或能获得 10%-20% 的速度提升。创作者在目前主流 LLM 产品中无需调整使用方式，但应留意大模型架构优化的演进节奏。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，原作者或社区是否会在此 1.2B 规模上延长训练至 1T tokens 以上，并公开完整推理基准结果。第二，Q=K-V 这种更具理论吸引力（Query 作为对 Value 的“预判”）的变体，能否在数学推理或代码生成任务上证明其有效性。第三，是否有主流开源项目（如 LLaMA、Mistral 系列）的团队尝试在更大规模上重复此实验，并开放训练日志或模型权重。

来源：hackernews

变形金刚需要三个投影吗？ QKV 变体的系统研究