![[Local LLM] lama.cpp 目前有重大性能 bug: checkpoint 的巡回逻辑对于混合模型(比如 qwen3.6-27B)无效,从而导致大概率每次对话都要 prefill 全文,严重拖慢速度](https://www.chat-gpts.plus/wp-content/uploads/2026/06/ai_cover_2-452.jpg)
一句话看懂:开源推理引擎 llama.cpp 被曝出一个严重性能 Bug——其缓存恢复逻辑对 Qwen3.6-27B 这类混合架构模型失效,导致每次请求都需要重新处理完整对话历史,实测在 50K 上下文长度下每次请求会额外浪费约 40 秒,目前该问题仍未修复。
事件核心:发生了什么
根据 V2EX 社区开发者反馈和 GitHub Issues 追踪,llama.cpp 在处理混合模型(同时包含 Transformer 和 DeltaNet/Mamba 等循环结构)时,检查点(checkpoint)的缓存恢复机制存在逻辑缺陷。具体来说,当用户向同一对话发送连续请求(n>1)时,引擎大概率无法正确识别并复用已有上下文缓存,不得不从头开始对整个对话历史执行预填充(prefill)计算。这一问题在 5 月份因另一项提交(Commit e98cb51)引入的新检查点逻辑而进一步恶化。实测数据显示,在 NVIDIA RTX PRO 6000 Blackwell 显卡上运行 Qwen3.6-27B Q8 量化版本、上下文长度达到 50K 时,每次请求都会无谓消耗约 40 秒进行重复计算。
为什么重要
此次 Bug 对 llama.cpp 项目影响深远。llama.cpp 是目前最广泛使用的本地大模型推理引擎之一,尤其受开源社区和独立开发者青睐。混合架构模型(如 Qwen 系列、Mamba 系模型)正逐渐成为平衡效率与效果的主流方向。如果缓存复用这一基础性能模块存在结构性缺陷,将直接削弱 llama.cpp 在长对话、多轮交互场景中的实用性,并拖累整个本地 LLM 生态的体验。更重要的是,该 Issue 目前仍为开放状态,修复时间不明,对依赖此引擎的各类应用造成不确定性。
对用户/开发者/创作者的影响
对于普通用户,这意味着在使用基于 llama.cpp 的本地聊天工具时,长对话的响应速度会显著低于预期,每轮交互都可能经历漫长的等待,从而影响使用体验。对于开发者,尤其是那些基于 llma.cpp 构建 API 服务或集成应用的团队,该 Bug 会大幅增加推理延迟与算力消耗,导致更差的延迟指标和更高的硬件成本。对于有大量上下文需求的创作者(如进行长文档分析、角色扮演对话的本地用户),此问题会让对话几乎无法正常进行,因为每次请求都会重头计算整个上下文,实际效率远低于理论值。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
一是 GitHub Issues 的修复进展:llama.cpp 团队是否短期内给出补丁,以及修复是否彻底解决混合模型的缓存失效问题。二是其他推理后端(如 Ollama、LM Studio)是否也受影响:它们通常内嵌 llma.cpp,但可能采用不同的缓存策略来规避此问题。三是混合架构模型在开源生态的推广:如果基础推理引擎持续存在性能短板,社区可能会暂时减少对这类模型的采用,直到可靠修复出现。


