[Local LLM] lama.cpp 目前有重大性能 bug: checkpoint 的巡回逻辑对于混合模型(比如 qwen3.6-27B)无效,从而导致大概率每次对话都要 prefill 全文,严重拖慢速度

开源推理引擎 llama.cpp 被曝出一个严重性能 Bug——其缓存恢复逻辑对 Qwen3.6-27B 这类混合架构模型失效,导致每次请求都需要重新处理完整对话历史,实测在 50K 上下文长度下每次请求会额外浪费约 40 秒,目前该问题仍未修复。

[Local LLM] lama.cpp 目前有重大性能 bug: checkpoint 的巡回逻辑对于混合模型(比如 qwen3.6-27B)无效,从而导致大概率每次对话都要 prefill 全文,严重拖慢速度

一句话看懂:开源推理引擎 llama.cpp 被曝出一个严重性能 Bug——其缓存恢复逻辑对 Qwen3.6-27B 这类混合架构模型失效,导致每次请求都需要重新处理完整对话历史,实测在 50K 上下文长度下每次请求会额外浪费约 40 秒,目前该问题仍未修复。

事件核心:发生了什么

根据 V2EX 社区开发者反馈和 GitHub Issues 追踪,llama.cpp 在处理混合模型(同时包含 Transformer 和 DeltaNet/Mamba 等循环结构)时,检查点(checkpoint)的缓存恢复机制存在逻辑缺陷。具体来说,当用户向同一对话发送连续请求(n>1)时,引擎大概率无法正确识别并复用已有上下文缓存,不得不从头开始对整个对话历史执行预填充(prefill)计算。这一问题在 5 月份因另一项提交(Commit e98cb51)引入的新检查点逻辑而进一步恶化。实测数据显示,在 NVIDIA RTX PRO 6000 Blackwell 显卡上运行 Qwen3.6-27B Q8 量化版本、上下文长度达到 50K 时,每次请求都会无谓消耗约 40 秒进行重复计算。

为什么重要

此次 Bug 对 llama.cpp 项目影响深远。llama.cpp 是目前最广泛使用的本地大模型推理引擎之一,尤其受开源社区和独立开发者青睐。混合架构模型(如 Qwen 系列、Mamba 系模型)正逐渐成为平衡效率与效果的主流方向。如果缓存复用这一基础性能模块存在结构性缺陷,将直接削弱 llama.cpp 在长对话、多轮交互场景中的实用性,并拖累整个本地 LLM 生态的体验。更重要的是,该 Issue 目前仍为开放状态,修复时间不明,对依赖此引擎的各类应用造成不确定性。

对用户/开发者/创作者的影响

对于普通用户,这意味着在使用基于 llama.cpp 的本地聊天工具时,长对话的响应速度会显著低于预期,每轮交互都可能经历漫长的等待,从而影响使用体验。对于开发者,尤其是那些基于 llma.cpp 构建 API 服务或集成应用的团队,该 Bug 会大幅增加推理延迟与算力消耗,导致更差的延迟指标和更高的硬件成本。对于有大量上下文需求的创作者(如进行长文档分析、角色扮演对话的本地用户),此问题会让对话几乎无法正常进行,因为每次请求都会重头计算整个上下文,实际效率远低于理论值。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

一是 GitHub Issues 的修复进展:llama.cpp 团队是否短期内给出补丁,以及修复是否彻底解决混合模型的缓存失效问题。二是其他推理后端(如 Ollama、LM Studio)是否也受影响:它们通常内嵌 llma.cpp,但可能采用不同的缓存策略来规避此问题。三是混合架构模型在开源生态的推广:如果基础推理引擎持续存在性能短板,社区可能会暂时减少对这类模型的采用,直到可靠修复出现。

来源:V2EX (创意工作者社区)

celebrityanime
celebrityanime
文章: 7051

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注