[Local LLM] lama.cpp 目前有重大性能 bug： checkpoint 的巡回逻辑对于混合模型（比如 qwen3.6-27B）无效，从而导致大概率每次对话都要 prefill 全文，严重拖慢速度

一句话看懂：开源推理引擎 llama.cpp 被曝出一个严重性能 Bug——其缓存恢复逻辑对 Qwen3.6-27B 这类混合架构模型失效，导致每次请求都需要重新处理完整对话历史，实测在 50K 上下文长度下每次请求会额外浪费约 40 秒，目前该问题仍未修复。

事件核心：发生了什么

根据 V2EX 社区开发者反馈和 GitHub Issues 追踪，llama.cpp 在处理混合模型（同时包含 Transformer 和 DeltaNet/Mamba 等循环结构）时，检查点（checkpoint）的缓存恢复机制存在逻辑缺陷。具体来说，当用户向同一对话发送连续请求（n>1）时，引擎大概率无法正确识别并复用已有上下文缓存，不得不从头开始对整个对话历史执行预填充（prefill）计算。这一问题在 5 月份因另一项提交（Commit e98cb51）引入的新检查点逻辑而进一步恶化。实测数据显示，在 NVIDIA RTX PRO 6000 Blackwell 显卡上运行 Qwen3.6-27B Q8 量化版本、上下文长度达到 50K 时，每次请求都会无谓消耗约 40 秒进行重复计算。

为什么重要

此次 Bug 对 llama.cpp 项目影响深远。llama.cpp 是目前最广泛使用的本地大模型推理引擎之一，尤其受开源社区和独立开发者青睐。混合架构模型（如 Qwen 系列、Mamba 系模型）正逐渐成为平衡效率与效果的主流方向。如果缓存复用这一基础性能模块存在结构性缺陷，将直接削弱 llama.cpp 在长对话、多轮交互场景中的实用性，并拖累整个本地 LLM 生态的体验。更重要的是，该 Issue 目前仍为开放状态，修复时间不明，对依赖此引擎的各类应用造成不确定性。

对用户/开发者/创作者的影响

对于普通用户，这意味着在使用基于 llama.cpp 的本地聊天工具时，长对话的响应速度会显著低于预期，每轮交互都可能经历漫长的等待，从而影响使用体验。对于开发者，尤其是那些基于 llma.cpp 构建 API 服务或集成应用的团队，该 Bug 会大幅增加推理延迟与算力消耗，导致更差的延迟指标和更高的硬件成本。对于有大量上下文需求的创作者（如进行长文档分析、角色扮演对话的本地用户），此问题会让对话几乎无法正常进行，因为每次请求都会重头计算整个上下文，实际效率远低于理论值。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

一是 GitHub Issues 的修复进展：llama.cpp 团队是否短期内给出补丁，以及修复是否彻底解决混合模型的缓存失效问题。二是其他推理后端（如 Ollama、LM Studio）是否也受影响：它们通常内嵌 llma.cpp，但可能采用不同的缓存策略来规避此问题。三是混合架构模型在开源生态的推广：如果基础推理引擎持续存在性能短板，社区可能会暂时减少对这类模型的采用，直到可靠修复出现。

来源：V2EX (创意工作者社区)

[Local LLM] lama.cpp 目前有重大性能 bug： checkpoint 的巡回逻辑对于混合模型（比如 qwen3.6-27B）无效，从而导致大概率每次对话都要 prefill 全文，严重拖慢速度

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

SK海力士考虑引入ChatGPT等外部人工智能服务

小米发布了 MiMo Code V0.1.0，这是一款开源人工智能编码助手，据称在代理编码和软件工程基准测试中，其性能优于 Claude Code（Carl Franzen/VentureBeat）

苹果相机主管认为人工智能可以赋予你超能力

发表回复取消回复