
Eval bug: Gemma4 + Eagle3 crashes llama-server with longer prompts
快速结论:当使用 Eagle3 投机解码(speculative decoding)且提示词较长(约 1500–2000+ tokens)时,llama-server 会静默退出,客户端收到 WinError 10054 或 10061。该问题已被确认为一个 bug,在 PR #24707 合并后修复。请优先升级到 b9686 或更高版本。
问题场景
用户使用如下配置运行 llama-server:
– llama.cpp 版本 9637 (aedb2a5e9)
– 基础模型:gemma-4-26B-A4B-it-UD-IQ3_S.gguf
– 草稿模型:gemma-4-26B-A4B-it-speculator.eagle3-Q8_0.gguf
– 上下文窗口:8192
– GPU:RTX 4060 Ti 16GB,CUDA 后端
问题在以下场景中可复现:
– 使用 llama-server API 或自定义 RAG 应用
– 流式和非流式模式
– 使用合成提示词(如重复的 “你好\n” 字符串)
– 正常 Gemma4 推理、Gemma4 + MTP 均无此问题
报错原文
The process terminates without any error message, assertion, or stack trace.
The client receives either:
WinError 10054 (connection reset by peer)
WinError 10061 (connection refused on subsequent requests)
because the server process has already exited.
日志末尾显示:
28.11.608.361 W slot update_slots: id 0 | task 155 | erased invalidated context checkpoint
28.11.700.918 I slot create_check: id 0 | task 155 | created context checkpoint 1 of 32
PS D:\AI\llama.cpp>
服务器在检查点创建后、提示词评估完成前静默退出。
原因分析
该问题被开发者报告并确认为一个 bug(非用户配置错误)。具体原因涉及 Eagle3 草稿模型在长提示词下的上下文处理逻辑缺陷。社区维护者在 PR #24707 中重现并修复了该 bug。
注意:低接受率(low acceptance rate)在长提示词下表现更明显,但这是由草稿模型质量本身问题引起的,与本次崩溃 bug 属于不同因素。
环境排查
- llama.cpp 版本:9637 (aedb2a5e9) 或更早(问题已在新版修复)
- 操作系统:Windows 11(及可能其他平台)
- GPU/驱动:RTX 4060 Ti 16GB,CUDA 后端(不限于此配置)
- 模型:Gemma4 + Eagle3 投机解码组合
- 提示词长度:约 1500–2000+ tokens 时触发
- 其他依赖:无特殊要求
解决步骤
- 升级 llama.cpp 到 b9686 或更高版本:PR #24707 已合并到主分支,从 b9686 开始包含该修复。
- 如果无法升级,可尝试以下临时方案(但属于规避,非修复):
- 避免使用 Eagle3 草稿模型处理长提示词
- 切换到 MTP(Multi-Token Prediction)模式,该模式无此问题
- 如果使用旧版本且必须使用 Eagle3,可尝试限制提示词长度(如低于 1500 tokens),但这不是可靠解决方案。
- 注意:提示词内容不影响问题复现,调整内容无法规避崩溃。
可优先尝试:使用 git pull 更新到最新 master 或直接下载 b9686 及以上版本二进制文件,重新运行测试。
验证方法
- 使用升级后的 llama-server 加载相同的 Gemma4 基础模型 + Eagle3 草稿模型
- 发送长度超过 2000 tokens 的提示词(可构造如 “你好\n” 重复若干次)
- 确认服务端进程未退出,客户端能正常接收完整响应,无 WinError 10054/10061 错误
- 对比旧版本,长提示词可成功完成推理而不再崩溃



![[Bug]: Broken Images (404 Not Found) in Discussion #557](https://www.chat-gpts.plus/wp-content/uploads/2026/06/4033-20608001-768x403.jpg)