Misc. bug: –no-context-shift OR –context-shift ?

快速结论：该问题发生在 llama.cpp 的 llama-server 或 llama-cli 中，当上下文长度超过模型限制时，即使不添加 --no-context-shift 参数（默认应启用 context shift），用户仍然会看到 “context shift is disabled” 错误。优先排查：ctx_shift 功能在代码中并未完全实现，默认行为可能无法按预期工作，需检查 common/common.cpp 中 ctx_shift 的设置逻辑。

问题场景

用户在 Windows 上运行 llama-server.exe 或 llama-cli.exe（版本 4735，基于 commit 73e2ed3c），使用 -c 40960 设置上下文大小，未添加 --no-context-shift 参数（因此期望 context shift 默认启用），但当输入长度超过模型允许的上下文长度时，系统报错 “context shift is disabled”。

报错原文

context shift is disabled

原因分析

可能原因：ctx_shift 功能在 llama.cpp 中虽作为参数定义（如 --no-context-shift 对应 params.ctx_shift），但在代码中并未完全实现或调用。根据 Issue 中的代码搜索，ctx_shift 仅被引用在少数示例和测试文件中，未与主生成管线（如 KV 缓存管理）正确挂钩。此外，common/common.cpp 中包含以下代码，可能导致 ctx_shift 被意外禁用：

if (params.ctx_shift && !llama_kv_cache_can_shift(lctx)) {
    params.ctx_shift = false;
}

如果 llama_kv_cache_can_shift 返回 false（例如由于后端不支持），则 ctx_shift 会被强制设为 false，即使参数中未指定 --no-context-shift。这解释了为何用户在不添加此参数时仍看到 “disabled” 错误。

环境排查

工具版本：确认 llama-cli 或 llama-server 的版本（如 4735）。
后端支持：检查使用的后端（如 CPU、CUDA、Metal）是否支持 KV cache shift 功能；已知某些后端可能不支持。
编译选项：确认编译时是否启用了相关功能（如 GGML_KQ_CACHE_SHIFT 或其他宏）。
运行时日志：使用 -v（verbose）模式运行，查看是否有 ctx_shift 被禁用的调试信息。

解决步骤

启用 verbose 日志：在命令行中添加 -v 参数，查看 ctx_shift 是否正确启用。例如：

llama-server.exe -m {path/to/modelfile} --no-mmap -c 40960 -ctk q4_0 -np 8 -ngl 0 --temp 0.6 -t 8 -tb 8 -C FF000 --no-perf --host 0.0.0.0 --port 3000 -v

检查 common/common.cpp 的上下文移位逻辑：
编辑 common/common.cpp，查找以下代码块：
```
if (params.ctx_shift && !llama_kv_cache_can_shift(lctx)) {
    params.ctx_shift = false;
}
```
如果 llama_kv_cache_can_shift(lctx) 返回 false，则 ctx_shift 会被禁用。这可能是因为后端不支持；尝试更改为强制启用（需谨慎，可能导致未定义行为）。
强制启用 ctx_shift（可优先尝试）：
在 tools/main/main.cpp 或 tools/server/server.cpp 中，在相关初始化代码后添加：
```
params.ctx_shift = true;
```
注意：此修改可能绕过后端兼容性检查，仅作为临时测试方案。
检查上下文长度设置：确保 -c 参数设置的值不超过模型支持的最大上下文长度（如 LLaMA 模型通常为 2048 或 4096）；如果设置过高，可能导致 ctx_shift 失效。
更新到最新版本：该 Issue 于 2025-05-05 关闭（标记为 stale），但未提供修复提交。检查更新版本的 llama.cpp 是否已解决此问题。

验证方法

运行一个长序列生成测试（例如输入超过上下文长度 80% 的文本），观察是否还能看到 “context shift is disabled” 错误。如果错误消失，且生成过程能正常进行上下文移位，则表明问题已解决。

参考来源

ggml-org/llama.cpp #12038

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

Misc. bug: –no-context-shift OR –context-shift ?