500 Internal Server Error: llama-server process has terminated: exit status 1

快速结论：此报错在 Ollama 加载模型时出现，通常因 llama-server 进程崩溃引起。优先排查日志中是否有 Unsupported cache type 错误，并检查是否因 KV Cache 类型设置不当导致启动失败。

问题场景

用户在 Windows 11 系统上运行 Ollama（版本 0.30.5/0.30.7），加载 Qwen2.5 或 Gemma4 等模型时，Ollama 返回 500 Internal Server Error，且 llama-server 进程退出码为 1。复现方式包括全新安装后从命令行或 WebUI 启动模型。

报错原文

500 Internal Server Error: llama-server process has terminated: exit status 1

error while handling argument "--cache-type-k": Unsupported cache type: q4_k_m

usage:
-ctk,  --cache-type-k TYPE              KV cache data type for K
                                        allowed values: f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1
                                        (default: f16)
                                        (env: LLAMA_ARG_CACHE_TYPE_K)

原因分析

根据日志，当 llama-server 启动时传入了 --cache-type-k q4_k_m 和 --cache-type-v q4_k_m 参数，但本机编译的 llama-server 版本不支持 q4_k_m 缓存类型。支持的缓存类型列表为 f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1，其中不包含 q4_k_m，导致参数解析失败，进程退出。

这通常是因为用户或默认环境变量设置了 OLLAMA_KV_CACHE_TYPE=q4_k_m，但当前可执行文件仅支持一个更早或更严格的 KV Cache 类型集合。

环境排查

确认 Ollama 版本（建议更新至最新版，如 0.30.7 或更高）。
确认 Windows 11 版本和显卡驱动是否匹配 CUDA 版本。
检查系统环境变量中是否有 OLLAMA_KV_CACHE_TYPE 设置。
查看 llama-server 启动时实际传入的 --cache-type-k 参数值。
检查 llama-server.exe 所在路径的正确性（通常位于 C:\Users\%USERNAME%\AppData\Local\Programs\Ollama\lib\ollama\）。

解决步骤

查看完整日志：在 Ollama 日志中查找类似 error while handling argument "--cache-type-k": Unsupported cache type: q4_k_m 的条目。
检查环境变量：打开命令提示符，执行 echo %OLLAMA_KV_CACHE_TYPE%，查看是否设置有非支持的缓存类型。
重置环境变量（可优先尝试）：如果设置了 OLLAMA_KV_CACHE_TYPE=q4_k_m，则取消该环境变量（使用 set OLLAMA_KV_CACHE_TYPE=）或将其改为受支持的类型，如 set OLLAMA_KV_CACHE_TYPE=q4_0，然后重启 Ollama。
更新 Ollama：如果上述步骤不能解决，尝试下载并安装最新版本的 Ollama（目前 Issue 中提到的 0.30.7 仍有此问题，建议检查是否已发布修复版本）。
清理缓存并重新拉取模型：删除 %USERPROFILE%\.ollama\models\blobs 下对应模型的 blob 文件，然后重新 ollama pull 该模型。

验证方法

重新启动 Ollama，然后尝试加载之前报错的模型（如 ollama run qwen2.5:6b）。如果不再出现 500 Internal Server Error，并且模型正常加载和生成文本，则问题已解决。同时检查 Ollama 日志中不再有 Unsupported cache type 相关错误。