500 Internal Server Error: llama-server startup failed before projector CPU offload retry: llama-server reported out-of-memory during startu

500 Internal Server Error: llama-server startup failed before projector CPU offload retry: llama-server reported out-of-memory during startup: ggml_backend_cpu_buffer_type_alloc_buffer: failed to allocate buffer of size 2390753280 alloc_tensor_range

快速结论：该报错通常出现在运行 Gemma 4:12b 等较大模型时，即使显存充足（如 RTX 3090 24GB），也可能因 OLLAMA_NUM_PARALLEL 设置过高导致 CPU 内存分配失败。优先将其设为 0 或移除该变量。

问题场景

用户使用 Ollama v0.30.11 在 Windows 系统上运行 ollama run gemma4:12b，硬件为 Intel i7-12700K CPU、32GB RAM、NVIDIA RTX 3090 24GB VRAM，并自定义了环境变量 OLLAMA_NUM_PARALLEL=10。结果触发 500 Internal Server Error，模型启动失败。

报错原文

Error: 500 Internal Server Error: llama-server startup failed before projector CPU offload retry: llama-server reported out-of-memory during startup: ggml_backend_cpu_buffer_type_alloc_buffer: failed to allocate buffer of size 2390753280
alloc_tensor_range: failed to allocate CPU buffer of size 2390753280
llama_init_from_model: failed to initialize the context: failed to allocate buffer for kv cache; error stopping failed process: TerminateProcess: Access is denied.

原因分析

该问题并非真正的显存不足（VRAM 剩余 22.8GiB），而是 CPU 端内存分配失败。可能原因包括：

OLLAMA_NUM_PARALLEL=10 导致 Ollama 为多个并行请求预分配 KV cache 缓冲区，消耗大量 CPU 系统内存。
Gemma4:12b 模型本身需要 2.39GB 的 CPU 缓冲区，但在高并行设置下可能因内存估算错误或碎片化而分配失败。
Issue 中没有明确证据表明是模型版本或驱动问题，但用户确认移除该变量后即可正常加载。

环境排查

Ollama 版本：v0.30.11
系统：Windows（Issue 中用户有管理员权限）
GPU：NVIDIA GeForce RTX 3090（24GB VRAM），CUDA 驱动版本 13.3，计算能力 8.6
CPU：Intel Core i7-12700K
内存：32 GiB
模型：gemma4:12b
自定义环境变量：OLLAMA_NUM_PARALLEL=10（可能同时设置了 OLLAMA_VULKAN=true，但 Issue 中未明确该变量是影响因素）

解决步骤

移除或降低 OLLAMA_NUM_PARALLEL：在 Ollama 的启动配置中将该变量设为 0 或直接删除。Issue 中用户通过设置 OLLAMA_NUM_PARALLEL=0 成功修复。
确认其他环境变量：如果你之前设置了 OLLAMA_CONTEXT_LENGTH、OLLAMA_GPU_OVERHEAD 等，建议先恢复为默认值（即不设置），再逐步添加。
检查系统可用内存：关闭其他占用大内存的应用（如浏览器、IDE），确保系统至少留有 8-12GiB 空闲内存。
可优先尝试：如果在 Windows 上仍遇到问题，确认 Ollama 运行在管理员权限下（如后台服务模式），避免因权限不足导致 TerminateProcess 报错。

验证方法

设置 OLLAMA_NUM_PARALLEL=0 后，重启 Ollama 服务并运行 ollama run gemma4:12b。如果模型正常启动且无 500 错误，说明问题已解决。可通过 ollama ps 或 nvidia-smi 确认模型已加载到 GPU（VRAM 占用约 10GiB）且无 CPU 内存分配报错。