
RTX PRO 2000 Blackwell ×2,Windows,cuda_v13 list-devices 0xc0000005
快速结论:该报错发生在Windows Server(WDDM模式)下双RTX PRO 2000 Blackwell显卡运行≥7B大模型时,Ollama的CUDA GPU发现阶段因`llama-server –list-devices`返回`exit status 0xc0000005`(访问违规)而崩溃,随后静默降级至Vulkan后端,导致仅≤4B模型可用。优先排查:重启Windows系统,并设置环境变量`OLLAMA_VULKAN=0`禁用Vulkan回退。
问题场景
用户环境:Ollama 0.30.10,Windows Server(WDDM),2× NVIDIA RTX PRO 2000 Blackwell(约16 GB VRAM),驱动595.x(CUDA 13.2),系统RAM 128 GB。触发问题:
– gemma3:4b(4B以下)正常工作。
– gemma3:12b、gemma3:27b、gemma4:31b、qwen2.5vl:7b 等≥7B模型立即失败,返回HTTP 500。
– llama3.2-vision:11b 报错 `unknown model architecture: ‘mllama’`(此为另一独立问题,不影响主线排查)。
报错原文
time=2026-06-26T18:27:52.813+10:00 level=WARN source=runner.go:575 msg="llama-server GPU discovery watchdog timed out"
failure during llama-server GPU discovery ... cuda_v12 ...
error="llama-server --list-devices failed: exit status 0xc0000005"
failure during llama-server GPU discovery ... cuda_v13 ...
error="llama-server --list-devices failed: exit status 0xc0000005"
library=Vulkan ... NVIDIA RTX PRO 2000 Blackwell
...
srv llama_server: exiting due to model loading error
time=2026-06-26T18:23:56.474+10:00 level=INFO source=sched.go:651 msg="Load failed" model=... error="llama-server process has terminated: exit status 1: error loading model: unknown model architecture: 'mllama'"
[GIN] 2026/06/26 - 18:23:56 | 500 | 2.5936122s | 127.0.0.1 | POST "/api/generate"
原因分析
可能原因(Issue讨论中推测):
– 在双RTX PRO 2000 Blackwell + Windows Server(WDDM)环境下,重复运行大模型推理(gemma4:31b)后,CUDA/WDDM运行时状态出现损坏。`llama-server –list-devices`执行时访问违规(0xc0000005),导致GPU发现阶段崩溃。
– Ollama在CUDA发现失败后,静默降级到Vulkan后端,未给出明确警示或自动恢复路径。Vulkan后端下仅≤4B模型能工作。
– 本次报错与`llama3.2-vision:11b`的`mllama`架构错误无关,后者是单独的模型兼容性问题。
– 重启Windows后问题完全恢复,表明可能是驱动/运行时状态需要系统级复位,或存在自动更新后用户态组件变更但未完全激活。
环境排查
- Ollama 版本:确认是否为 0.30.10 或更高版本。
- 操作系统:Windows Server(WDDM 模式),确认是否近期有更新或自动驱动变更。
- GPU:2× NVIDIA RTX PRO 2000 Blackwell(Blackwell 架构)。
- 驱动版本:nvidia-smi 输出应显示 CUDA 13.2,驱动 595.x(或相关分支)。
- 系统RAM:128 GB(已确认充足)。
- 模型规模:区分≤4B 与≥7B 模型是否表现不同。
- 日志变量:设置 OLLAMA_DEBUG=2 后可收集更详细的 CUDA discovery 失败日志。
解决步骤
- 重启 Windows 系统:这是 Issue 中确认能完全恢复 CUDA 功能的唯一方法。重启后所有≥7B 模型应恢复正常。
- 设置环境变量禁用 Vulkan 回退(可优先尝试):在启动 Ollama 前,设置
OLLAMA_VULKAN=0。这可以防止 CUDA 失败后自动降级到 Vulkan 后端,但不会修复 CUDA 发现本身。 - 如重现问题,在重启前执行诊断:运行
nvidia-smi并保存输出;重启后再次运行nvidia-smi并对比。对比结果可帮助判断是驱动版本变更还是运行时状态恢复。 - 如果问题频繁出现:考虑在 Windows Server 上检查 NVIDIA 驱动是否被自动更新,尝试回滚或重新安装匹配的驱动版本(595.x 分支)。
- 针对 llama3.2-vision 的 mllama 报错:此为独立问题,与 CUDA 崩溃无关,需另行排查模型兼容性或 Ollama 版本。
验证方法
重启后,运行一个此前失败的≥7B 模型(如 ollama run gemma4:31b),观察是否正常加载和推理。如果正常输出,说明 CUDA 发现和 GPU 加速已恢复。也可检查 Ollama 日志中不再出现 exit status 0xc0000005 和 Vulkan 回退信息。



