RTX PRO 2000 Blackwell ×2,Windows,cuda_v13 list-devices 0xc0000005

用户环境:Ollama 0.30.10,Windows Server(WDDM),2× NVIDIA RTX PRO 2000 Blackwell(约16 GB VRAM),驱动595.x(CUDA 13.2),系统RAM 128 GB。触发问题: - gemma3:4b(4B以下)正常工作。 -

RTX PRO 2000 Blackwell ×2,Windows,cuda_v13 list-devices 0xc0000005

RTX PRO 2000 Blackwell ×2,Windows,cuda_v13 list-devices 0xc0000005

快速结论:该报错发生在Windows Server(WDDM模式)下双RTX PRO 2000 Blackwell显卡运行≥7B大模型时,Ollama的CUDA GPU发现阶段因`llama-server –list-devices`返回`exit status 0xc0000005`(访问违规)而崩溃,随后静默降级至Vulkan后端,导致仅≤4B模型可用。优先排查:重启Windows系统,并设置环境变量`OLLAMA_VULKAN=0`禁用Vulkan回退。

问题场景

用户环境:Ollama 0.30.10,Windows Server(WDDM),2× NVIDIA RTX PRO 2000 Blackwell(约16 GB VRAM),驱动595.x(CUDA 13.2),系统RAM 128 GB。触发问题:
– gemma3:4b(4B以下)正常工作。
– gemma3:12b、gemma3:27b、gemma4:31b、qwen2.5vl:7b 等≥7B模型立即失败,返回HTTP 500。
– llama3.2-vision:11b 报错 `unknown model architecture: ‘mllama’`(此为另一独立问题,不影响主线排查)。

报错原文

time=2026-06-26T18:27:52.813+10:00 level=WARN source=runner.go:575 msg="llama-server GPU discovery watchdog timed out"
failure during llama-server GPU discovery ... cuda_v12 ...
error="llama-server --list-devices failed: exit status 0xc0000005"
failure during llama-server GPU discovery ... cuda_v13 ...
error="llama-server --list-devices failed: exit status 0xc0000005"
library=Vulkan ... NVIDIA RTX PRO 2000 Blackwell
...
srv  llama_server: exiting due to model loading error
time=2026-06-26T18:23:56.474+10:00 level=INFO source=sched.go:651 msg="Load failed" model=... error="llama-server process has terminated: exit status 1: error loading model: unknown model architecture: 'mllama'"
[GIN] 2026/06/26 - 18:23:56 | 500 |    2.5936122s |       127.0.0.1 | POST     "/api/generate"

原因分析

可能原因(Issue讨论中推测):
– 在双RTX PRO 2000 Blackwell + Windows Server(WDDM)环境下,重复运行大模型推理(gemma4:31b)后,CUDA/WDDM运行时状态出现损坏。`llama-server –list-devices`执行时访问违规(0xc0000005),导致GPU发现阶段崩溃。
– Ollama在CUDA发现失败后,静默降级到Vulkan后端,未给出明确警示或自动恢复路径。Vulkan后端下仅≤4B模型能工作。
– 本次报错与`llama3.2-vision:11b`的`mllama`架构错误无关,后者是单独的模型兼容性问题。
– 重启Windows后问题完全恢复,表明可能是驱动/运行时状态需要系统级复位,或存在自动更新后用户态组件变更但未完全激活。

环境排查

  • Ollama 版本:确认是否为 0.30.10 或更高版本。
  • 操作系统:Windows Server(WDDM 模式),确认是否近期有更新或自动驱动变更。
  • GPU:2× NVIDIA RTX PRO 2000 Blackwell(Blackwell 架构)。
  • 驱动版本:nvidia-smi 输出应显示 CUDA 13.2,驱动 595.x(或相关分支)。
  • 系统RAM:128 GB(已确认充足)。
  • 模型规模:区分≤4B 与≥7B 模型是否表现不同。
  • 日志变量:设置 OLLAMA_DEBUG=2 后可收集更详细的 CUDA discovery 失败日志。

解决步骤

  1. 重启 Windows 系统:这是 Issue 中确认能完全恢复 CUDA 功能的唯一方法。重启后所有≥7B 模型应恢复正常。
  2. 设置环境变量禁用 Vulkan 回退(可优先尝试):在启动 Ollama 前,设置 OLLAMA_VULKAN=0。这可以防止 CUDA 失败后自动降级到 Vulkan 后端,但不会修复 CUDA 发现本身。
  3. 如重现问题,在重启前执行诊断:运行 nvidia-smi 并保存输出;重启后再次运行 nvidia-smi 并对比。对比结果可帮助判断是驱动版本变更还是运行时状态恢复。
  4. 如果问题频繁出现:考虑在 Windows Server 上检查 NVIDIA 驱动是否被自动更新,尝试回滚或重新安装匹配的驱动版本(595.x 分支)。
  5. 针对 llama3.2-vision 的 mllama 报错:此为独立问题,与 CUDA 崩溃无关,需另行排查模型兼容性或 Ollama 版本。

验证方法

重启后,运行一个此前失败的≥7B 模型(如 ollama run gemma4:31b),观察是否正常加载和推理。如果正常输出,说明 CUDA 发现和 GPU 加速已恢复。也可检查 Ollama 日志中不再出现 exit status 0xc0000005Vulkan 回退信息。

参考来源

ollama/ollama #16925

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

celebrityanime
celebrityanime
文章: 10679

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注