RTX PRO 2000 Blackwell ×2，Windows，cuda_v13 list-devices 0xc0000005

快速结论：该报错发生在Windows Server（WDDM模式）下双RTX PRO 2000 Blackwell显卡运行≥7B大模型时，Ollama的CUDA GPU发现阶段因`llama-server –list-devices`返回`exit status 0xc0000005`（访问违规）而崩溃，随后静默降级至Vulkan后端，导致仅≤4B模型可用。优先排查：重启Windows系统，并设置环境变量`OLLAMA_VULKAN=0`禁用Vulkan回退。

问题场景

用户环境：Ollama 0.30.10，Windows Server（WDDM），2× NVIDIA RTX PRO 2000 Blackwell（约16 GB VRAM），驱动595.x（CUDA 13.2），系统RAM 128 GB。触发问题：
– gemma3:4b（4B以下）正常工作。
– gemma3:12b、gemma3:27b、gemma4:31b、qwen2.5vl:7b 等≥7B模型立即失败，返回HTTP 500。
– llama3.2-vision:11b 报错 `unknown model architecture: ‘mllama’`（此为另一独立问题，不影响主线排查）。

报错原文

time=2026-06-26T18:27:52.813+10:00 level=WARN source=runner.go:575 msg="llama-server GPU discovery watchdog timed out"
failure during llama-server GPU discovery ... cuda_v12 ...
error="llama-server --list-devices failed: exit status 0xc0000005"
failure during llama-server GPU discovery ... cuda_v13 ...
error="llama-server --list-devices failed: exit status 0xc0000005"
library=Vulkan ... NVIDIA RTX PRO 2000 Blackwell
...
srv  llama_server: exiting due to model loading error
time=2026-06-26T18:23:56.474+10:00 level=INFO source=sched.go:651 msg="Load failed" model=... error="llama-server process has terminated: exit status 1: error loading model: unknown model architecture: 'mllama'"
[GIN] 2026/06/26 - 18:23:56 | 500 |    2.5936122s |       127.0.0.1 | POST     "/api/generate"

原因分析

可能原因（Issue讨论中推测）：
– 在双RTX PRO 2000 Blackwell + Windows Server（WDDM）环境下，重复运行大模型推理（gemma4:31b）后，CUDA/WDDM运行时状态出现损坏。`llama-server –list-devices`执行时访问违规（0xc0000005），导致GPU发现阶段崩溃。
– Ollama在CUDA发现失败后，静默降级到Vulkan后端，未给出明确警示或自动恢复路径。Vulkan后端下仅≤4B模型能工作。
– 本次报错与`llama3.2-vision:11b`的`mllama`架构错误无关，后者是单独的模型兼容性问题。
– 重启Windows后问题完全恢复，表明可能是驱动/运行时状态需要系统级复位，或存在自动更新后用户态组件变更但未完全激活。

环境排查

Ollama 版本：确认是否为 0.30.10 或更高版本。
操作系统：Windows Server（WDDM 模式），确认是否近期有更新或自动驱动变更。
GPU：2× NVIDIA RTX PRO 2000 Blackwell（Blackwell 架构）。
驱动版本：nvidia-smi 输出应显示 CUDA 13.2，驱动 595.x（或相关分支）。
系统RAM：128 GB（已确认充足）。
模型规模：区分≤4B 与≥7B 模型是否表现不同。
日志变量：设置 OLLAMA_DEBUG=2 后可收集更详细的 CUDA discovery 失败日志。

解决步骤

重启 Windows 系统：这是 Issue 中确认能完全恢复 CUDA 功能的唯一方法。重启后所有≥7B 模型应恢复正常。
设置环境变量禁用 Vulkan 回退（可优先尝试）：在启动 Ollama 前，设置 OLLAMA_VULKAN=0。这可以防止 CUDA 失败后自动降级到 Vulkan 后端，但不会修复 CUDA 发现本身。
如重现问题，在重启前执行诊断：运行 nvidia-smi 并保存输出；重启后再次运行 nvidia-smi 并对比。对比结果可帮助判断是驱动版本变更还是运行时状态恢复。
如果问题频繁出现：考虑在 Windows Server 上检查 NVIDIA 驱动是否被自动更新，尝试回滚或重新安装匹配的驱动版本（595.x 分支）。
针对 llama3.2-vision 的 mllama 报错：此为独立问题，与 CUDA 崩溃无关，需另行排查模型兼容性或 Ollama 版本。