Windows hybrid graphics: Vulkan selects the Intel iGPU (shared RAM) and drops the NVIDIA dGPU as “integrated” — inference runs in system RAM

快速结论：这个报错通常出现在搭载 Intel + NVIDIA 混合显卡的 Windows 笔记本电脑上。Ollama 默认启用 Vulkan 后端时，错误地将 Intel 核显识别为独立显卡、将 NVIDIA 独显标记为集成显卡，导致模型加载到系统共享内存而非显存，推理速度下降约 9 倍。优先排查方向：设置环境变量 OLLAMA_VULKAN=0 或 OLLAMA_LLM_LIBRARY=cuda_v13 强制使用 CUDA 后端。

问题场景

用户在 Windows 11 的混合显卡笔记本（Intel RaptorLake-S iGPU + NVIDIA GeForce RTX 4080 Laptop GPU）上运行 Ollama 0.30.7，默认使用 Vulkan 后端（OLLAMA_VULKAN=true）。模型 llama-guard3:8b 加载到核显的共享系统 RAM（31.8 GiB），而非 4080 的显存（12 GB）。nvidia-smi 显示 4080 仅使用约 0.5 GB，推理延迟约 3.8 秒，而强行指定 CUDA 后降至约 0.42 秒。

报错原文

runner.go:396  dropping integrated GPU; to enable, set OLLAMA_IGPU_ENABLE=1
               id=1 library=Vulkan compute=0.0 name=Vulkan1 description="NVIDIA GeForce RTX 4080 Laptop GPU" pci_id=""
llama_server.go:377  skipping Vulkan native metadata with mismatched device name
               llama_server_name="Intel(R) RaptorLake-S Mobile Graphics Controller" native_name="NVIDIA GeForce RTX 4080 Laptop GPU"
llama_server.go:377  skipping Vulkan native metadata with mismatched device name
               llama_server_name="NVIDIA GeForce RTX 4080 Laptop GPU" native_name="Intel(R) RaptorLake-S Mobile Graphics Controller"
vulkan.go:99   windows vulkan device refinement skipped: device count mismatch  llama_server_count=2 vulkan_count=5
types.go:32    inference compute id=0 library=Vulkan name=Vulkan0 description="Intel(R) RaptorLake-S Mobile Graphics Controller" type=discrete total="31.8 GiB" available="31.1 GiB"
types.go:32    inference compute id=0 library=CUDA   name=CUDA0   description="NVIDIA GeForce RTX 4080 Laptop GPU"          type=discrete total="12.0 GiB" available="10.8 GiB"

原因分析

可能原因：Ollama 内部存在两个不共享排序顺序的枚举路径——llama_server 枚举出 2 个 Vulkan 设备，而 vkEnumeratePhysicalDevices 原始枚举出 5 个设备（包括 D3D12 包装器）。parseVulkanUMA 按索引键值对读取组合输出，但两个枚举的设备顺序不同，导致 NVIDIA 与 Intel 的内存类型标记被交换。同时，Windows Vulkan 设备名称精炼逻辑因设备数量不匹配而跳过（vulkan.go:99），使得错误的设备元数据保留下来。最终，NVIDIA 独显的 Vulkan 设备被错误分类为“集成显卡”并丢弃，而 Intel 核显的共享系统内存（31.8 GiB）被当作独立显存，导致其赢得“最多显存”竞争并被选中推理。

环境排查

操作系统：Windows 11
GPU 组合：Intel RaptorLake-S Mobile Graphics（iGPU）+ NVIDIA GeForce RTX 4080 Laptop GPU（12 GB, compute 8.9）
NVIDIA 驱动版本：13.2（Game Ready 分支）
Ollama 版本：0.30.7
Vulkan 后端是否默认启用（检查 OLLAMA_VULKAN 环境变量）
CUDA 运行时是否可用（检查 nvidia-smi 输出）
确认没有预先设置 OLLAMA_IGPU_ENABLE=1 或 OLLAMA_LLM_LIBRARY 覆盖

解决步骤

方案一（临时绕过）：设置 OLLAMA_VULKAN=0 环境变量，强制 Ollama 跳过 Vulkan 枚举路径，回退到 CUDA 后端。
方案二（更精确的绕过）：设置 OLLAMA_LLM_LIBRARY=cuda_v13（或你系统上实际的 CUDA 库版本号），直接指定 CUDA 计算库。
方案三（推荐 — 等待修复）：升级到包含 #16669 补丁的 Ollama 版本。该补丁解决了两个枚举索引不一致的问题，能让默认配置下 CUDA 正确优先于 Vulkan/iGPU。补丁作者在同一硬件上验证，修复后默认行为即为使用 CUDA 后端，推理延迟降至约 0.8 秒。

验证方法

重复 Issue 中的对比测试：

用默认配置（Vulkan 后端）加载模型，观察 nvidia-smi 中 4080 的显存占用（应约 0.5 GB）。
设置 OLLAMA_LLM_LIBRARY=cuda_v13 后再次加载同一模型，观察显存占用（应约 5.7 GB）。
使用 OLLAMA_DEBUG=1 启动，检查日志中 inference compute id=0 行的 library 是否为 CUDA，以及 llama_prepare_model_devices 是否选择 CUDA0 设备。
对比两次推理的延迟（短请求应低于 0.5 秒，而非 3.8 秒）。