Not Able to use Dedicatedd GPU

快速结论：此问题通常出现在 Ollama 升级到 0.30.x 之后，系统错误地将 NVIDIA 独立 GPU 识别为集成显卡（Integrated GPU）并加以忽略，转而使用 Intel 核显。优先尝试完全卸载后全新安装 Ollama。

问题场景

在 Windows 系统上使用 Ollama 运行模型时（例如 ollama run ministral-3:3b --verbose "test"），发现在升级 Ollama 版本后，GPU 利用率显示为 Intel UHD Graphics（核显），而 NVIDIA RTX 4050、RTX 2060 或 RTX 4070 等独立 GPU 未被使用，导致推理速度极慢。

报错原文

time=... source=runner.go:396 msg="dropping integrated GPU; to enable, set OLLAMA_IGPU_ENABLE=1" id=1 library=Vulkan compute=0.0 name=Vulkan1 description="NVIDIA GeForce RTX 2060" pci_id=""

time=... source=types.go:32 msg="inference compute" id=0 library=Vulkan name=Vulkan0 description="Intel(R) UHD Graphics P750" ... type=discrete total="31.8 GiB" ...

在 ollama serve 日志中，NVIDIA 独立 GPU 被描述为 Vulkan1 且被标记为 dropping integrated GPU，而核显被错误地标记为 type=discrete 并拥有 total="31.8 GiB"。

原因分析

可能原因：Ollama 0.30.x 版本的 GPU 发现逻辑存在 Bug，导致通过 Vulkan 枚举 GPU 时，将 NVIDIA 独立 GPU 误判为集成显卡（integrated GPU）并自动排除，同时将 Intel 核显误认为独立显卡（discrete）并优先用于推理。该行为与 CUDA 后端无关，即使 CUDA 后端已正确识别 GPU（例如 library=CUDA compute=7.5 name=CUDA0 description="NVIDIA GeForce RTX 2060"），Vulkan 后端的错误分类仍可能导致调度器选择核显。

环境排查

Ollama 版本：请确认是否为 0.30.0 ~ 0.30.6 版本
操作系统：Windows（该问题在 Windows 下被报告）
GPU：NVIDIA RTX 4050 / RTX 2060 / RTX 4070 + Intel 核显（UHD Graphics P750 / UHD Graphics）
驱动：确认 NVIDIA 驱动已安装且 Vulkan 和 CUDA 运行时可用

解决步骤

完全卸载 Ollama：通过 Windows “添加或删除程序” 卸载。
删除遗留数据目录（可选但推荐）：删除 %USERPROFILE%\.ollama 目录（注意：这将删除所有本地模型和数据，如有必要请先备份模型）。
从 Ollama 官方网站下载最新版本安装包并执行全新安装（不是覆盖安装，是卸载重启后重装）。
安装完成后启动 Ollama，运行 ollama run <model> 测试。

此方案由多位用户验证有效，可优先尝试。

验证方法

运行 ollama run <model> --verbose "test" 并观察输出中的 eval rate 数值。独立 GPU 使用时 eval rate 应在 90+ tokens/s（例如 RTX 2060 为 95.35 tokens/s），而核显通常低于 5 tokens/s（例如 Intel UHD P750 仅 2.00 tokens/s）。也可以运行 ollama serve 查看日志中 GPU 类型描述是否恢复到正确分类。