
Adding support for Intel GPUs
快速结论:Ollama 目前默认不支持 Intel GPU(包括 Iris Xe、Arc 系列),但可以通过 llama.cpp 的 SYCL 后端曲线实现硬件加速。如果您的 Intel GPU 已被 llama.cpp 支持,Ollama 理论上也能支持,但目前需要手动编译或使用第三方工具。
问题场景
用户在配备 Intel Iris Xe Graphics(8GB VRAM)的笔记本电脑上运行 Ollama,尝试加载 DeepSeek 8B 模型时,发现 GPU 未被利用,模型运行完全依赖 CPU,导致整机性能严重下降。
报错原文
Loading modelget_memory_info: [warning] ext_intel_free_memory is not supported (export/set ZES_ENABLE_SYSMAN=1 to support), use total memory as free memory
注:该报错虽非 Ollama 直接抛出,但出现在使用类似 SYCL 后端加速 Intel GPU 时。此警告说明驱动层接口ext_intel_free_memory不可用,工具会错误地将总显存当作空闲显存使用,在单实例场景下无负面影响,多实例并发时可能因内存超分配而报错。
原因分析
根本原因是 Ollama 的 GPU 加速后端默认不包括 Intel GPU,仅原生支持 NVIDIA(CUDA)、AMD(ROCm)以及 Apple Metal。Intel GPU(包括集成显卡和 Arc 独显)需要使用 llama.cpp 的 SYCL 后端才能获得加速,而 Ollama 当前版本尚未集成此后端。
用户手动导出环境变量 ZES_ENABLE_SYSMAN=1 仍无法解决问题,则是因为 Intel GPU 驱动本身可能不支持该 API 调用。
环境排查
- 显卡型号:Intel Iris Xe Graphics、Intel Arc A380/A770、Intel Arc B580 等
- Ollama 版本:任意版本(截至讨论仍不原生支持 Intel GPU)
- 操作系统及内核:Linux(如 Ubuntu、Manjaro、Fedora)、Windows 同样适用
- Intel GPU 驱动:需手动安装最新驱动,参考 Intel GPU 驱动官方文档
- 备用方案依赖:llama.cpp(SYCL 后端)、ramalama 或其他支持 Intel GPU 的推理框架
解决步骤
- 确认 Intel GPU 被 llama.cpp 支持:检查 llama.cpp 的 SYCL 后端文档。如果支持,则可继续;否则现阶段无法通过任何方案加速。
- 安装最新 Intel GPU 驱动(Linux 示例):
sudo apt install intel-opencl-icd # 或参考官方 dgpu-docs 安装
并确保内核模块已加载。 - 可优先尝试临时使用第三方方案:
– 直接下载 llama.cpp Windows 二进制(Windows 用户),或编译 Linux 版本并启用 SYCL 后端。
– 使用 ramalama(见 Github container/ramalama)作为 Ollama 的替代,它已内置 SYCL 支持。 - 等待 Ollama 社区贡献的原生 Intel GPU 支持 PR(讨论中由 @NeoZhangJianyu 等开发者提出,但截至 Issue 关闭仍未合并进官方主线)。
建议关注 #8414 或相关讨论以追踪进展。 - 若使用第三方工具仍遇到
ext_intel_free_memory警告:单实例场景下可忽略;多实例场景下需要减少并发模型数量或模型规模。
验证方法
运行模型后执行 ollama ps(若仍用 Ollama)或观察系统监控工具(如 intel_gpu_top),确认 GPU 使用率明显上升,CPU 占用显著下降。同时模型推理速度应明显快于纯 CPU 模式。



