Adding support for Intel GPUs

快速结论：Ollama 目前默认不支持 Intel GPU（包括 Iris Xe、Arc 系列），但可以通过 llama.cpp 的 SYCL 后端曲线实现硬件加速。如果您的 Intel GPU 已被 llama.cpp 支持，Ollama 理论上也能支持，但目前需要手动编译或使用第三方工具。

问题场景

用户在配备 Intel Iris Xe Graphics（8GB VRAM）的笔记本电脑上运行 Ollama，尝试加载 DeepSeek 8B 模型时，发现 GPU 未被利用，模型运行完全依赖 CPU，导致整机性能严重下降。

报错原文

Loading modelget_memory_info: [warning] ext_intel_free_memory is not supported (export/set ZES_ENABLE_SYSMAN=1 to support), use total memory as free memory

注：该报错虽非 Ollama 直接抛出，但出现在使用类似 SYCL 后端加速 Intel GPU 时。此警告说明驱动层接口ext_intel_free_memory不可用，工具会错误地将总显存当作空闲显存使用，在单实例场景下无负面影响，多实例并发时可能因内存超分配而报错。

原因分析

根本原因是 Ollama 的 GPU 加速后端默认不包括 Intel GPU，仅原生支持 NVIDIA（CUDA）、AMD（ROCm）以及 Apple Metal。Intel GPU（包括集成显卡和 Arc 独显）需要使用 llama.cpp 的 SYCL 后端才能获得加速，而 Ollama 当前版本尚未集成此后端。
用户手动导出环境变量 ZES_ENABLE_SYSMAN=1 仍无法解决问题，则是因为 Intel GPU 驱动本身可能不支持该 API 调用。

环境排查

显卡型号：Intel Iris Xe Graphics、Intel Arc A380/A770、Intel Arc B580 等
Ollama 版本：任意版本（截至讨论仍不原生支持 Intel GPU）
操作系统及内核：Linux（如 Ubuntu、Manjaro、Fedora）、Windows 同样适用
Intel GPU 驱动：需手动安装最新驱动，参考 Intel GPU 驱动官方文档
备用方案依赖：llama.cpp（SYCL 后端）、ramalama 或其他支持 Intel GPU 的推理框架

解决步骤

确认 Intel GPU 被 llama.cpp 支持：检查 llama.cpp 的 SYCL 后端文档。如果支持，则可继续；否则现阶段无法通过任何方案加速。
安装最新 Intel GPU 驱动（Linux 示例）：
sudo apt install intel-opencl-icd # 或参考官方 dgpu-docs 安装
并确保内核模块已加载。
可优先尝试临时使用第三方方案：
– 直接下载 llama.cpp Windows 二进制（Windows 用户），或编译 Linux 版本并启用 SYCL 后端。
– 使用 ramalama（见 Github container/ramalama）作为 Ollama 的替代，它已内置 SYCL 支持。
等待 Ollama 社区贡献的原生 Intel GPU 支持 PR（讨论中由 @NeoZhangJianyu 等开发者提出，但截至 Issue 关闭仍未合并进官方主线）。
建议关注 #8414 或相关讨论以追踪进展。
若使用第三方工具仍遇到 ext_intel_free_memory 警告：单实例场景下可忽略；多实例场景下需要减少并发模型数量或模型规模。

验证方法

运行模型后执行 ollama ps（若仍用 Ollama）或观察系统监控工具（如 intel_gpu_top），确认 GPU 使用率明显上升，CPU 占用显著下降。同时模型推理速度应明显快于纯 CPU 模式。

参考来源

ollama/ollama #8777: Adding support for Intel GPUs

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

Adding support for Intel GPUs