[SYCL][DOCKER] Increased Gemma 4 26b performance with updated docker dependencies

用户使用 llama.cpp 的 server-intel Docker 镜像(构建编号 #9468,提交 354ebac8c)在 Intel Arc Pro B50 Battlemage GPU 上运行 llama-bench 测试 Gemma 4 26B(Q3_K_M 量化)模型。通过将基础镜像

[SYCL][DOCKER] Increased Gemma 4 26b performance with updated docker dependencies

[SYCL][DOCKER] Increased Gemma 4 26b performance with updated docker dependencies

快速结论:在 Intel GPU(如 Arc Pro B50)上运行 llama.cpp Docker 镜像时,Gemma 4 26B(MoE 模型)的 token 生成性能可能下降或未达到预期。优先排查 Docker 镜像中的 Intel GPU 驱动栈(compute-runtime、Level Zero loader、IGC 编译器)版本是否过旧。

问题场景

用户使用 llama.cpp 的 server-intel Docker 镜像(构建编号 #9468,提交 354ebac8c)在 Intel Arc Pro B50 Battlemage GPU 上运行 llama-bench 测试 Gemma 4 26B(Q3_K_M 量化)模型。通过将基础镜像从 Ubuntu 24.04 更新到 Ubuntu 26.04(本质上仅更新底层 GPU 驱动包),发现 Gemma 4 26B 的 token 生成吞吐量从 17.23 tok/s 提升到 24.64 tok/s,提升约 43%。此问题主要影响 MoE 模型,非 MoE 模型变化不大。

报错原文

Performance regression observed on official Docker image vs updated image.
Note: No explicit error message; issue manifests as lower token generation throughput (e.g., 17.23 vs 24.64 tok/s for Gemma 4 26B).

原因分析

可能原因是官方 Docker 镜像(基于 Ubuntu 24.04)所包含的 Intel GPU 用户态驱动栈版本较旧,包括 intel-igc-core-2(IGC 编译器)、libigdgmm12(GMM 库)、libze-intel-gpu1(compute-runtime)、libze1(Level Zero loader)等。更新到 Ubuntu 26.04 对应的较新版本(如 compute-runtime 26.18.38308.1、IGC 2.34.4、Level Zero loader 1.28.2)后,Gemma 4 26B 的 token 生成性能提升显著(约 43%),并且对 MoE 模型(如 LFM-2.5 8B)也有一定提升(约 6.4%),而非 MoE 模型无显著变化。后续 Issue 中确认该问题由 PR #24070 修复。

环境排查

  • 确认 Docker 镜像是否为 server-intel(版本:#9468, commit: 354ebac8c)
  • 确认主机 GPU 型号(Intel Arc Pro B50, PCI ID 0xe212, Battlemage 系列)
  • 确认容器内驱动栈版本:dpkg -l | grep -E 'intel-igc|libigdgmm|libze-intel-gpu|libze1'
  • 确认 Linux 内核版本(官方测试使用 7.0.0-22-generic)

解决步骤

  1. 在现有 Docker 镜像基础上更新软件包:从 kobuk-ppa 或对应源安装较新版本的 intel-igc-core-2intel-igc-opencl-2libigdgmm12libze-intel-gpu1libze-intel-gpu-raytracinglibze1。具体版本可参考 Issue 中的 Updated image 列。
  2. 或重新构建基于 Ubuntu 26.04(或更新基础)的镜像,并安装上述较新版本的 Intel GPU 驱动栈。
  3. 注意:Issue 指出 Ubuntu 版本本身不直接影响性能,真正影响的是驱动栈版本。
  4. 另一确认:该问题由 PR #24070 修复。如果已合并,使用最新版本的 llama.cpp Docker 镜像即可获得该修复。

验证方法

使用相同的 llama-bench 命令分别在更新前后的镜像中运行 Gemma 4 26B(或其它 MoE 模型),对比 token 生成吞吐量(generation 指标)。如果差值明显(如 43%),则说明性能回归已被解决。也可对比功耗(Average Power),官方测试显示更新后功耗降低约 6W(从 25W 降到 19W)。

参考来源

ggml-org/llama.cpp #24045

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

celebrityanime
celebrityanime
文章: 8166

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注