![[SYCL][DOCKER] Increased Gemma 4 26b performance with updated docker dependencies](https://www.chat-gpts.plus/wp-content/uploads/2026/06/24045-65cf0f68.jpg)
[SYCL][DOCKER] Increased Gemma 4 26b performance with updated docker dependencies
快速结论:在 Intel GPU(如 Arc Pro B50)上运行 llama.cpp Docker 镜像时,Gemma 4 26B(MoE 模型)的 token 生成性能可能下降或未达到预期。优先排查 Docker 镜像中的 Intel GPU 驱动栈(compute-runtime、Level Zero loader、IGC 编译器)版本是否过旧。
问题场景
用户使用 llama.cpp 的 server-intel Docker 镜像(构建编号 #9468,提交 354ebac8c)在 Intel Arc Pro B50 Battlemage GPU 上运行 llama-bench 测试 Gemma 4 26B(Q3_K_M 量化)模型。通过将基础镜像从 Ubuntu 24.04 更新到 Ubuntu 26.04(本质上仅更新底层 GPU 驱动包),发现 Gemma 4 26B 的 token 生成吞吐量从 17.23 tok/s 提升到 24.64 tok/s,提升约 43%。此问题主要影响 MoE 模型,非 MoE 模型变化不大。
报错原文
Performance regression observed on official Docker image vs updated image.
Note: No explicit error message; issue manifests as lower token generation throughput (e.g., 17.23 vs 24.64 tok/s for Gemma 4 26B).
原因分析
可能原因是官方 Docker 镜像(基于 Ubuntu 24.04)所包含的 Intel GPU 用户态驱动栈版本较旧,包括 intel-igc-core-2(IGC 编译器)、libigdgmm12(GMM 库)、libze-intel-gpu1(compute-runtime)、libze1(Level Zero loader)等。更新到 Ubuntu 26.04 对应的较新版本(如 compute-runtime 26.18.38308.1、IGC 2.34.4、Level Zero loader 1.28.2)后,Gemma 4 26B 的 token 生成性能提升显著(约 43%),并且对 MoE 模型(如 LFM-2.5 8B)也有一定提升(约 6.4%),而非 MoE 模型无显著变化。后续 Issue 中确认该问题由 PR #24070 修复。
环境排查
- 确认 Docker 镜像是否为
server-intel(版本:#9468, commit: 354ebac8c) - 确认主机 GPU 型号(Intel Arc Pro B50, PCI ID 0xe212, Battlemage 系列)
- 确认容器内驱动栈版本:
dpkg -l | grep -E 'intel-igc|libigdgmm|libze-intel-gpu|libze1' - 确认 Linux 内核版本(官方测试使用 7.0.0-22-generic)
解决步骤
- 在现有 Docker 镜像基础上更新软件包:从
kobuk-ppa或对应源安装较新版本的intel-igc-core-2、intel-igc-opencl-2、libigdgmm12、libze-intel-gpu1、libze-intel-gpu-raytracing、libze1。具体版本可参考 Issue 中的 Updated image 列。 - 或重新构建基于 Ubuntu 26.04(或更新基础)的镜像,并安装上述较新版本的 Intel GPU 驱动栈。
- 注意:Issue 指出 Ubuntu 版本本身不直接影响性能,真正影响的是驱动栈版本。
- 另一确认:该问题由 PR #24070 修复。如果已合并,使用最新版本的 llama.cpp Docker 镜像即可获得该修复。
验证方法
使用相同的 llama-bench 命令分别在更新前后的镜像中运行 Gemma 4 26B(或其它 MoE 模型),对比 token 生成吞吐量(generation 指标)。如果差值明显(如 43%),则说明性能回归已被解决。也可对比功耗(Average Power),官方测试显示更新后功耗降低约 6W(从 25W 降到 19W)。



