[SYCL][DOCKER] Increased Gemma 4 26b performance with updated docker dependencies

快速结论：在 Intel GPU（如 Arc Pro B50）上运行 llama.cpp Docker 镜像时，Gemma 4 26B（MoE 模型）的 token 生成性能可能下降或未达到预期。优先排查 Docker 镜像中的 Intel GPU 驱动栈（compute-runtime、Level Zero loader、IGC 编译器）版本是否过旧。

问题场景

用户使用 llama.cpp 的 server-intel Docker 镜像（构建编号 #9468，提交 354ebac8c）在 Intel Arc Pro B50 Battlemage GPU 上运行 llama-bench 测试 Gemma 4 26B（Q3_K_M 量化）模型。通过将基础镜像从 Ubuntu 24.04 更新到 Ubuntu 26.04（本质上仅更新底层 GPU 驱动包），发现 Gemma 4 26B 的 token 生成吞吐量从 17.23 tok/s 提升到 24.64 tok/s，提升约 43%。此问题主要影响 MoE 模型，非 MoE 模型变化不大。

报错原文

Performance regression observed on official Docker image vs updated image.
Note: No explicit error message; issue manifests as lower token generation throughput (e.g., 17.23 vs 24.64 tok/s for Gemma 4 26B).

原因分析

可能原因是官方 Docker 镜像（基于 Ubuntu 24.04）所包含的 Intel GPU 用户态驱动栈版本较旧，包括 intel-igc-core-2（IGC 编译器）、libigdgmm12（GMM 库）、libze-intel-gpu1（compute-runtime）、libze1（Level Zero loader）等。更新到 Ubuntu 26.04 对应的较新版本（如 compute-runtime 26.18.38308.1、IGC 2.34.4、Level Zero loader 1.28.2）后，Gemma 4 26B 的 token 生成性能提升显著（约 43%），并且对 MoE 模型（如 LFM-2.5 8B）也有一定提升（约 6.4%），而非 MoE 模型无显著变化。后续 Issue 中确认该问题由 PR #24070 修复。

环境排查

确认 Docker 镜像是否为 server-intel（版本：#9468, commit: 354ebac8c）
确认主机 GPU 型号（Intel Arc Pro B50, PCI ID 0xe212, Battlemage 系列）
确认容器内驱动栈版本：dpkg -l | grep -E 'intel-igc|libigdgmm|libze-intel-gpu|libze1'
确认 Linux 内核版本（官方测试使用 7.0.0-22-generic）

解决步骤

在现有 Docker 镜像基础上更新软件包：从 kobuk-ppa 或对应源安装较新版本的 intel-igc-core-2、intel-igc-opencl-2、libigdgmm12、libze-intel-gpu1、libze-intel-gpu-raytracing、libze1。具体版本可参考 Issue 中的 Updated image 列。
或重新构建基于 Ubuntu 26.04（或更新基础）的镜像，并安装上述较新版本的 Intel GPU 驱动栈。
注意：Issue 指出 Ubuntu 版本本身不直接影响性能，真正影响的是驱动栈版本。
另一确认：该问题由 PR #24070 修复。如果已合并，使用最新版本的 llama.cpp Docker 镜像即可获得该修复。

验证方法

使用相同的 llama-bench 命令分别在更新前后的镜像中运行 Gemma 4 26B（或其它 MoE 模型），对比 token 生成吞吐量（generation 指标）。如果差值明显（如 43%），则说明性能回归已被解决。也可对比功耗（Average Power），官方测试显示更新后功耗降低约 6W（从 25W 降到 19W）。