[XPU] GGUF Q6_K dequantization segfault on Intel GPU during model loading

快速结论：该报错发生在 Intel XPU 上加载 GGUF Q6_K 量化模型时，由于 PyTorch uint8 位右移操作在 Intel SYCL 后端触发段错误。优先排查是否使用了非 XPU 优化的 GGUF 插件，推荐替换为 ComfyUI-GGUF-XPU。

问题场景

用户在 ComfyUI 中通过 ComfyUI-GGUF 插件加载 GGUF Q6_K 量化模型（如 qwen-image-2512-Q6_K.gguf）至 Intel XPU 设备时，在 model_management.load_model_gpu() 调用过程中触发段错误。该问题复现于 Intel Graphics [0xe211] (160 CUs, 24.4 GB VRAM) 驱动，Linux 6.14.0-1008-intel 环境。

报错原文

Fatal Python error: Segmentation fault

Current thread (most recent call first):
  File "repro3_gguf_q6k_diffusion.py", line 123 in main
    comfy.model_management.load_model_gpu(model)

原因分析

根本原因在于 dequant.py:141-157 中的 dequantize_blocks_Q6_K 函数对 uint8 张量执行了位右移操作（>>）。这些操作在 Intel XPU 的 SYCL 后端缺乏合适的 kernel 实现，导致在模型加载时的权重反量化步骤 segfault。

可能原因：Q5_K、Q4_K 等使用相同位移位模式的量化类型也可能受此影响。

环境排查

ComfyUI 版本: v0.22.0-124-gc87384f2 (2026-06-02)
ComfyUI-GGUF 版本: commit 6ea2651e (2026-01-12)
PyTorch 版本: 2.11.0+xpu
Python 版本: 3.13.3
Intel GPU 型号与驱动
GGUF 模型量化类型 (确认包含 Q6_K)

解决步骤

下载 ComfyUI-GGUF-XPU (Intel XPU 优化分支):
cd ComfyUI/custom_nodes
git clone https://github.com/analytics-zoo/ComfyUI-GGUF-XPU.git
安装 omni_xpu_kernel (ESIMD native kernels):
git clone https://github.com/intel/llm-scaler.git
pip install llm-scaler/omni/omni_xpu_kernel/ --no-build-isolation
移除或禁用原有的 ComfyUI-GGUF 插件，启用 ComfyUI-GGUF-XPU。
重新启动 ComfyUI 并加载 Q6_K 模型。

注意：如果无法使用 XPU 优化版本，可优先尝试将模型转换为 FP8 safetensors 格式（已在 XPU 验证可用）。

验证方法

重新执行模型加载操作（comfy.model_management.load_model_gpu(model)），观察是否不再出现段错误（退出码为 0 而非 139）。可运行 Issue 中提供的再现脚本 repro3_gguf_q6k_diffusion.py 确认。

参考来源

Comfy-Org/ComfyUI #14515

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

[XPU] GGUF Q6_K dequantization segfault on Intel GPU during model loading