
Inconsistent Load CLIP behaviour, load time degradation (ROCm, Linux)
快速结论:该报错发生在 ROCm/Linux 环境下,使用 Load CLIP 加载 Qwen 等大模型时加载时间从正常的 60 秒退化到 10 分钟。优先排查 Linux 内核版本,尤其是 Linux kernel 7.0.12 与 ROCm 的兼容性问题。
问题场景
用户在 ComfyUI 中加载 Z-Image Turbo 工作流(或类似需要 Load CLIP 加载 Qwen 文本编码器的场景),在 ROCm (AMD GPU, Linux) 环境下首次启动时出现加载时间退化。
报错原文
[INFO] Checkpoint files will always be loaded safely.
[INFO] Total VRAM 12272 MB, total RAM 32010 MB
[INFO] pytorch version: 2.12.0+rocm7.2
[INFO] AMD arch: gfx1030
[INFO] ROCm version: (7, 2)
[INFO] Set vram state to: NORMAL_VRAM
[INFO] Device: cuda:0 AMD Radeon RX 6700 XT : native
[INFO] Using async weight offloading with 2 streams
[INFO] Enabled pinned memory 28808.0
[INFO] Python version: 3.14.5
[INFO] ComfyUI version: 0.24.0
# Load CLIP 阶段:
# RAM 使用量缓慢上升约 6 GB(加载 Qwen 编码器 8 GB),耗时约 10 分钟(正常约 60 秒)
# 后续 VAE 解码速度也受影响(约为之前的 2 倍慢)
# 此问题仅在首次启动时出现,后续生成恢复正常
原因分析
经社区用户排查,该问题并非 ComfyUI 本身的 Bug。可能原因是 Linux kernel 7.0.12 与 ROCm 驱动在磁盘 I/O 层面存在兼容性问题。具体表现:模型加载时磁盘读取速度极低(仅用单核),RAM 和 VRAM 缓慢上升,导致加载时间延长 10 倍以上。部分用户还关联到 ROCm 仓库中的类似问题。
环境排查
- Linux 内核版本:重点关注 7.0.12 版本(已知问题),建议确认当前内核版本。
- ROCm 版本:ROCm 7.2(来自用户日志),请确认是否与内核匹配。
- PyTorch 版本:2.12.0+rocm7.2
- 硬件:AMD GPU(如 RX 6700 XT / RX 9070 XT),NVMe SSD
- ComfyUI 版本:0.24.0(或更新版本)
- 额外启动参数:
--disable-smart-memory、--disable-dynamic-vram对此问题无缓解效果。
解决步骤
- 优先尝试:降级 Linux 内核。将内核从 7.0.12 降级到 7.0.11 或更低(推荐 7.0.10 或 LTS 版本)。Fedora 用户可参考 Fedora 内核降级文档。
- 设置内核为默认启动项,确保重启后生效。Fedora 用户可参考 Fedora 内核启动设置文档。
- 验证降级后模型加载时间:再次启动 ComfyUI,观察
Load CLIP是否恢复到约 60 秒。 - 如果降级不可行:尝试使用 LTS 内核(如 Linux 6.18.35-1-lts,已在 Arch 上验证有效)。
验证方法
降级内核后,重新启动 ComfyUI 并加载之前耗时过长的 checkpoint 或工作流(如 Z-Image Turbo)。使用系统监控工具(如 btop)观察模型加载阶段的磁盘 I/O 速度和 RAM/VRAM 升降情况。确认加载时间恢复至 1 分钟左右,且 VAE 解码速度不再明显变慢。



