
Particularly slow when loading larger models
快速结论:该问题主要出现在更换显卡(例如从 NVIDIA 4060 Ti 换到 AMD RX 9070 XT)后加载大模型(>9GB)时,速度极慢(约 20MB/s),加载时间超过 10 分钟。优先排查启动参数配置,实测 --classic-cache 有效改善。
问题场景
用户在使用 ComfyUI(Linux 自托管版或 Windows 预打包版)加载大模型(如 text encoders 或 >9GB 的 diffusion 模型)时触发,模型存储在 SSD 上。小模型(如 ~6GB 的 Z-Image-Turbo fp8)加载速度正常。用户使用了多个自定义启动参数,包括 --disable-mmap 和 --high-ram。
报错原文
Particularly slow when loading larger models
loading large models (whether text encoders or diffusion models more than 9GB I think) is capped at around 20MB/s, taking over 10 minutes for a single large model
原因分析
可能原因:
1. AMD RX 9070 XT 显卡与 ComfyUI 的模型加载/缓存机制存在兼容性问题,尤其是默认的模型卸载策略导致大模型运行时频繁进行低效的磁盘/内存交换。
2. 用户使用的启动参数组合(如 --disable-mmap 和 --high-ram)可能干扰了 ComfyUI 的模型缓存与内存管理,导致模型加载速度被限制。
3. 问题与模型是否存储在 SSD 无关,但 AMD GPU 下的驱动或 PyTorch rocm 后端可能未正确优化大模型加载路径。
环境排查
- 确认 ComfyUI 版本(是否为最新版或某个特定版本)。
- 确认显卡型号(AMD RX 9070 XT)及驱动版本(ROCm 或 AMD GPU 驱动)。
- 确认 PyTorch 后端(如是否使用 ROCm 版本的 PyTorch)。
- 确认模型文件存储路径及磁盘读写速度(SSD 是否正常)。
- 检查当前使用的启动参数列表,尤其注意
--disable-mmap、--high-ram、--disable-dynamic-vram等。
解决步骤
- 可优先尝试:将启动参数精简为:
--highvram --dont-upcast-attention。这是近期讨论中官方建议的简化参数,用于改善加载性能。注意--dont-upcast-attention是调试用参数,仅建议作为测试步骤。 - 核心方案:添加
--classic-cache启动参数。该参数可使模型在内存中保持缓存,避免每次加载时重复进行磁盘 I/O。实测在 24GB 模型半显存半内存加载场景下,后续运行速度提升 40 倍。 - 移除不必要的启动参数,如
--disable-mmap、--disable-dynamic-vram、--high-ram,这些参数可能限制模型加载性能。 - 如果问题依然存在,可尝试将模型存储在非系统盘的 SSD 上,并确认磁盘是否有碎片或故障。
验证方法
使用简化后的启动参数(仅保留 --highvram --dont-upcast-attention,或添加 --classic-cache)重新启动 ComfyUI,加载一个之前耗时超过 10 分钟的大模型(如 >9GB 的 diffusion 模型)。观察加载时间是否降至分钟级或更短,并确认后续推理步骤是否显著变快。如果加载速度恢复正常(比如在 1-3 分钟内完成),则问题已解决。



