Particularly slow when loading larger models

快速结论：该问题主要出现在更换显卡（例如从 NVIDIA 4060 Ti 换到 AMD RX 9070 XT）后加载大模型（>9GB）时，速度极慢（约 20MB/s），加载时间超过 10 分钟。优先排查启动参数配置，实测 --classic-cache 有效改善。

问题场景

用户在使用 ComfyUI（Linux 自托管版或 Windows 预打包版）加载大模型（如 text encoders 或 >9GB 的 diffusion 模型）时触发，模型存储在 SSD 上。小模型（如 ~6GB 的 Z-Image-Turbo fp8）加载速度正常。用户使用了多个自定义启动参数，包括 --disable-mmap 和 --high-ram。

报错原文

Particularly slow when loading larger models
loading large models (whether text encoders or diffusion models more than 9GB I think) is capped at around 20MB/s, taking over 10 minutes for a single large model

原因分析

可能原因：
1. AMD RX 9070 XT 显卡与 ComfyUI 的模型加载/缓存机制存在兼容性问题，尤其是默认的模型卸载策略导致大模型运行时频繁进行低效的磁盘/内存交换。
2. 用户使用的启动参数组合（如 --disable-mmap 和 --high-ram）可能干扰了 ComfyUI 的模型缓存与内存管理，导致模型加载速度被限制。
3. 问题与模型是否存储在 SSD 无关，但 AMD GPU 下的驱动或 PyTorch rocm 后端可能未正确优化大模型加载路径。

环境排查

确认 ComfyUI 版本（是否为最新版或某个特定版本）。
确认显卡型号（AMD RX 9070 XT）及驱动版本（ROCm 或 AMD GPU 驱动）。
确认 PyTorch 后端（如是否使用 ROCm 版本的 PyTorch）。
确认模型文件存储路径及磁盘读写速度（SSD 是否正常）。
检查当前使用的启动参数列表，尤其注意 --disable-mmap、--high-ram、--disable-dynamic-vram 等。

解决步骤

可优先尝试：将启动参数精简为：--highvram --dont-upcast-attention。这是近期讨论中官方建议的简化参数，用于改善加载性能。注意 --dont-upcast-attention 是调试用参数，仅建议作为测试步骤。
核心方案：添加 --classic-cache 启动参数。该参数可使模型在内存中保持缓存，避免每次加载时重复进行磁盘 I/O。实测在 24GB 模型半显存半内存加载场景下，后续运行速度提升 40 倍。
移除不必要的启动参数，如 --disable-mmap、--disable-dynamic-vram、--high-ram，这些参数可能限制模型加载性能。
如果问题依然存在，可尝试将模型存储在非系统盘的 SSD 上，并确认磁盘是否有碎片或故障。

验证方法

使用简化后的启动参数（仅保留 --highvram --dont-upcast-attention，或添加 --classic-cache）重新启动 ComfyUI，加载一个之前耗时超过 10 分钟的大模型（如 >9GB 的 diffusion 模型）。观察加载时间是否降至分钟级或更短，并确认后续推理步骤是否显著变快。如果加载速度恢复正常（比如在 1-3 分钟内完成），则问题已解决。