
rocm 7.1 on ryzen ai+ max 395 gpu – segmentation fault
快速结论:该报错发生在 AMD Ryzen AI+ Max 395 (Strix Halo) 平台使用 ROCm 7.1 运行 WanVideoWrapper 时,由 ROCR-Runtime 中 gfx1151 的 VGPR 计数错误导致。优先排查 ROCm 版本是否 ≤ 7.1,并升级至 ROCm 7.2 或更高版本。
问题场景
用户在 ComfyUI 中运行 WanVideoWrapper 文本编码节点(WANVideo TextEncode)时触发。设备设置为 CPU 时,分段错误出现在模型权重加载到 GPU 的过程中;设备设置为 GPU 时,崩溃发生在编码开始之前。
报错原文
Loading and assigning model weights to device...
Loading transformer parameters to cuda:0: 0%| | 0/1095 [00:00<?, ?it/s]Fatal Python error: Segmentation fault
Stack (most recent call first):
File "/home/aadmin/ComfyUI/custom_nodes/ComfyUI-WanVideoWrapper/utils.py", line 186 in set_module_tensor_to_device
File "/home/aadmin/ComfyUI/custom_nodes/ComfyUI-WanVideoWrapper/nodes_model_loading.py", line 921 in load_weights
File "/home/aadmin/ComfyUI/custom_nodes/ComfyUI-WanVideoWrapper/nodes_sampler.py", line 125 in process
原因分析
这是一个已知的 ROCm 7.1(及更早版本)在 Strix Halo (gfx1151) 上的兼容性问题。根本原因是 ROCR-Runtime 中对 gfx1151 的 VGPR (向量通用寄存器) 计数错误,导致 GPU 内存操作时崩溃。该问题在 Issue 中被追踪并已在 ROCm 7.2 中修复。
环境排查
- 确认 ROCm 版本:运行
rocm-smi --version或cat /opt/rocm/.info/version(如果 ≤ 7.1 则为问题版本)。 - 确认 GPU 型号是否属于 Strix Halo 系列 (Ryzen AI+ Max 395)。
- 确认内核版本(用户升级到 6.18.9-061809-generic 后可用,但内核可能非根因)。
- 查阅 ROCm/TheRock #2991 确认已知的 gfx1151 问题。
解决步骤
- 将 ROCm 升级到 7.2 或更高版本(用户使用 7.2.3 后问题消失)。
- 安装较新的内核(可选,但用户将内核升级至 6.18.9-061809-generic 作为辅助措施)。
- 如果无法升级 ROCm,可优先尝试将推理强制限制在 CPU 模式(设置 device 为 cpu),但这会降低性能且并非根本解。
验证方法
升级后重新运行 WanVideoWrapper 文本编码节点。如果分段错误不再出现,且 T5 编码与模型加载步骤顺利通过,则问题已解决。



