Ram filling up, issue after recent update

快速结论：该报错通常出现在 ComfyUI 更新后运行 LTX Video（尤其是 LTX 2.3 v2v 工作流）时，表现为主内存（RAM）持续增长、生成速度严重下降，甚至导致 BSOD（蓝屏）。优先排查是否由 comfyui-kitchen 或 PyTorch 2.11.0+cu130 的内存释放问题引起。

问题场景

用户使用 ComfyUI 0.27.0，在 Windows 10 上通过 RTX 3060（12GB VRAM）运行 LTX 2.3 v2v 工作流（fp8 模型）。更新到最新版本后，工作流执行到第二个 LTX Sampler 阶段时，系统 RAM 从正常的 48 GB 以下暴涨至 69 GB 以上，单次生成时间从 8 分钟延长到 28 分钟以上。即使用户切换到 int8 模型，速度仍比更新前慢约一半（20 分钟 vs 正常 10 分钟），并出现 BSOD “UNEXPECTED STORE EXCEPTION”。后续在 LTX 音频解码和 Wan/ Bernini 模型的 VAE 解码阶段也会出现 CUDA error: invalid argument，需要重启 ComfyUI 才能暂时缓解。

报错原文

[INFO] pytorch version: 2.11.0+cu130
[INFO] Set vram state to: NORMAL_VRAM
[INFO] Device: cuda:0 NVIDIA GeForce RTX 3060 : cudaMallocAsync
[INFO] Using async weight offloading with 2 streams
[INFO] Enabled pinned memory 13075.0
[INFO] Using pytorch attention
[INFO] DynamicVRAM support detected and enabled
[INFO] ComfyUI version: 0.27.0
[INFO] comfy-aimdo version: 0.4.10
[INFO] comfy-kitchen version: 0.2.16

[EROOR] !!! Exception during processing !!! CUDA error: invalid argument
Search for `cudaErrorInvalidValue' in https://docs.nvidia.com/cuda/cuda-runtime-api/group__CUDART__TYPES.html for more information.
CUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect.
For debugging consider passing CUDA_LAUNCH_BLOCKING=1
Compile with `TORCH_USE_CUDA_DSA` to enable device-side assertions.

Traceback (most recent call last):
  File "S:\ComfyUI_windows_portable\ComfyUI\execution.py", line 542, in execute
    output_data, output_ui, has_subgraph, has_pending_tasks = await get_output_data(...)
  File "S:\ComfyUI_windows_portable\ComfyUI\execution.py", line 341, in get_output_data
    return_values = await _async_map_node_over_list(...)
  File "S:\ComfyUI_windows_portable\ComfyUI\execution.py", line 315, in _async_map_node_over_list
    await process_inputs(input_dict, i)

原因分析

可能原因（Issue 讨论中尚未有明确证据，以下为基于用户报告的推测）：

comfyui-kitchen 0.2.16 存在内存泄漏：用户提到此前版本已有已知内存泄漏问题，而当前版本可能未完全修复，导致 LTX 2.3 工作流中显存（VRAM）或系统 RAM 无法被及时释放，且在每次生成后持续累积。
PyTorch 2.11.0+cu130 与 cudaMallocAsync 的交互异常：新增的异步权重卸载（async weight offloading）和 pinned memory 机制可能在某些 NVIDIA 驱动/硬件组合下未能正确回收显存，转而溢出到系统 RAM。
Windows 10 + 系统托管交换文件（system managed swap）在高内存压力下容易触发 “UNEXPECTED STORE EXCEPTION” 蓝屏，但该问题在 Windows 11 上可能被部分规避，而 Windows 10 用户更易遇到。

环境排查

ComfyUI 版本：确认是否为 0.27.0 或更新版本。
PyTorch 版本：确认是否为 2.11.0+cu130。
comfyui-kitchen 版本：确认是否为 0.2.16。
comfy-aimdo 版本：确认是否为 0.4.10。
显卡与驱动：NVIDIA GeForce RTX 3060（12GB VRAM），确认驱动版本及是否启用了 cudaMallocAsync。
操作系统：Windows 10 或 Windows 11（用户发现 Windows 10 下 BSOD 更频繁）。
LTX 模型格式：fp8 或 int8 模型均可能触发（int8 稍好但未根治）。
工作流复杂度：视频生成工作流中是否包含多个 LTX Sampler、VAE 解码或音频解码节点。

解决步骤

回滚 ComfyUI 和组件版本：用户确认此问题在更新后出现，更新前工作正常。可优先尝试回滚到 3 天前的 ComfyUI 及 comfyui-kitchen 版本（注意：Issue 中未提供具体回滚版本号，建议根据更新日期逐个降级测试）。
添加静态交换文件：在 Windows 10 中，禁用系统托管交换文件，改为手动设置固定大小的交换文件（例如：32 GB RAM 时设置 32-48 GB 固定大小），以缓解 BSOD 风险。可优先尝试。
在工作流中插入显存/RAM 清理节点：用户在工作流中已经使用了”Clean VRAM”和”Clean RAM”节点，如果尚未使用，可在每个 Sampler 或 VAE 解码之后添加这类节点（例如 ComfyUI-Cleaner 或 comfyui-kitchen 中的清理节点）。
减少后台进程：运行前关闭 Dropbox 等占用 RAM 的后台程序，释放系统内存。
测试不同模型格式：如果必须使用最新版本，尝试从 fp8 切换到 int8 模型或切换到 Wan 模型（fp8），观察是否仍然出现 RAM 暴涨。用户测试显示 int8 模型 BSOD 频率降低，但速度仍偏慢。
传递 CUDA_LAUNCH_BLOCKING=1 环境变量：在 ComfyUI 启动脚本中设置该变量（例如 set CUDA_LAUNCH_BLOCKING=1 再运行 main.py），便于在出现 CUDA error: invalid argument 时获取更精确的堆栈信息，用于进一步排查。
重启进程而非仅重启 ComfyUI：当连续出现 CUDA 错误时，完全退出 ComfyUI 及相关 Python 进程，再重新启动，以确保证残留的显存/内存被释放。

验证方法

运行原本触发 RAM 暴涨的 LTX 2.3 v2v 工作流（fp8 或 int8 模型均可），观察任务管理器中的 RAM 使用曲线：若 RAM 在生成过程中不会持续增长到 50 GB 以上，且生成时间恢复到更新前的水平（约 10 分钟），则问题已解决。同时，连续运行 3-5 个批次工作流，确保不再出现 BSOD 或 CUDA error: invalid argument。