标签: LLM

RuntimeError: cancelled

RuntimeError: cancelled

用户启动 vLLM server 时指定了 --kv-offloading-backend native 和 --kv-offloading-size 300 ,在处理长上下文场景(超长 prompt 或超长生成)时会随机崩溃,报出 RuntimeError: cancelled 。运行环境为 Ub