RuntimeError: Qwen3-VL does not support AttentionBackendEnum.FLASHINFER backend now.

快速结论：该报错通常发生在用户尝试通过环境变量 VLLM_ATTENTION_BACKEND 手动切换注意力后端时，Qwen3-VL 模型当前只支持 FLASH_ATTN 后端。优先检查日志中的注意力后端是否为 FLASH_ATTN，并避免设置其他后端。

问题场景

用户在 vLLM 服务中加载 Qwen3-VL 系列模型（如 Qwen3-VL-235B-A22B-Instruct、Qwen3-VL-30B-A3B-Thinking）时，通过 VLLM_ATTENTION_BACKEND 环境变量尝试切换到 FLASHINFER、TRITON_ATTN 或 FLEX_ATTENTION 等后端，导致启动失败并抛出此错误。涉及工具包括 vLLM、OpenAI API server。

报错原文

ERROR 11-28 07:55:57 [multiproc_executor.py:743] RuntimeError: Qwen3-VL does not support AttentionBackendEnum.FLASHINFER backend now.

类似地，切换至 TRITON_ATTN 或 FLEX_ATTENTION 时也会出现类似的报错：

ERROR 11-28 07:56:53 [multiproc_executor.py:743] RuntimeError: Qwen3-VL does not support AttentionBackendEnum.TRITON_ATTN backend now.
ERROR 11-28 07:58:14 [multiproc_executor.py:743] RuntimeError: Qwen3-VL does not support AttentionBackendEnum.FLEX_ATTENTION backend now.

原因分析

Qwen3-VL 模型的注意力实现目前仅与 FLASH_ATTN 后端兼容，其他注意力后端（如 FLASHINFER、TRITON_ATTN、FLEX_ATTENTION）尚未得到支持。用户在启动时未显式设置后端时，vLLM 默认使用 FLASH_ATTN，不会触发此错误；但手动通过 VLLM_ATTENTION_BACKEND 强制指定其他后端会导致启动时检查失败。

此问题与特定 GPU 架构（如 H100/H200/H20）无关——用户在不同架构上均发现只有 FLASH_ATTN 可用。

环境排查

vLLM 版本：v0.11.0、v0.11.1、v0.11.2 均受影响。
Python 版本：3.12.12。
PyTorch 版本：2.9.0+cu129。
CUDA 版本：12.9（构建时），驱动版本 535.161.08。
GPU 架构：NVIDIA H20、H200、H100、A100 等。
启动日志：检查启动日志中是否输出了 Using FLASH_ATTN backend.。
环境变量：确认是否设置了 VLLM_ATTENTION_BACKEND，以及其值不为 FLASH_ATTN。

解决步骤

移除或取消设置 VLLM_ATTENTION_BACKEND 环境变量，让 vLLM 自动选择默认后端（即 FLASH_ATTN）。
如需显式指定，确保该变量值为 FLASH_ATTN，例如：
```
export VLLM_ATTENTION_BACKEND=FLASH_ATTN
```
重启 vLLM 服务，观察启动日志中是否包含如下确认信息：
```
INFO ... [cuda.py:427] Using FLASH_ATTN backend.
```
若仍遇到 grounding 精度或性能问题，可尝试回退至 vLLM v0.11.0（注意：该版本可能在其他场景引发问题），或关注上游修复进展。

可优先尝试：移除 VLLM_ATTENTION_BACKEND 环境变量，重启服务。

验证方法

成功启动后，通过 vLLM API 或客户端发送一次推理请求（如图像 grounding 检测），确认模型正常响应且不抛出上述运行时错误。同时检查日志中是否以 Using FLASH_ATTN backend. 启动。

参考来源

vllm-project/vllm #29595

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

RuntimeError: Qwen3-VL does not support AttentionBackendEnum.FLASHINFER backend now.