
ValueError: too many values to unpack (expected 4)
快速结论:此错误通常在使用 Flex Attention 配合静态缓存(Static Cache)时发生,原因是 q_offset 参数被传递为 torch.Tensor 类型而非 int,导致 mask 形状多出额外维度,超出预期的 4 维。优先排查 q_offset 是否在调用 flex_attention_mask 前通过 .item() 转换为 Python 整数。
问题场景
用户在使用 Hugging Face Transformers 库中的 Flex Attention 机制(--attn-type flex_attention)并启用静态缓存(--use-static-cache)运行 Qwen/Qwen3-4B 模型推理时触发。具体操作包括执行 run_generation.py 脚本,配置了 BF16、Inductor、WoQ RTN 量化等参数。
报错原文
ValueError: too many values to unpack (expected 4)
该错误由 flex_attention_mask 函数内部因 mask 张量维度超过 4 维而引发。
原因分析
根据 Issue 讨论,根本原因在于 q_offset 参数被错误地作为 torch.Tensor 对象传递给 flex_attention_mask 函数,而不是预期的普通 int 类型。该函数的签名明确要求 q_offset: int = 0,但当 q_offset 传入 Tensor 时,它会引入一个额外的维度,导致 mask 形状变得不合规(超过 4 维),从而触发 ValueError。
注意:Issue 中还提到了两个独立的非运行时问题——一个涉及内存布局步长匹配(由外部库 renorm-native 的评论提及),另一个是在 pr_build_doc_with_comment.yml 工作流中的 GitHub Actions 权限配置问题。这些与主要报错无直接因果关系,不应被视为当前错误的直接原因。
环境排查
- Python 版本:建议 3.10+
- PyTorch 版本:2.14.0.dev20260613+cu126(用户环境)
- Transformers 版本:5.12.1
- CUDA 版本:cu126
- GPU:需支持 Flex Attention 的 NVIDIA 设备
- 依赖:triton 3.7.1+git5d6048aa,torchao 0.18.0.dev20260615+cu126
- 运行脚本:
run_generation.py(需确认使用--attn-type flex_attention和--use-static-cache)
解决步骤
- 确认
q_offset类型转换:在调用flex_attention_mask之前,检查q_offset的来源。如果它来自一个张量(例如通过某个切片或索引操作获得),请使用.item()方法将其显式转换为 Pythonint。例如:q_offset = q_offset_tensor.item()。 - 应用官方修复(如果可用):Issue 中提到 PR #46802 解决了此问题。建议将 Transformers 更新到包含该 PR 的版本(至少 5.12.1 以上,但建议使用最新发布版)。如果无法升级,可手动在源代码中定位
flex_attention_mask的调用处,对q_offset做相同处理。 - 简化复现测试:先使用最简单的命令排除其他参数干扰:
python run_generation.py -m Qwen/Qwen3-4B --input-tokens 1024 --max-new-tokens 1024 --device cuda --dtype bfloat16 --attn-type flex_attention --use-static-cache --inductor --num-beams 1。若此命令仍报错,则确认是q_offset问题。 - 检查 mask 生成逻辑:如果修改
q_offset后问题依旧,检查是否有其他类似参数(如kv_offset)也可能被错误地传递为 Tensor。 - 回退测试:如果上述步骤均无效,可临时改为其他 attn 类型(如
flash_attention_2)或禁用 Flex Attention,以确认问题仅出现在此模式下。
验证方法
重新运行相同的推理命令,检查是否不再出现 ValueError: too many values to unpack (expected 4) 错误。模型应能成功生成文本,且无维度相关的异常。可通过观察输出日志末尾是否正常打印生成结果来确认。



