ValueError: too many values to unpack (expected 4)

快速结论：此错误通常在使用 Flex Attention 配合静态缓存（Static Cache）时发生，原因是 q_offset 参数被传递为 torch.Tensor 类型而非 int，导致 mask 形状多出额外维度，超出预期的 4 维。优先排查 q_offset 是否在调用 flex_attention_mask 前通过 .item() 转换为 Python 整数。

问题场景

用户在使用 Hugging Face Transformers 库中的 Flex Attention 机制（--attn-type flex_attention）并启用静态缓存（--use-static-cache）运行 Qwen/Qwen3-4B 模型推理时触发。具体操作包括执行 run_generation.py 脚本，配置了 BF16、Inductor、WoQ RTN 量化等参数。

报错原文

ValueError: too many values to unpack (expected 4)

该错误由 flex_attention_mask 函数内部因 mask 张量维度超过 4 维而引发。

原因分析

根据 Issue 讨论，根本原因在于 q_offset 参数被错误地作为 torch.Tensor 对象传递给 flex_attention_mask 函数，而不是预期的普通 int 类型。该函数的签名明确要求 q_offset: int = 0，但当 q_offset 传入 Tensor 时，它会引入一个额外的维度，导致 mask 形状变得不合规（超过 4 维），从而触发 ValueError。

注意：Issue 中还提到了两个独立的非运行时问题——一个涉及内存布局步长匹配（由外部库 renorm-native 的评论提及），另一个是在 pr_build_doc_with_comment.yml 工作流中的 GitHub Actions 权限配置问题。这些与主要报错无直接因果关系，不应被视为当前错误的直接原因。

环境排查

Python 版本：建议 3.10+
PyTorch 版本：2.14.0.dev20260613+cu126（用户环境）
Transformers 版本：5.12.1
CUDA 版本：cu126
GPU：需支持 Flex Attention 的 NVIDIA 设备
依赖：triton 3.7.1+git5d6048aa，torchao 0.18.0.dev20260615+cu126
运行脚本：run_generation.py（需确认使用 --attn-type flex_attention 和 --use-static-cache）

解决步骤

确认 q_offset 类型转换：在调用 flex_attention_mask 之前，检查 q_offset 的来源。如果它来自一个张量（例如通过某个切片或索引操作获得），请使用 .item() 方法将其显式转换为 Python int。例如：q_offset = q_offset_tensor.item()。
应用官方修复（如果可用）：Issue 中提到 PR #46802 解决了此问题。建议将 Transformers 更新到包含该 PR 的版本（至少 5.12.1 以上，但建议使用最新发布版）。如果无法升级，可手动在源代码中定位 flex_attention_mask 的调用处，对 q_offset 做相同处理。
简化复现测试：先使用最简单的命令排除其他参数干扰：python run_generation.py -m Qwen/Qwen3-4B --input-tokens 1024 --max-new-tokens 1024 --device cuda --dtype bfloat16 --attn-type flex_attention --use-static-cache --inductor --num-beams 1。若此命令仍报错，则确认是 q_offset 问题。
检查 mask 生成逻辑：如果修改 q_offset 后问题依旧，检查是否有其他类似参数（如 kv_offset）也可能被错误地传递为 Tensor。
回退测试：如果上述步骤均无效，可临时改为其他 attn 类型（如 flash_attention_2）或禁用 Flex Attention，以确认问题仅出现在此模式下。

验证方法

重新运行相同的推理命令，检查是否不再出现 ValueError: too many values to unpack (expected 4) 错误。模型应能成功生成文本，且无维度相关的异常。可通过观察输出日志末尾是否正常打印生成结果来确认。

参考来源

huggingface/transformers #46682

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

ValueError: too many values to unpack (expected 4)