[Bug]: Prefix-read and no-prefix-read paths can yield different greedy answers for the same prompt

快速结论：该问题发生在 vLLM 启用 prefix caching（前缀缓存）时，同一 prompt 在缓存命中（prefix-read）与未命中（no-prefix-read，即完整重计算）两条路径下产生不同的贪婪解码结果。优先排查是否因 bf16 精度下的浮点数归约顺序差异导致，可尝试设置环境变量 VLLM_BATCH_INVARIANT=1。

问题场景

用户在 vLLM 推理服务中启用 prefix caching 功能（V1 引擎），使用 Qwen2-0.5B 模型（bf16 精度，TP=1），在 NVIDIA RTX 4090 或 3090 上运行时，同一 prompt 因是否命中前缀缓存而产生不同的语义输出（例如：缓存路径输出 “her ring”，无缓存路径输出 “herring”）。

报错原文

此问题并非产生显式报错，而是推理结果不一致。Issue 中的关键验证输出如下：

{
  "ctl_text": " A",
  "ctl_meaning": "herring",
  "hit_text": " B",
  "hit_meaning": "her ring",
  "different": true
}

原因分析

核心原因并非 prefix caching 的逻辑缺陷，而是 bf16 浮点精度的数值不稳定问题，导致两条路径下 KV cache 的归约（reduction）顺序不同，最终使 logits 在分词语义边界处发生翻转。

在缓存命中路径（prefix-read）中，部分 KV cache 直接重用，计算顺序与完整重计算路径不同，导致 bf16 下的浮点数累加顺序产生微小差异。
这种差异在 argmax 采样时，于 token 边界（如 “her|ring” vs “herring”）被放大，产生不同的贪婪解码结果。
使用 fp32 精度运行时，该问题消失（因为 fp32 对归约顺序不敏感）。
该现象在 vLLM v0.17.1 和 v0.20.0 版本上均可复现，说明并非特定版本或 kernel 引入的问题。

环境排查

确认 vLLM 版本（复现范围：v0.17.1 ~ v0.20.0+）
确认模型数据类型：是否为 bf16（fp32 不受影响）
确认是否启用了 prefix caching（V1 引擎）
确认显卡类型与驱动版本（已复现于 RTX 3090 / 4090）
确认 CUDA / PyTorch 版本（复现环境：CUDA 12.8 / 13.2，PyTorch 2.10.0）

解决步骤

设置 VLLM_BATCH_INVARIANT=1 环境变量后重新运行（可优先尝试）：

export VLLM_BATCH_INVARIANT=1

此变量通过约束 attention 实现（选择 #40193 引入的四个 batch-invariant 实现），确保 bf16 下不同路径的归约顺序一致，使缓存路径与重计算路径的 KV cache 达到比特级一致。

如果无法使用 VLLM_BATCH_INVARIANT，可尝试将模型精度切换为 fp32（需更多显存）。
如果问题仍存在，请检查是否有自定义的 prefix caching 初始化逻辑或 attention mask 构建差异。

验证方法

在设置 VLLM_BATCH_INVARIANT=1 后，对同一 prompt 分别在 prefix cache 命中与未命中的情况下运行，确认 greedy 解码结果一致。具体表现为：之前出现语义分叉的 token 序列（如 “her ring” vs “herring”）现在稳定输出同一结果。