Mamba2Mixer: use_cache with seq_len > 1 silently produces incorrect results (both CPU and GPU paths)

用户在 HuggingFace transformers 库(Mamba2 模型)中,使用 DynamicCache 、 use_cache=True 且输入序列长度(seq_len)大于 1 时触发。场景包括:对长序列进行分块推理,期望通过缓存状态实现状态继承,但 Mamba2Mixer 仅支持单








