[Bug]: MoE base model requests may be affected by LoRA deltas when LoRA adapters are loaded

用户在 vLLM 服务中配置了 LoRA adapter,随后发送针对基座模型(不应用 LoRA)的推理请求。在 MoE 架构的基座模型上,部分请求的输出被错误地叠加了 LoRA 的 delta 权重,导致推理结果出现偏差。

[Bug]: MoE base model requests may be affected by LoRA deltas when LoRA adapters are loaded

[Bug]: MoE base model requests may be affected by LoRA deltas when LoRA adapters are loaded

快速结论:该问题发生在 vLLM 0.20.0 中加载了 LoRA adapter 后,后续对 MoE 基座模型的请求(base-model-only batch)可能会被残留的 LoRA delta 污染输出。优先排查是否使用了 MoE 基座模型(如 DeepSeek-V3、Mixtral 等)并同时加载了 LoRA adapter。

问题场景

用户在 vLLM 服务中配置了 LoRA adapter,随后发送针对基座模型(不应用 LoRA)的推理请求。在 MoE 架构的基座模型上,部分请求的输出被错误地叠加了 LoRA 的 delta 权重,导致推理结果出现偏差。

报错原文

该问题不触发显式报错,而是表现为推理结果有隐秘偏差——
用户观察到的现象是“visible corruption in the output is unlikely - only observed in tandem with #42007 or a truly garbage/random LoRA adapter”,
开发者通过日志和单次测试验证了“a delta stemming from LoRA in base-model-only batches”。
核心错误逻辑可见于代码路径中 token_lora_mapping 的脏数据传播。

原因分析

开发者在 main 分支上复现时确认根因:当 LoRA adapter 被加载后,token_lora_mapping 中残留了旧的 LoRA token ID。在后续仅处理基座模型请求(base-model-only batch)时,调度器错误地通过此映射将 LoRA delta 应用到中间激活层,导致结果被污染。虽然部分代码路径已改用 active_lora_ids(更新及时、不会残留)来提前判断退出条件,但 MoE 模型中仍存在未被覆盖的路径。

该 Bug 属于逻辑残留问题,而非配置异常。在非 MoE 模型(如 LLaMA)上不易被触发。

环境排查

  • vLLM 版本:0.20.0(问题在 main 分支最新代码中仍部分存在,直到 PR #42120 修复)
  • 模型架构:MoE 类型(如 DeepSeek-V3、Mixtral 等)
  • 服务负载:同时接收 LoRA adapter 请求与 base-model-only 请求,或接替发送
  • PyTorch / CUDA:不影响修复,但确认版本与对应 vLLM 兼容

解决步骤

  1. 升级 vLLM 到已包含修复的版本
    该 Bug 由 PR #42120 修复,建议升级到该 PR 合入后的版本(> 0.20.0-next 或后续正式版)。
  2. 若暂时无法升级,可尝试在生产环境隔离 LoRA adapter 和 base-model-only 两条推理路径(不同 vLLM 实例),避免调度器共用 token_lora_mapping
  3. 临时缓解观察:如果仅遇到此 Bug 而未遇到 #42007,输出的差异通常微小(开发者称“visible corruption unlikely”),可在风险可控前提下继续使用,但建议尽快修复。

验证方法

执行如下验证:

  1. 加载至少一个 LoRA adapter。
  2. 连续发送多个 base-model-only 请求(不指定 LoRA adapter 或使用空 adapter)。
  3. 对比升级前后两次相同请求的输出 logits 或采样结果,确认无系统性偏差。
  4. 若使用 MoE 模型,建议同时测试与 LoRA 请求混合的并发场景。

开发者已通过添加日志并单次运行验证修复前后存在于 base-model-only batch 中的 delta 被消除。

参考来源

vllm-project/vllm #42008
修复 PR #42120
关联 Issue #38606

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

celebrityanime
celebrityanime
文章: 9616

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注