
issue: after upgrading to 0.10.2 all output of Qwen3.5-122B model results in garbage
快速结论:此问题发生在 Open WebUI v0.10.2 通过 vLLM 调用 Qwen3.5-122B-A10B-AWQ 模型时,输出为乱码或无输出。优先排查 Open WebUI 为该模型配置的 presence_penalty 和 frequency_penalty 参数是否非零。
问题场景
用户在 Open WebUI v0.10.2 中,使用 vLLM 0.24.0 部署 Qwen3.5-122B-A10B-AWQ 模型(通过 OpenAI 兼容端点)。其他客户端(Jan.ai)连接同一个 vLLM 端点时输出正常。问题出现在 Open WebUI 内的对话中:表现为无输出、开始正常但后续输出乱码、表格/排版损坏。
报错原文
Every request results in one of the following:
- no output
- starts ok but then prints out garbage
- output of tables, layout gets corrupted
(视频中可见:短篇故事生成时,开头正常,几百词后变为无标点、不终止的持续输出。)
原因分析
分析视频中“令牌流式输出、token counter 持续增长、内容仍相关但无标点且不终止”的现象,表明这是模型生成侧的问题,而非 UI 渲染问题。可能原因为:
- Open WebUI 向 vLLM 发送的请求中,带有非零的
presence_penalty或frequency_penalty。这些惩罚参数会累积抑制高频出现 token(如空格、逗号、句号、EOS 标记),导致模型逐渐失去终止能力,产生无标点、不停顿的输出。AWQ 4-bit 量化模型和 MoE(A10B 激活参数)对此类参数尤其敏感。 - Jan.ai 使用默认参数(penalty=0),因此输出正常。Open WebUI 可能从模型配置中读取了非零的 penalty 值。
注意:本分析基于社区评论(非官方开发者确认),属于推测。Issue 中无进一步验证结果。
环境排查
- Open WebUI 版本:v0.10.2(Docker 部署)
- vLLM 版本:0.24.0
- 模型:Qwen3.5-122B-A10B-AWQ
- vLLM 启动参数中包含
--enable-auto-tool-choice、--tool-call-parser hermes、--reasoning-parser qwen3(用户尝试过其他组合如 qwen-coder,结果相同) - 操作系统:Ubuntu 24.04
解决步骤
- (可优先尝试) 检查 Open WebUI 中该模型的模型配置(Model Config),确认
presence_penalty和frequency_penalty是否被设置为非零值。如果存在,请将这两个参数重置为0并保存。 - 如果步骤1无效,尝试降级 Open WebUI 至 v0.9.6,验证问题是否消失(社区建议此版本作为对比,但原作者未回复结果)。
- 检查是否修改过模型相关的其他采样参数(如 temperature、top_p 等),尝试恢复为 vLLM 默认值。
验证方法
修改参数后,在 Open WebUI 中重新发起一个对话(尤其是长文本生成任务),观察输出是否恢复正常(标点、终止完整)。与 Jan.ai 的输出进行对比,确保一致性。



