[Performance Regression] Significant drop in prompt evaluation speed and increased load time in `0.30.0-RC15` on qwen3:0.6b

用户在 Debian 13 系统上,使用 NVIDIA RTX 3090(24GB VRAM)显卡,从 Ollama 0.23.4 升级到 0.30.0-RC15 后,运行 qwen3:0.6b 小模型时发现 prompt 评估速度从 1326.78 tokens/s 下降到 322.22 toke

[Performance Regression] Significant drop in prompt evaluation speed and increased load time in `0.30.0-RC15` on qwen3:0.6b

[Performance Regression] Significant drop in prompt evaluation speed and increased load time in `0.30.0-RC15` on qwen3:0.6b

快速结论:该性能回退发生在 Ollama 升级到 0.30.0-RC15 后,运行 Qwen3:0.6B 等小模型时 prompt 评估(prefill 阶段)速率下降约 75%,模型加载时间增加近一倍。优先排查是否因未设置物理微批次大小(-ub)导致 llama-server 在预填充阶段使用了默认物理批次路径。

问题场景

用户在 Debian 13 系统上,使用 NVIDIA RTX 3090(24GB VRAM)显卡,从 Ollama 0.23.4 升级到 0.30.0-RC15 后,运行 qwen3:0.6b 小模型时发现 prompt 评估速度从 1326.78 tokens/s 下降到 322.22 tokens/s,模型加载时间也从 965ms 增加到 1733ms。生成阶段(eval rate)速度基本稳定。

报错原文

# 版本 0.23.4(基线)
Load duration: 965.56 ms
Prompt eval rate: 1326.78 tokens/s
Eval rate (Generation): ~467.7 tokens/s (268 tokens / 572.95 ms)
Total duration: 1.632 s

# 版本 0.30.0-RC15(当前)
Load duration: 1733.69 ms (+79% increase)
Prompt eval rate: 322.22 tokens/s (-75.7% decrease)
Eval rate (Generation): ~474.18 tokens/s (Stable/Slight increase)
Total duration: 2.284 s

# 回归汇总
| Metric               | 0.23.4   | 0.30.0-RC15 | Difference        |
| :---                 | :---     | :---        | :---              |
| Load Duration        | 965 ms   | 1733 ms     | ❌ +79% slower     |
| Prompt Eval Rate     | 1326 t/s | 322 t/s     | ❌ -75.7% slower   |
| Eval Rate (Gen)      | 467 t/s  | 474 t/s     | ✅ Stable         |

原因分析

该问题已被确认为 Ollama 0.30.0-RC15 引入的性能回退(Performance Regression)。根据 Issue #16166 的修复 PR 分析,根本原因是:在设置逻辑批次大小(logical batch size)时,未同时设置对应的物理微批次大小(-ub 参数),导致 llama-server 在生成预填充(prefill)阶段使用了默认的物理批次路径。这造成了 prompt 处理阶段的显著性能下降,但生成阶段的推理效率未受影响。

修复方式是通过 llama-server 的批次大小修复来纠正物理批次参数。

环境排查

  • 确认当前 Ollama 版本是否为 0.30.0-RC15 或更早版本(基线 0.23.4 正常)。
  • 确认使用的模型是否为小模型(如 qwen3:0.6b)。
  • 确认操作系统版本(Debian 13)。
  • 确认显卡型号及驱动(NVIDIA RTX 3090, CUDA 13.2)。
  • 确认问题仅出现在 prompt 预填充阶段,而生成阶段(eval rate)无明显变化。

解决步骤

  1. 升级到修复版本:Ollama 官方已在最新的版本中修复了此问题。建议升级到 0.30.0-RC15 之后的修复版本。可执行 ollama upgrade 或从 GitHub Releases 页面下载最新版本。
  2. 可优先尝试:如果无法升级,可尝试在启动 llama-server 时手动设置物理微批次大小参数 -ub(例如 -ub 512),以覆盖默认物理批次路径。但此方法未经官方验证,仅作临时调试。
  3. 如果升级后问题仍存在,请提供新的复现信息(包括模型、参数、日志输出),以便 Issue 重新开启。

验证方法

升级到修复版本后,重新运行同一模型(如 qwen3:0.6b),观察 Load durationPrompt eval rate 指标是否恢复到基线(0.23.4)水平,即加载时间接近 965ms,prompt 评估速率接近 1326 tokens/s。同时确认生成阶段速度未受影响。

参考来源

ollama/ollama #16148 — 原始 Issue 讨论

ollama/ollama #16166 — 修复 PR(批次大小修复)

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

celebrityanime
celebrityanime
文章: 10969

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注