![[Performance Regression] Significant drop in prompt evaluation speed and increased load time in `0.30.0-RC15` on qwen3:0.6b](https://www.chat-gpts.plus/wp-content/uploads/2026/07/16148-f90cd745.jpg)
[Performance Regression] Significant drop in prompt evaluation speed and increased load time in `0.30.0-RC15` on qwen3:0.6b
快速结论:该性能回退发生在 Ollama 升级到 0.30.0-RC15 后,运行 Qwen3:0.6B 等小模型时 prompt 评估(prefill 阶段)速率下降约 75%,模型加载时间增加近一倍。优先排查是否因未设置物理微批次大小(-ub)导致 llama-server 在预填充阶段使用了默认物理批次路径。
问题场景
用户在 Debian 13 系统上,使用 NVIDIA RTX 3090(24GB VRAM)显卡,从 Ollama 0.23.4 升级到 0.30.0-RC15 后,运行 qwen3:0.6b 小模型时发现 prompt 评估速度从 1326.78 tokens/s 下降到 322.22 tokens/s,模型加载时间也从 965ms 增加到 1733ms。生成阶段(eval rate)速度基本稳定。
报错原文
# 版本 0.23.4(基线)
Load duration: 965.56 ms
Prompt eval rate: 1326.78 tokens/s
Eval rate (Generation): ~467.7 tokens/s (268 tokens / 572.95 ms)
Total duration: 1.632 s
# 版本 0.30.0-RC15(当前)
Load duration: 1733.69 ms (+79% increase)
Prompt eval rate: 322.22 tokens/s (-75.7% decrease)
Eval rate (Generation): ~474.18 tokens/s (Stable/Slight increase)
Total duration: 2.284 s
# 回归汇总
| Metric | 0.23.4 | 0.30.0-RC15 | Difference |
| :--- | :--- | :--- | :--- |
| Load Duration | 965 ms | 1733 ms | ❌ +79% slower |
| Prompt Eval Rate | 1326 t/s | 322 t/s | ❌ -75.7% slower |
| Eval Rate (Gen) | 467 t/s | 474 t/s | ✅ Stable |
原因分析
该问题已被确认为 Ollama 0.30.0-RC15 引入的性能回退(Performance Regression)。根据 Issue #16166 的修复 PR 分析,根本原因是:在设置逻辑批次大小(logical batch size)时,未同时设置对应的物理微批次大小(-ub 参数),导致 llama-server 在生成预填充(prefill)阶段使用了默认的物理批次路径。这造成了 prompt 处理阶段的显著性能下降,但生成阶段的推理效率未受影响。
修复方式是通过 llama-server 的批次大小修复来纠正物理批次参数。
环境排查
- 确认当前 Ollama 版本是否为
0.30.0-RC15或更早版本(基线0.23.4正常)。 - 确认使用的模型是否为小模型(如
qwen3:0.6b)。 - 确认操作系统版本(Debian 13)。
- 确认显卡型号及驱动(NVIDIA RTX 3090, CUDA 13.2)。
- 确认问题仅出现在 prompt 预填充阶段,而生成阶段(eval rate)无明显变化。
解决步骤
- 升级到修复版本:Ollama 官方已在最新的版本中修复了此问题。建议升级到
0.30.0-RC15之后的修复版本。可执行ollama upgrade或从 GitHub Releases 页面下载最新版本。 - 可优先尝试:如果无法升级,可尝试在启动
llama-server时手动设置物理微批次大小参数-ub(例如-ub 512),以覆盖默认物理批次路径。但此方法未经官方验证,仅作临时调试。 - 如果升级后问题仍存在,请提供新的复现信息(包括模型、参数、日志输出),以便 Issue 重新开启。
验证方法
升级到修复版本后,重新运行同一模型(如 qwen3:0.6b),观察 Load duration 和 Prompt eval rate 指标是否恢复到基线(0.23.4)水平,即加载时间接近 965ms,prompt 评估速率接近 1326 tokens/s。同时确认生成阶段速度未受影响。
参考来源
ollama/ollama #16148 — 原始 Issue 讨论
ollama/ollama #16166 — 修复 PR(批次大小修复)



