[Performance Regression] Significant drop in prompt evaluation speed and increased load time in `0.30.0-RC15` on qwen3:0.6b

快速结论：该性能回退发生在 Ollama 升级到 0.30.0-RC15 后，运行 Qwen3:0.6B 等小模型时 prompt 评估（prefill 阶段）速率下降约 75%，模型加载时间增加近一倍。优先排查是否因未设置物理微批次大小（-ub）导致 llama-server 在预填充阶段使用了默认物理批次路径。

问题场景

用户在 Debian 13 系统上，使用 NVIDIA RTX 3090（24GB VRAM）显卡，从 Ollama 0.23.4 升级到 0.30.0-RC15 后，运行 qwen3:0.6b 小模型时发现 prompt 评估速度从 1326.78 tokens/s 下降到 322.22 tokens/s，模型加载时间也从 965ms 增加到 1733ms。生成阶段（eval rate）速度基本稳定。

报错原文

# 版本 0.23.4（基线）
Load duration: 965.56 ms
Prompt eval rate: 1326.78 tokens/s
Eval rate (Generation): ~467.7 tokens/s (268 tokens / 572.95 ms)
Total duration: 1.632 s

# 版本 0.30.0-RC15（当前）
Load duration: 1733.69 ms (+79% increase)
Prompt eval rate: 322.22 tokens/s (-75.7% decrease)
Eval rate (Generation): ~474.18 tokens/s (Stable/Slight increase)
Total duration: 2.284 s

# 回归汇总
| Metric               | 0.23.4   | 0.30.0-RC15 | Difference        |
| :---                 | :---     | :---        | :---              |
| Load Duration        | 965 ms   | 1733 ms     | ❌ +79% slower     |
| Prompt Eval Rate     | 1326 t/s | 322 t/s     | ❌ -75.7% slower   |
| Eval Rate (Gen)      | 467 t/s  | 474 t/s     | ✅ Stable         |

原因分析

该问题已被确认为 Ollama 0.30.0-RC15 引入的性能回退（Performance Regression）。根据 Issue #16166 的修复 PR 分析，根本原因是：在设置逻辑批次大小（logical batch size）时，未同时设置对应的物理微批次大小（-ub 参数），导致 llama-server 在生成预填充（prefill）阶段使用了默认的物理批次路径。这造成了 prompt 处理阶段的显著性能下降，但生成阶段的推理效率未受影响。

修复方式是通过 llama-server 的批次大小修复来纠正物理批次参数。

环境排查

确认当前 Ollama 版本是否为 0.30.0-RC15 或更早版本（基线 0.23.4 正常）。
确认使用的模型是否为小模型（如 qwen3:0.6b）。
确认操作系统版本（Debian 13）。
确认显卡型号及驱动（NVIDIA RTX 3090, CUDA 13.2）。
确认问题仅出现在 prompt 预填充阶段，而生成阶段（eval rate）无明显变化。

解决步骤

升级到修复版本：Ollama 官方已在最新的版本中修复了此问题。建议升级到 0.30.0-RC15 之后的修复版本。可执行 ollama upgrade 或从 GitHub Releases 页面下载最新版本。
可优先尝试：如果无法升级，可尝试在启动 llama-server 时手动设置物理微批次大小参数 -ub（例如 -ub 512），以覆盖默认物理批次路径。但此方法未经官方验证，仅作临时调试。
如果升级后问题仍存在，请提供新的复现信息（包括模型、参数、日志输出），以便 Issue 重新开启。

验证方法

升级到修复版本后，重新运行同一模型（如 qwen3:0.6b），观察 Load duration 和 Prompt eval rate 指标是否恢复到基线（0.23.4）水平，即加载时间接近 965ms，prompt 评估速率接近 1326 tokens/s。同时确认生成阶段速度未受影响。

参考来源

ollama/ollama #16148 — 原始 Issue 讨论

ollama/ollama #16166 — 修复 PR（批次大小修复）

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

[Performance Regression] Significant drop in prompt evaluation speed and increased load time in `0.30.0-RC15` on qwen3:0.6b