
REGRESSION: NVIDIA-Nemotron-Nano-9B-v2 not working.
快速结论:此问题出现在运行 mirage335/NVIDIA-Nemotron-Nano-9B-v2-virtuoso 模型时,报错 Error: 500 Internal Server Error: llama runner process has terminated: exit status 2,原因是上游 llama.cpp 对 Nemotron v2 MoE 模型参数处理有误。优先排查 Ollama 版本是否为 0.13.5 或包含该回归的版本,并尝试回退到 v0.13.3 或等待合并上游修复。
问题场景
用户在 Ollama 中运行 mirage335/NVIDIA-Nemotron-Nano-9B-v2-virtuoso 模型(一个基于 NVIDIA Nemotron Nano 9B 的 MoE 模型)时,通过 --verbose 参数发起推理请求,模型加载失败并返回 500 错误。该问题在之前的版本中运行正常,在 Ollama 0.13.5 版本中回归出现。同一环境下的其他模型(如 GPT-OSS、DeepSeek、Devstral)均无问题。
报错原文
Error: 500 Internal Server Error: llama runner process has terminated: exit status 2
原因分析
该回归由 Ollama 合并的某次上游 llama.cpp 变更引入(commit 7e3ea813c1d8a9714c6927f75656d5ff6eaf5acc),该变更添加了对 Nemotron-Nano 的支持,但导致模型参数处理出现错误。经确认,该问题在 llama.cpp 的上游修复 PR #18309 中已解决,该修复针对 Nemotron v2 MoE 模型的参数处理。Ollama 随后通过 PR #13607 合并了该修复。
环境排查
- Ollama 版本:确认是否为 0.13.5 或包含该回归的版本。
- 模型名称:
mirage335/NVIDIA-Nemotron-Nano-9B-v2-virtuoso。 - 上游依赖:底层 llama.cpp 是否包含 PR #18309 的修复。
- 操作系统与运行时:如 Windows/Docker/WSL2,以及 NVIDIA 驱动版本(虽然 Issue 提到驱动更新未解决问题)。
解决步骤
- 回退到临时工作版本:立即使用 Ollama v0.13.3 运行此模型。这是 Issue 中确认可工作的降级方案。
- 等待或应用修复:升级到包含 PR #13607 合并的 Ollama 版本(该 PR 已确认修复该问题)。
- 从源码构建(备选):如果技术可行,可自行构建 Ollama,并确保底层 llama.cpp 包含 PR #18309 的补丁。这也是 Issue 中确认的验证方法。
验证方法
运行相同的命令:ollama run mirage335/NVIDIA-Nemotron-Nano-9B-v2-virtuoso --verbose Give me three words starting with the letter F。如果模型正常加载并输出类似 1. Flower 2. Fire 3. Fish 的响应,且无 500 错误或 runner 退出,则问题已解决。



