REGRESSION: NVIDIA-Nemotron-Nano-9B-v2 not working.

用户在 Ollama 中运行 mirage335/NVIDIA-Nemotron-Nano-9B-v2-virtuoso 模型(一个基于 NVIDIA Nemotron Nano 9B 的 MoE 模型)时,通过 --verbose 参数发起推理请求,模型加载失败并返回 500 错误。该问题在之前的

REGRESSION: NVIDIA-Nemotron-Nano-9B-v2 not working.

REGRESSION: NVIDIA-Nemotron-Nano-9B-v2 not working.

快速结论:此问题出现在运行 mirage335/NVIDIA-Nemotron-Nano-9B-v2-virtuoso 模型时,报错 Error: 500 Internal Server Error: llama runner process has terminated: exit status 2,原因是上游 llama.cpp 对 Nemotron v2 MoE 模型参数处理有误。优先排查 Ollama 版本是否为 0.13.5 或包含该回归的版本,并尝试回退到 v0.13.3 或等待合并上游修复。

问题场景

用户在 Ollama 中运行 mirage335/NVIDIA-Nemotron-Nano-9B-v2-virtuoso 模型(一个基于 NVIDIA Nemotron Nano 9B 的 MoE 模型)时,通过 --verbose 参数发起推理请求,模型加载失败并返回 500 错误。该问题在之前的版本中运行正常,在 Ollama 0.13.5 版本中回归出现。同一环境下的其他模型(如 GPT-OSS、DeepSeek、Devstral)均无问题。

报错原文

Error: 500 Internal Server Error: llama runner process has terminated: exit status 2

原因分析

该回归由 Ollama 合并的某次上游 llama.cpp 变更引入(commit 7e3ea813c1d8a9714c6927f75656d5ff6eaf5acc),该变更添加了对 Nemotron-Nano 的支持,但导致模型参数处理出现错误。经确认,该问题在 llama.cpp 的上游修复 PR #18309 中已解决,该修复针对 Nemotron v2 MoE 模型的参数处理。Ollama 随后通过 PR #13607 合并了该修复。

环境排查

  • Ollama 版本:确认是否为 0.13.5 或包含该回归的版本。
  • 模型名称:mirage335/NVIDIA-Nemotron-Nano-9B-v2-virtuoso
  • 上游依赖:底层 llama.cpp 是否包含 PR #18309 的修复。
  • 操作系统与运行时:如 Windows/Docker/WSL2,以及 NVIDIA 驱动版本(虽然 Issue 提到驱动更新未解决问题)。

解决步骤

  1. 回退到临时工作版本:立即使用 Ollama v0.13.3 运行此模型。这是 Issue 中确认可工作的降级方案。
  2. 等待或应用修复:升级到包含 PR #13607 合并的 Ollama 版本(该 PR 已确认修复该问题)。
  3. 从源码构建(备选):如果技术可行,可自行构建 Ollama,并确保底层 llama.cpp 包含 PR #18309 的补丁。这也是 Issue 中确认的验证方法。

验证方法

运行相同的命令:ollama run mirage335/NVIDIA-Nemotron-Nano-9B-v2-virtuoso --verbose Give me three words starting with the letter F。如果模型正常加载并输出类似 1. Flower 2. Fire 3. Fish 的响应,且无 500 错误或 runner 退出,则问题已解决。

参考来源

ollama/ollama #13547

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

celebrityanime
celebrityanime
文章: 11290

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注