REGRESSION: NVIDIA-Nemotron-Nano-9B-v2 not working.

快速结论：此问题出现在运行 mirage335/NVIDIA-Nemotron-Nano-9B-v2-virtuoso 模型时，报错 Error: 500 Internal Server Error: llama runner process has terminated: exit status 2，原因是上游 llama.cpp 对 Nemotron v2 MoE 模型参数处理有误。优先排查 Ollama 版本是否为 0.13.5 或包含该回归的版本，并尝试回退到 v0.13.3 或等待合并上游修复。

问题场景

用户在 Ollama 中运行 mirage335/NVIDIA-Nemotron-Nano-9B-v2-virtuoso 模型（一个基于 NVIDIA Nemotron Nano 9B 的 MoE 模型）时，通过 --verbose 参数发起推理请求，模型加载失败并返回 500 错误。该问题在之前的版本中运行正常，在 Ollama 0.13.5 版本中回归出现。同一环境下的其他模型（如 GPT-OSS、DeepSeek、Devstral）均无问题。

报错原文

Error: 500 Internal Server Error: llama runner process has terminated: exit status 2

原因分析

该回归由 Ollama 合并的某次上游 llama.cpp 变更引入（commit 7e3ea813c1d8a9714c6927f75656d5ff6eaf5acc），该变更添加了对 Nemotron-Nano 的支持，但导致模型参数处理出现错误。经确认，该问题在 llama.cpp 的上游修复 PR #18309 中已解决，该修复针对 Nemotron v2 MoE 模型的参数处理。Ollama 随后通过 PR #13607 合并了该修复。

环境排查

Ollama 版本：确认是否为 0.13.5 或包含该回归的版本。
模型名称：mirage335/NVIDIA-Nemotron-Nano-9B-v2-virtuoso。
上游依赖：底层 llama.cpp 是否包含 PR #18309 的修复。
操作系统与运行时：如 Windows/Docker/WSL2，以及 NVIDIA 驱动版本（虽然 Issue 提到驱动更新未解决问题）。

解决步骤

回退到临时工作版本：立即使用 Ollama v0.13.3 运行此模型。这是 Issue 中确认可工作的降级方案。
等待或应用修复：升级到包含 PR #13607 合并的 Ollama 版本（该 PR 已确认修复该问题）。
从源码构建（备选）：如果技术可行，可自行构建 Ollama，并确保底层 llama.cpp 包含 PR #18309 的补丁。这也是 Issue 中确认的验证方法。

验证方法

运行相同的命令：ollama run mirage335/NVIDIA-Nemotron-Nano-9B-v2-virtuoso --verbose Give me three words starting with the letter F。如果模型正常加载并输出类似 1. Flower 2. Fire 3. Fish 的响应，且无 500 错误或 runner 退出，则问题已解决。