plamo-2-translate-gguf

快速结论：该报错发生在使用 Ollama 运行 Plamo-2-translate 系列 GGUF 模型时，Ollama 的底层 llama.cpp 尚未支持该模型架构。优先排查是否已应用 #12761 的补丁，并确保没有残留的旧版本 Ollama 服务进程。

问题场景

用户从 Hugging Face 下载了所有可用的 plamo-2-translate-gguf 模型，尝试通过 ollama run hf.co/mmnga/plamo-2-translate-gguf:Q8_0 等命令在 Ollama 中运行，但触发错误。

报错原文

Error: llama runner process has terminated: GGML_ASSERT(inp != nullptr && "missing result_norm/result_embd tensor") failed

原因分析

该错误表明 llama.cpp 内部张量初始化失败，inp 指针为空，无法找到 result_norm 或 result_embd 张量。主要原因可能是 Ollama 所捆绑的 llama.cpp 版本尚未实现对 Plamo 模型架构的支持。Issue 维护者确认该问题可以通过一行代码修改解决（参考 PR #12761），但用户尝试应用补丁后仍然遇到相同错误，提示可能存在服务进程冲突。

环境排查

确认 Ollama 版本是否已包含对 Plamo 架构的支持（需检查是否已合并 #12761 或更新的版本）。
确认当前运行的 LLM 运行时（llama.cpp）版本是否已支持 Plamo 模型。
确认系统中没有残留的旧版本 Ollama 服务进程（ollama serve 或后台守护进程）。
确认所使用的 GGUF 文件（如 hf.co/mmnga/plamo-2-translate-gguf:Q8_0）下载完整无损坏。

解决步骤

确保已应用必要的代码补丁：检查 Ollama 源码是否已包含 PR #12761 的修改。如果使用自定义编译，请确认补丁已正确应用。
停止所有 Ollama 进程：在运行新的 Ollama 实例之前，先结束系统中所有正在运行的 Ollama 服务进程（例如使用 pkill ollama 或任务管理器强制结束）。
从源码重新编译并启动 Ollama：应用补丁后，在源码根目录执行 go run . serve 启动服务，并确保这是唯一运行的 Ollama 进程。不要使用系统已安装的旧版 Ollama 二进制文件。
使用正确的模型名称运行：例如 ollama run hf.co/mmnga/plamo-2-translate-gguf:Q8_0（确保已预先拉取模型）。

验证方法

重新运行 ollama run hf.co/mmnga/plamo-2-translate-gguf:Q8_0 命令，观察是否不再弹出 GGML_ASSERT(inp != nullptr && "missing result_norm/result_embd tensor") 错误。如果模型能够正常加载并开始推理，则问题解决。若仍有错误，请确认无其他旧版 Ollama 服务进程在后台运行。