
plamo-2-translate-gguf
快速结论:该报错发生在使用 Ollama 运行 Plamo-2-translate 系列 GGUF 模型时,Ollama 的底层 llama.cpp 尚未支持该模型架构。优先排查是否已应用 #12761 的补丁,并确保没有残留的旧版本 Ollama 服务进程。
问题场景
用户从 Hugging Face 下载了所有可用的 plamo-2-translate-gguf 模型,尝试通过 ollama run hf.co/mmnga/plamo-2-translate-gguf:Q8_0 等命令在 Ollama 中运行,但触发错误。
报错原文
Error: llama runner process has terminated: GGML_ASSERT(inp != nullptr && "missing result_norm/result_embd tensor") failed
原因分析
该错误表明 llama.cpp 内部张量初始化失败,inp 指针为空,无法找到 result_norm 或 result_embd 张量。主要原因可能是 Ollama 所捆绑的 llama.cpp 版本尚未实现对 Plamo 模型架构的支持。Issue 维护者确认该问题可以通过一行代码修改解决(参考 PR #12761),但用户尝试应用补丁后仍然遇到相同错误,提示可能存在服务进程冲突。
环境排查
- 确认 Ollama 版本是否已包含对 Plamo 架构的支持(需检查是否已合并 #12761 或更新的版本)。
- 确认当前运行的 LLM 运行时(llama.cpp)版本是否已支持 Plamo 模型。
- 确认系统中没有残留的旧版本 Ollama 服务进程(
ollama serve或后台守护进程)。 - 确认所使用的 GGUF 文件(如
hf.co/mmnga/plamo-2-translate-gguf:Q8_0)下载完整无损坏。
解决步骤
- 确保已应用必要的代码补丁:检查 Ollama 源码是否已包含 PR #12761 的修改。如果使用自定义编译,请确认补丁已正确应用。
- 停止所有 Ollama 进程:在运行新的 Ollama 实例之前,先结束系统中所有正在运行的 Ollama 服务进程(例如使用
pkill ollama或任务管理器强制结束)。 - 从源码重新编译并启动 Ollama:应用补丁后,在源码根目录执行
go run . serve启动服务,并确保这是唯一运行的 Ollama 进程。不要使用系统已安装的旧版 Ollama 二进制文件。 - 使用正确的模型名称运行:例如
ollama run hf.co/mmnga/plamo-2-translate-gguf:Q8_0(确保已预先拉取模型)。
验证方法
重新运行 ollama run hf.co/mmnga/plamo-2-translate-gguf:Q8_0 命令,观察是否不再弹出 GGML_ASSERT(inp != nullptr && "missing result_norm/result_embd tensor") 错误。如果模型能够正常加载并开始推理,则问题解决。若仍有错误,请确认无其他旧版 Ollama 服务进程在后台运行。



