
v0.30.* : ollama server keeps crashing for every model on GH200
快速结论:此问题主要出现在升级到 Ollama v0.30.* 后,旧版本或早期快照模型(如 gpt-oss:20b 的“Day Zero”版本)因模型文件本身的张量格式与新 GGUF runner 不兼容,导致加载时立即崩溃。优先尝试重新拉取该模型的最新版。
问题场景
在 Ubuntu 24.04 aarch64 GH200 服务器上运行 Ollama v0.30.9,客户端通过端口转发(例如使用 ollama launch claude)加载任意模型(如 gpt-oss:120b)时,Ollama GPU 进程反复出现后立即消失,客户端持续重试并最终返回 500 错误。该现象在 v0.30.0 之前的版本中不存在。
报错原文
gguf_init_from_reader: failed to read tensor info
llama_model_load: error loading model: llama_model_loader: failed to load model from /usr/share/ollama/.ollama/models/blobs/sha256-90a618fe6ff21b09ca968df959104eb650658b0bef0faef785c18c2795d993e3
llama_model_load_from_file_impl: failed to load model
common_init_from_params: failed to load model
srv load_model: failed to load model
srv operator(): operator(): cleaning up before exit...
srv llama_server: exiting due to model loading error
time=... level=ERROR source=llama_server.go:861 msg="llama-server terminated" error="exit status 1" exit=1
time=... level=WARN source=runner.go:575 msg="llama-server GPU discovery watchdog timed out" OLLAMA_LIBRARY_PATH="[/usr/local/lib/ollama /usr/local/lib/ollama/cuda_v13]" extra_envs=map[CUDA_VISIBLE_DEVICES:GPU-...] error="context deadline exceeded"
time=... level=WARN source=runner.go:355 msg="unable to refresh free memory, using old values"
原因分析
根本原因是模型文件(如 gpt-oss:20b 的早期版本)包含旧版 GGUF 格式,其 tensor 名称或参数与 Ollama v0.30.* 升级后的新 GGUF 运行时(runner)不兼容。Ollama 官方虽然对大部分模型实现了向后兼容补丁,但 gpt-oss 模型的“Day Zero”快照版(发布后数天内被官方迅速替换的较差实现)并未被该补丁覆盖,导致加载时直接报错 gguf_init_from_reader: failed to read tensor info 并崩溃。这并非通用性 bug,而是特定模型的特定早期版本问题。
环境排查
- 确认 Ollama 版本 ≥ v0.30.0(本问题在 v0.30.9 上复现)。
- 确认报错模型是否为早期快照版:可通过
ollama list查看模型标签,并对比ollama pull后是否为最新版。 - 确认其他模型(如较新的模型)是否正常工作,以缩小排查范围。
解决步骤
- 尝试重新拉取触发崩溃的模型(例如
gpt-oss:120b),获取官方推送的最新 GGUF 格式版本:ollama pull <model_name> - 如果有多模型需要批量刷新,可以使用脚本对所有已安装模型执行更新(注意:这会重新下载所有模型,请确保网络和磁盘空间充足):
for i in $(ollama list | grep -v NAME | awk '{print $1}') ; do ollama pull $i ; done - 如果重新拉取后问题依旧,请检查模型标签是否确实为最新稳定版(例如在
ollama pull后通过ollama show查看模型信息)。 - 若问题仍存在,则可能是其他模型也遇到了类似的不兼容问题,建议向 Ollama 官方仓库报告,并提供报错日志和模型 SHA256 值。
验证方法
重新拉取模型后,再次通过客户端请求该模型(例如使用 ollama run 或在 WebUI 中发送一次对话),若 server 不再崩溃且能正常返回响应,即确认问题已解决。同时检查服务器日志中不再出现 gguf_init_from_reader: failed to read tensor info 及 llama_server: exiting due to model loading error 字样。

![Misc. bug: [ROCm] Significantly lower token generation performance vs Vulkan on RX 7900 XTX (gfx1100)](https://www.chat-gpts.plus/wp-content/uploads/2026/06/20934-97b8a216-768x403.jpg)

