v0.30.* : ollama server keeps crashing for every model on GH200

快速结论：此问题主要出现在升级到 Ollama v0.30.* 后，旧版本或早期快照模型（如 gpt-oss:20b 的“Day Zero”版本）因模型文件本身的张量格式与新 GGUF runner 不兼容，导致加载时立即崩溃。优先尝试重新拉取该模型的最新版。

问题场景

在 Ubuntu 24.04 aarch64 GH200 服务器上运行 Ollama v0.30.9，客户端通过端口转发（例如使用 ollama launch claude）加载任意模型（如 gpt-oss:120b）时，Ollama GPU 进程反复出现后立即消失，客户端持续重试并最终返回 500 错误。该现象在 v0.30.0 之前的版本中不存在。

报错原文

gguf_init_from_reader: failed to read tensor info
llama_model_load: error loading model: llama_model_loader: failed to load model from /usr/share/ollama/.ollama/models/blobs/sha256-90a618fe6ff21b09ca968df959104eb650658b0bef0faef785c18c2795d993e3
llama_model_load_from_file_impl: failed to load model
common_init_from_params: failed to load model
srv load_model: failed to load model
srv operator(): operator(): cleaning up before exit...
srv llama_server: exiting due to model loading error
time=... level=ERROR source=llama_server.go:861 msg="llama-server terminated" error="exit status 1" exit=1
time=... level=WARN source=runner.go:575 msg="llama-server GPU discovery watchdog timed out" OLLAMA_LIBRARY_PATH="[/usr/local/lib/ollama /usr/local/lib/ollama/cuda_v13]" extra_envs=map[CUDA_VISIBLE_DEVICES:GPU-...] error="context deadline exceeded"
time=... level=WARN source=runner.go:355 msg="unable to refresh free memory, using old values"

原因分析

根本原因是模型文件（如 gpt-oss:20b 的早期版本）包含旧版 GGUF 格式，其 tensor 名称或参数与 Ollama v0.30.* 升级后的新 GGUF 运行时（runner）不兼容。Ollama 官方虽然对大部分模型实现了向后兼容补丁，但 gpt-oss 模型的“Day Zero”快照版（发布后数天内被官方迅速替换的较差实现）并未被该补丁覆盖，导致加载时直接报错 gguf_init_from_reader: failed to read tensor info 并崩溃。这并非通用性 bug，而是特定模型的特定早期版本问题。

环境排查

确认 Ollama 版本 ≥ v0.30.0（本问题在 v0.30.9 上复现）。
确认报错模型是否为早期快照版：可通过 ollama list 查看模型标签，并对比 ollama pull 后是否为最新版。
确认其他模型（如较新的模型）是否正常工作，以缩小排查范围。

解决步骤

尝试重新拉取触发崩溃的模型（例如 gpt-oss:120b），获取官方推送的最新 GGUF 格式版本：
```
ollama pull <model_name>
```
如果有多模型需要批量刷新，可以使用脚本对所有已安装模型执行更新（注意：这会重新下载所有模型，请确保网络和磁盘空间充足）：
```
for i in $(ollama list | grep -v NAME | awk '{print $1}') ; do ollama pull $i ; done
```
如果重新拉取后问题依旧，请检查模型标签是否确实为最新稳定版（例如在 ollama pull 后通过 ollama show 查看模型信息）。
若问题仍存在，则可能是其他模型也遇到了类似的不兼容问题，建议向 Ollama 官方仓库报告，并提供报错日志和模型 SHA256 值。

验证方法

重新拉取模型后，再次通过客户端请求该模型（例如使用 ollama run 或在 WebUI 中发送一次对话），若 server 不再崩溃且能正常返回响应，即确认问题已解决。同时检查服务器日志中不再出现 gguf_init_from_reader: failed to read tensor info 及 llama_server: exiting due to model loading error 字样。