
GLM4-1m support
快速结论:在 Ollama 上运行 GLM4-1m 长上下文模型时,会出现 check_tensor_dims: tensor 'blk.0.attn_qkv.weight' has wrong shape 错误。优先确认是否正在使用较新版本的 Ollama(0.2.2 及以上),因为早期版本不支持此模型。
问题场景
用户使用命令行 ollama run glm4:9b-chat-1m-q8_0 或 ollama run glm4 下载并运行 GLM-4-9B-Chat-1M 模型时,模型下载成功但加载失败,进程终止。问题出现在 macOS 系统上(Apple Silicon),Ollama 版本为 0.2.0 或 0.2.1。
报错原文
Error: llama runner process has terminated: signal: abort trap error:check_tensor_dims: tensor 'blk.0.attn_qkv.weight' has wrong shape; expected 4096, 4608, got 4096, 5120, 1, 1
另一个版本(运行 ollama run glm4 时):
Error: llama runner process has terminated: signal: aborted (core dumped) error:failed to create context with model '~/.ollama/models/blobs/sha256-...'
原因分析
可能原因是早期版本的 Ollama 对 GLM4-1m 模型的张量形状解析存在限制。官方在 Issue 中确认“the 1m model isn’t yet supported”(1m 模型尚未支持)。核心报错显示 attn_qkv.weight 张量的期望形状为 [4096, 4608],但实际模型文件中为 [4096, 5120, 1, 1],说明 Ollama 的推理引擎(llama.cpp)没有适配 GLM4-1m 的注意力计算逻辑。
环境排查
- Ollama 版本:0.2.0、0.2.1 及早期版本均不支持。
- 系统:macOS(Apple Silicon),其他平台未验证。
- 模型:
glm4:9b-chat-1m-q8_0或glm4标签对应的模型。 - 运行工具:Ollama 命令行,底层依赖 llama.cpp 引擎。
解决步骤
- 确认当前 Ollama 版本:
ollama --version。如果低于 0.2.2,请升级到最新版本。Ollama 团队已在 0.2.2 中修复了内存图计算问题,并逐步添加对 GLM4 系列的支持。 - 更新后拉取模型:
ollama pull glm4(官方默认指向 9B 基础版本),或者使用社区转换的 GGUF 格式:ollama run hf.co/bartowski/glm-4-9b-chat-1m-GGUF:Q4_K_M(此方法在 Issue 中被确认支持)。 - 如果仍然报错,尝试先删除旧模型缓存:
ollama rm glm4:9b-chat-1m-q8_0,再重新拉取。 - 注意:GLM4V-9B(视觉模型)在 Issue 讨论时尚未支持。如需使用,请检查当前 Ollama 版本更新日志或搜索视觉模型支持情况。
验证方法
运行 ollama run glm4 或指定模型文件路径的 GGUF 模型,观察模型是否正常加载并进入交互式对话。不再出现 Error: llama runner process has terminated 或 check_tensor_dims 相关报错即视为解决。



![[Bug]: Vllm + Gemma 4 + claude code: tool calling problems](https://www.chat-gpts.plus/wp-content/uploads/2026/07/39043-5bb1c48d-768x403.jpg)