![[ISSUE]: TextGen Fails to load GGUF models on multiple browsers, different textgen versions.](https://www.chat-gpts.plus/wp-content/uploads/2026/06/7530-3d63106e.jpg)
[ISSUE]: TextGen Fails to load GGUF models on multiple browsers, different textgen versions.
快速结论:在 Linux 系统上使用 TextGen WebUI 桌面版加载 GGUF 模型时,遇到“Failed to load … .gguf”错误,并伴随 SUID sandbox 或 exit code -11 崩溃。优先排查:确认 CUDA 驱动版本与 TextGen 构建版本匹配,并检查 Electron sandbox 权限问题。
问题场景
用户在 Ubuntu 24.04.4 LTS 系统上使用 TextGen WebUI(版本 4.6.2, 4.5.2, 4.7, 4.7.1, 4.7.3),尝试加载 GGUF 模型(如 gemma-3-4b-it-Q4_K_S.gguf 和 mmproj-gemma-3-4b-it-F16.gguf)。显卡为 NVIDIA GeForce RTX 2060(6GB VRAM),驱动版本 580.142,CUDA 版本 13.0。无论使用桌面版(electron)还是命令行的 textgen 脚本,均无法加载模型。用户也尝试了 CUDA 13.1 和 12.4 版本构建,同样失败。
报错原文
Failed to load gemma-3-4b-it-Q4_K_S.gguf.
[88464:0502/201036.132286:FATAL:sandbox/linux/suid/client/setuid_sandbox_host.cc:166] The SUID sandbox helper binary was found, but is not configured correctly. Rather than run without sandboxing I'm aborting now. You need to make sure that /home/user1/Development/Apps/textgen/app/electron/chrome-sandbox is owned by root and has mode 4755.
Trace/breakpoint trap (core dumped)
09:29:16-072588 ERROR Error loading the model with llama.cpp: Server process
terminated unexpectedly with exit code: -11
原因分析
主要问题是多方面的:
1. CUDA 驱动版本不匹配:TextGen 的 CUDA 13.1 构建不能在 CUDA 13.0 驱动上运行。需要匹配的构建版本(例如使用 CUDA 12.4 构建)。
2. Electron sandbox 权限问题:桌面版(electron)依赖于 chrome-sandbox 二进制文件,该文件需要 root 所有权和 4755 权限。当软件包被解压到非 root 用户的家目录时,权限不满足,导致 SUID sandbox 错误。
3. 模型加载崩溃(exit code -11):这是底层 llama.cpp 库的 SIGSEGV(段错误),可能是由于 GPU 内存不足或配置问题(如 gpu_layers=auto 分配不当),尤其是在 6GB VRAM 的 RTX 2060 上。
4. 版本特定的 bug:标签中提到版本 4.7 在 Linux 上有 bug,并在 4.7.1 中修复。但即使使用 4.7.3,问题仍然存在。
环境排查
- 确认操作系统及版本:Ubuntu 24.04.4 LTS
- 确认 GPU 型号和 VRAM:NVIDIA GeForce RTX 2060 (6GB)
- 确认 NVIDIA 驱动版本:Driver v.580.142
- 确认 CUDA 版本:v.13.0(通过 nvidia-smi 查看)
- 确认 TextGen 构建版本(Linux portable tar.gz 包)与 CUDA 版本匹配:CUDA 13.1 构建需要驱动 >= 13.1
- 确认 Electron 沙盒权限:chrome-sandbox 是否 owned by root, mode 4755
- 确认 Python 环境:使用 uv venv 还是 python -m venv,Python 版本 3.12 或 3.13
- 确认模型文件路径和完整性:gguf 文件是否未损坏
- 确认 llama.cpp 后端:检查 libggml-cuda.so 是否被加载
解决步骤
- 优先尝试:使用与 CUDA 驱动版本匹配的 TextGen 构建。
下载并使用 CUDA 12.4 版本的构建包(例如 textgen-portable-4.7.1-linux-cuda12.4.tar.gz),而不是 CUDA 13.1 版本。CUDA 13.1 构建需要 13.1 或更高版本的驱动。 - 修复 Electron sandbox 权限(如使用桌面版)。
a. 进入 app/electron 目录(根据安装路径,可能是 /path/to/textgen/app/electron/)。
b. 以 root 权限执行:
sudo chown root:root chrome-sandbox
sudo chmod 4755 chrome-sandbox
c. 或者,运行时添加--no-sandbox参数(不推荐用于生产环境)。
d. 或者将 TextGen 整个文件夹移动到 root 用户拥有的目录下(如 /opt/)。 - 尝试更新到最新版本(如 v4.7.3 或更新)。
Issue 提交者(oobabooga)指出 v4.7.3 包含了修复(commit d764aaf),用户已验证 v4.7.3 可以启动 GUI,但模型加载仍失败。 - 调整模型加载参数,减少 GPU 内存压力。
在 TextGen GUI 中,尝试手动设置gpu_layers为一个较小的值(例如 10-20),而不是使用auto。或者尝试使用更小的模型(如 Q4_K_M 而不是 Q4_K_S),或在 CPU 上加载(设置gpu_layers=0)。 - 检查模型文件完整性。
重新下载 gguf 模型文件,确保它们没有被损坏。也可以尝试使用已知可用的 GGUF 模型(如 LLaMA 或 Mistral 系列的小模型)作为测试。 - 如果以上均无效,尝试纯 CPU 模式运行。
卸载或重命名 llama-cpp-python 的 CUDA 构建,强制使用 CPU 后端,测试是否是 CUDA 相关崩溃。
验证方法
启动 TextGen WebUI 或桌面版,从界面中加载一个 GGUF 模型。如果模型成功加载,界面显示正常,没有“Failed to load”错误,且终端无 exit code -11 或其他崩溃信息,则表示问题已解决。可以多次切换模型(不同大小)来验证稳定性。



