ModuleNotFoundError: No module named ‘auto_gptq’

用户在 Windows 系统上使用 oobabooga TextGen WebUI 时,尝试加载 yarn-mistral-7b-128k.Q4_K_M.gguf 模型(GGUF 格式)后出现报错。用户下载的是 CPU 版本安装包,但模型加载过程中意外调用了 auto_gptq 模块,最终因找不到

用户在 Windows 系统上使用 oobabooga TextGen WebUI 时,尝试加载 yarn-mistral-7b-128k.Q4_K_M.gguf 模型(GGUF 格式)后出现报错。用户下载的是 CPU 版本安装包,但模型加载过程中意外调用了 auto_gptq 模块,最终因找不到

用户在 Langfuse 中通过以下两种方式使用 OpenAI Responses API 时触发:

用户通过 from langfuse.openai import openai 或 from langfuse.openai import AsyncOpenAI 创建客户端,并调用 client.responses.create(...) 时触发。在 Chat Completions 接口下 to

在运行基于 MCP Python SDK 构建的 Streamable HTTP 服务器时,客户端连接时若提供的 Mcp-Session-Id 在服务器内存存储中不存在(例如服务器重启导致 session 丢失),本应返回 404 让客户端重新初始化,但服务器返回了 400。这会阻止客户端正确恢复连

用户在 MCP Python SDK 中使用 MCPServer.call_tool 方法,或工具函数通过 @server.tool() 装饰器注册时触发。该问题已在源码层面被诊断并修复,但未合入前某些分支逻辑和返回类型注解仍然是错误的。
![[Bug]: Hardcoded RERANK_LIMIT logic causes API failures (400) and ignores UI Top-K settings](https://www.chat-gpts.plus/wp-content/uploads/2026/06/14081-e59c8dd0-768x403.jpg)
用户在使用 RAGFlow v0.24.0 官方镜像时,配置了 Chatbot 并启用 Reranker(例如 Cohere 或 vLLM 托管的 BGE 模型)。在 UI 中将 Top-N ( page_size ) 设置为 6,Top-K 设置为较低的值(如 10)后,执行查询时触发 400 错

用户在运行 FluxLoraLoaderMixin.lora_state_dict() 时触发此问题,该函数用于将 kohya/sd-scripts 格式的 FLUX LoRA 转换为 Diffusers 兼容格式。问题在 `diffusers==0.38.0` 和当前 `main` 分支上均可复现
![[Bug]: Gemma4-31B-it deployed on vLLM cannot process images in tool message](https://www.chat-gpts.plus/wp-content/uploads/2026/06/41452-f7e27533-768x403.jpg)
用户在 vLLM 上部署 Gemma4-31B-it 模型,通过 OpenAI 兼容 API( /v1/chat/completions )发送包含图片的 tool message 请求时,服务端返回 HTTP 500 Internal Server Error。环境为 Ubuntu 24.04 +

用户通过 langfuse.openai.AsyncOpenAI 或同步客户端包装器执行流式( stream=True )ChatCompletion 请求,且模型触发工具调用时。Langfuse UI 中 Tools 选项卡下所有工具均显示 "not called",尽管工具已被成功调用。

用户在 FastAPI 或 Starlette 应用中通过 Mount() 将 FastMCP 的 sse_app() 挂载到非根路径下(例如 Mount("/mcp", app=mcp.sse_app()) ),启动后 SSE 握手返回的 endpoint 路径缺失前缀,导致 MCP 客户端发起