Eval bug: CDNA2 ROCM Performance Issue: QAT Q4 vs Q8

用户在 llama.cpp (build 9619, commit d8a24cce) 中,使用 llama-bench 工具,后端为 HIP (ROCm),硬件为 2x AMD Instinct MI210 (CDNA2, gfx90a)。分别测试了 gemma-4-31B 模型的 QAT Q4_

用户在 llama.cpp (build 9619, commit d8a24cce) 中,使用 llama-bench 工具,后端为 HIP (ROCm),硬件为 2x AMD Instinct MI210 (CDNA2, gfx90a)。分别测试了 gemma-4-31B 模型的 QAT Q4_

用户在使用 llama.cpp 路由器模式(通过 `--models-preset` 和 `--models-max` 参数)运行 `llama-server` 时,父进程的 CLI 标志(如 `--parallel 1`、`--cache-type-k q8_0`、`--flash-attn on
![[Bug]: "qllama/bge-reranker-v2-m3:latest" cannot be recognized as a reranker model.](https://www.chat-gpts.plus/wp-content/uploads/2026/06/16115-2e5d8cf8-768x403.jpg)
用户在 RAGFlow v0.26.0(对应 workspace commit ID 6865039a2 )中,通过 Ollama 提供商添加从 Ollama 拉取的 qllama/bge-reranker-v2-m3:latest 模型。RAGFlow 运行在 CPU-only 模式下,但问题同样

用户使用 llama-server.exe 启动 llama.cpp 服务器,在加载模型后关闭控制台窗口或按 Ctrl+C 退出时,系统立即蓝屏并重启。问题在 Windows 系统上发生,涉及 NVIDIA GPU 和可能的 Vulkan 后端。

用户使用 llama-server (版本 8182、8233、8149,基于 ggml-org/llama.cpp)加载 Qwen 3.5 27B GGUF 模型(如 Qwen3.5-27B.Q8_0.gguf ),启用 flash attention 和长上下文(如 131072 tokens)

用户在 vLLM 服务中加载 Qwen3-VL 系列模型(如 Qwen3-VL-235B-A22B-Instruct、Qwen3-VL-30B-A3B-Thinking)时,通过 VLLM_ATTENTION_BACKEND 环境变量尝试切换到 FLASHINFER 、 TRITON_ATTN 或

2025 年 6 月 18 日,阿里联合中国人民大学发布并开源了 LOGOS,这是业界首个基于统一“科学语法”的多领域科学生成基础模型。它用 1B 参数量(仅为微软 NatureLM 的 1/56),在六项科学任务上跨越式超越后者,核心创新在于将蛋白质、小分子等异质科学对象编码为统一 Token 序列,实现形…
![[Bug]: MCP dataset discovery fails](https://www.chat-gpts.plus/wp-content/uploads/2026/06/16146-d9a4dcc9-768x403.jpg)
用户在 RAGFlow 0.26.0 版本中使用 MCP 功能时触发。MCP 服务器在调用 /api/v1/datasets 接口进行数据集发现时,使用了 page_size=1000 的硬编码值,这与后端 REST API 的限制冲突。
![[Bug]: Gemma4 Tool Parser: Intermittently Missing `function.name` in Streaming Mode](https://www.chat-gpts.plus/wp-content/uploads/2026/06/45449-acacc055-768x403.jpg)
在 vLLM 服务中部署 google/gemma-4-31B-it 模型,使用 gemma4 工具解析器(tool parser),通过 OpenAI 兼容 API 发送流式聊天补全请求(stream=True),设置 tool_choice="auto" 和 chat_template_kwar
![[Bug]: [NIXL] Hetero TP assertion fails when tp > num_kv_heads (GQA replication)](https://www.chat-gpts.plus/wp-content/uploads/2026/06/45330-d23a2d45-768x403.jpg)
用户在运行 vLLM (版本 0.21.0) 的分离式推理 (disaggregated inference) 时,使用 NixlConnector 作为 KV 连接器,并配置了非同等的 TP 大小 (例如 Prefill TP=8, Decode TP=16,或 TP=8 对 TP=16)。问题触