标签： LLM

AI 资讯

Eval bug: CDNA2 ROCM Performance Issue: QAT Q4 vs Q8

用户在 llama.cpp (build 9619, commit d8a24cce) 中，使用 llama-bench 工具，后端为 HIP (ROCm)，硬件为 2x AMD Instinct MI210 (CDNA2, gfx90a)。分别测试了 gemma-4-31B 模型的 QAT Q4_

celebrityanime
2026年 6月 19日

AI 资讯

Router (server) stops forwarding parent CLI flags (`–parallel`, `–cache-type-*`, `–flash-attn`, `-ngl`) to spawned child instances — regr

用户在使用 llama.cpp 路由器模式（通过 `--models-preset` 和 `--models-max` 参数）运行 `llama-server` 时，父进程的 CLI 标志（如 `--parallel 1`、`--cache-type-k q8_0`、`--flash-attn on

celebrityanime
2026年 6月 19日

AI 资讯

[Bug]: “qllama/bge-reranker-v2-m3:latest” cannot be recognized as a reranker model.

用户在 RAGFlow v0.26.0（对应 workspace commit ID 6865039a2 ）中，通过 Ollama 提供商添加从 Ollama 拉取的 qllama/bge-reranker-v2-m3:latest 模型。RAGFlow 运行在 CPU-only 模式下，但问题同样

celebrityanime
2026年 6月 18日

AI 资讯

Misc. bug: llamacpp crashes my PC whenever I close the console for it.

用户使用 llama-server.exe 启动 llama.cpp 服务器，在加载模型后关闭控制台窗口或按 Ctrl+C 退出时，系统立即蓝屏并重启。问题在 Windows 系统上发生，涉及 NVIDIA GPU 和可能的 Vulkan 后端。

celebrityanime
2026年 6月 18日

AI 资讯

Eval bug: Qwen 3.5 Full prompt re-processing on every conversation turn

用户使用 llama-server （版本 8182、8233、8149，基于 ggml-org/llama.cpp）加载 Qwen 3.5 27B GGUF 模型（如 Qwen3.5-27B.Q8_0.gguf ），启用 flash attention 和长上下文（如 131072 tokens）

celebrityanime
2026年 6月 18日

AI 资讯

RuntimeError: Qwen3-VL does not support AttentionBackendEnum.FLASHINFER backend now.

用户在 vLLM 服务中加载 Qwen3-VL 系列模型（如 Qwen3-VL-235B-A22B-Instruct、Qwen3-VL-30B-A3B-Thinking）时，通过 VLLM_ATTENTION_BACKEND 环境变量尝试切换到 FLASHINFER 、 TRITON_ATTN 或

celebrityanime
2026年 6月 18日

AI 资讯

阿里开源首个统一科学大模型 LOGOS，仅用 1/56 参数超越微软 NatureLM

2025 年 6 月 18 日，阿里联合中国人民大学发布并开源了 LOGOS，这是业界首个基于统一“科学语法”的多领域科学生成基础模型。它用 1B 参数量（仅为微软 NatureLM 的 1/56），在六项科学任务上跨越式超越后者，核心创新在于将蛋白质、小分子等异质科学对象编码为统一 Token 序列，实现形…

celebrityanime
2026年 6月 18日

AI 资讯

[Bug]: MCP dataset discovery fails

用户在 RAGFlow 0.26.0 版本中使用 MCP 功能时触发。MCP 服务器在调用 /api/v1/datasets 接口进行数据集发现时，使用了 page_size=1000 的硬编码值，这与后端 REST API 的限制冲突。

celebrityanime
2026年 6月 18日

AI 资讯

[Bug]: Gemma4 Tool Parser: Intermittently Missing `function.name` in Streaming Mode

在 vLLM 服务中部署 google/gemma-4-31B-it 模型，使用 gemma4 工具解析器（tool parser），通过 OpenAI 兼容 API 发送流式聊天补全请求（stream=True），设置 tool_choice="auto" 和 chat_template_kwar

celebrityanime
2026年 6月 18日

AI 资讯

[Bug]: [NIXL] Hetero TP assertion fails when tp > num_kv_heads (GQA replication)

用户在运行 vLLM (版本 0.21.0) 的分离式推理 (disaggregated inference) 时，使用 NixlConnector 作为 KV 连接器，并配置了非同等的 TP 大小 (例如 Prefill TP=8, Decode TP=16，或 TP=8 对 TP=16)。问题触

celebrityanime
2026年 6月 18日