[Bug]: `–reasoning-parser gemma4` silently disables structured output (xgrammar) when `enable_thinking=false`
![[Bug]: `--reasoning-parser gemma4` silently disables structured output (xgrammar) when `enable_thinking=false`](https://www.chat-gpts.plus/wp-content/uploads/2026/06/39130-0cfbe746-768x403.jpg)
用户在使用 vLLM 启动 Gemma 4 系列模型(如 google/gemma-4-E4B-it 、 google/gemma-4-26B-A4B-it 、 google/gemma-4-31B-it )时,同时指定了:
![[Bug]: `--reasoning-parser gemma4` silently disables structured output (xgrammar) when `enable_thinking=false`](https://www.chat-gpts.plus/wp-content/uploads/2026/06/39130-0cfbe746-768x403.jpg)
用户在使用 vLLM 启动 Gemma 4 系列模型(如 google/gemma-4-E4B-it 、 google/gemma-4-26B-A4B-it 、 google/gemma-4-31B-it )时,同时指定了:

用户启动 vLLM server 时指定了 --kv-offloading-backend native 和 --kv-offloading-size 300 ,在处理长上下文场景(超长 prompt 或超长生成)时会随机崩溃,报出 RuntimeError: cancelled 。运行环境为 Ub

AI 模型聚合平台 OpenRouter 近期推出了名为 “Fusion API” 的复合模型服务,通过同时调用多个模型并整合最优答案,在多项测试中实现了比单一头部模型(如 Claude Fable5)更高的性能,同时成本最多可降低约一半。这不是一个概念产品,而是已经发布可用、有基准测试数据的正式服务。

DualCam AI 是一款基于 AI 的 iPhone 相机应用,能在一次拍摄中同时录制前置和后置摄像头画面,并支持多种预设布局和实时调整。这款产品切中了创作者在“不可重来”场景下多视角记录的需求,将 AI 用于简化多路视频同步与合成流程,而非传统的图像生成或识别。

PrompTessor 今日在 Product Hunt 第四次上线,它提供了一个集提示词生成、质量评估、优化、反向工程和库管理于一体的工作空间,目标是让用户能在 ChatGPT、Claude、Gemini 等多个主流 AI 工具间复用高质量提示。

LYQN AI 于今日在 Product Hunt 正式发布,定位为一款自学习型 AI 客服代理,能够自动抓取企业网站内容、建立知识库并基于上下文回答用户问题,同时支持一键转接人类客服和 WhatsApp 连续对话。其核心卖点是“无需训练、即插即用”,并提供了两周免费试用期来降低企业采购门槛。

LLM Gateway 推出对话聊天产品,以单一账号余额接入 210 多个模型,支持在对话中随时切换模型并运行图像、视频、音频生成,意图降低开发者与普通用户的多模型管理门槛。

AI 大模型公司 DeepSeek 获得首轮超过 70 亿美元融资,估值突破 500 亿美元。这笔资金通过特殊架构(创始人个人出资 200 亿元人民币、投资者无表决权、锁定五年)进入,同时引入腾讯和宁德时代作为战略投资方,保障了创始团队对技术与控制权的绝对掌握。

2026年一季度中国人形机器人出口同比增长210%,产品从翻跟斗的“演员”真正进入全球工厂、机场和物流中心当“打工人”,标志着具身智能从实验室炫技迈入商业落地的关键转折点。

OpenRouter 推出了 Fusion API 复合 AI 模型,通过并行调用多个模型并汇总结果来提升性能。测试显示,用 DeepSeek V4 Pro、Kimi K2.6 和 Gemini 3 Flash 的组合,能以约 Claude Fable 5 一半的成本,将性能差距控制到 1% 以内。