
一句话看懂:一份最新独立测试显示,参数规模高达万亿级别的 GPT-5.5 在回答未知问题时编造答案的比例(86%)是仅 753B 参数的开源模型 GLM-5.2(28%)的三倍。这直接挑战了“模型越大越智能”的主流认知,并暴露了当前大模型在常识边界判断上的结构性缺陷。
事件核心:发生了什么
来自 Z.ai 的开源模型 GLM-5.2(总量 753B 参数,约 40B 活跃参数)在 Artificial Analysis 智力指数上只比 GPT-5.5(估计 1-2T 参数)低 4 分。然而在 AA-Omniscience 幻觉评测中,GPT-5.5 的幻觉率高达 86%,意味着它只有约 6% 的概率承认不知道答案;GLM-5.2 仅为 28%,Anthropic 的 Opus 4.8 为 36%,被美国政府限制的 Claude Fable 5 为 48%。DeepSeek V4 Pro(1.6T 参数)的幻觉率更是达到 94%——在它无法回答的问题中,只有 6% 的情况会如实告知不知道。
测试者还给出了一个具体场景:用 Python 实现一个无法逻辑成立的异步事件循环策略。GLM-5.2 仅用 12 秒、800 个推理 token 就识别出问题矛盾;而 DeepSeek V4 Pro 花 3 分 52 秒、7.7k token 推理后仍在自信地生成一个语法正确但逻辑不可能的解决方案。
为什么重要
这个结果揭示了一个关键矛盾:模型越“大”、训练数据越丰富,它反而越倾向于为任何问题强行生成一个看似合理的答案,而不是学会说“我不确定”。GPT-5.5 和 DeepSeek V4 Pro 的“编造”并非个例,而是大量模型面对超出其知识或推理能力的问题时的普遍失能。
这对以下 AI 行业的共识形成冲击:
- 参数规模迷信正在被打破:GLM-5.2 以不到 GPT-5.5 一半的参数量达到接近的基准分,在幻觉这一真实场景上反而大幅领先,说明继续堆参数不一定带来更可信的输出。
- 开源模型的竞争力被重新评估:GLM-5.2 是 MIT 许可的开源模型,可以提供接近甚至部分超越闭源旗舰的可靠性,这可能会促使更多企业和开发者重新考虑私有化部署方案。
- “高推理预算”不等于“高可靠性”:DeepSeek V4 Pro 消耗大量算力、投入超过 3 分钟推理,结果仍是编造——这说明推理链条的加长不一定导向正确结果,反而可能助长错误路径的精致包装。
对用户/开发者/创作者的影响
对 AI 应用开发者的直接影响:如果你正在基于 GPT-5.5 或 DeepSeek V4 Pro 构建关键业务逻辑(如代码审核、文档生成、智能客服),上述的幻觉率意味着需要更强的输出校验层。GLM-5.2 的结果则提示:一个好的筛选标准不应只看基准分,而要看模型在“未知问题”上如何表现。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
对企业采购决策:在评估大模型时,“通用能力分数”和“幻觉率”可能会成为两个互相独立、甚至有时冲突的指标。目前公开信息显示,部分行业(法律、医疗、金融)可能更值得为低幻觉模型支付溢价,而非一味追求最大参数模型。
对普通用户:遇到复杂或模棱两可的问题时,可能不如以前信任那些参数量巨大的模型——它们“看起来很确信”但错误率更高。应该学会主动给模型设计“我可以不知道”的提示,或者直接尝试更轻量但校准更好的模型。
值得关注的后续
- GLM-5.2 是否会推动模型选择标准更新? 如果 MIT 许可的低幻觉模型能在更多真实场景中证明自己,可能会催生更强调“认知边界校准”的评估体系,并影响 next-generation 模型的训练目标(如主动引入“说不知道”惩罚项)。
- GPT-5.5 和 DeepSeek V4 Pro 是否会因此调整推理策略? 高幻觉率对 OpenAI 和 DeepSeek 的声誉是明显打击。两者可能在未来版本中加入更激进的“摇头机制”,但这需要在能力上限与可信度之间做取舍。
- 监管视角是否会介入“幻觉率”作为合规指标? Claude Fable 5 因为一个越狱风险被政府禁止,而幻觉率很高的模型在关键领域(如代码生成、自动化决策)同样可能带来实质性风险。监管机构可能将幻觉率视为新的安全度量。


![[BUG]: Desktop on Windows-ARM (Snapdragon) ships x64 Prisma query engine → "could not locate the Query Engine", all DB ops fail](https://www.chat-gpts.plus/wp-content/uploads/2026/06/5881-651d8865-768x403.jpg)