GPT-5.5 产生的幻觉是 MIT 许可的 GLM-5.2 的 3 倍

一句话看懂：一份最新独立测试显示，参数规模高达万亿级别的 GPT-5.5 在回答未知问题时编造答案的比例（86%）是仅 753B 参数的开源模型 GLM-5.2（28%）的三倍。这直接挑战了“模型越大越智能”的主流认知，并暴露了当前大模型在常识边界判断上的结构性缺陷。

事件核心：发生了什么

来自 Z.ai 的开源模型 GLM-5.2（总量 753B 参数，约 40B 活跃参数）在 Artificial Analysis 智力指数上只比 GPT-5.5（估计 1-2T 参数）低 4 分。然而在 AA-Omniscience 幻觉评测中，GPT-5.5 的幻觉率高达 86%，意味着它只有约 6% 的概率承认不知道答案；GLM-5.2 仅为 28%，Anthropic 的 Opus 4.8 为 36%，被美国政府限制的 Claude Fable 5 为 48%。DeepSeek V4 Pro（1.6T 参数）的幻觉率更是达到 94%——在它无法回答的问题中，只有 6% 的情况会如实告知不知道。

测试者还给出了一个具体场景：用 Python 实现一个无法逻辑成立的异步事件循环策略。GLM-5.2 仅用 12 秒、800 个推理 token 就识别出问题矛盾；而 DeepSeek V4 Pro 花 3 分 52 秒、7.7k token 推理后仍在自信地生成一个语法正确但逻辑不可能的解决方案。

为什么重要

这个结果揭示了一个关键矛盾：模型越“大”、训练数据越丰富，它反而越倾向于为任何问题强行生成一个看似合理的答案，而不是学会说“我不确定”。GPT-5.5 和 DeepSeek V4 Pro 的“编造”并非个例，而是大量模型面对超出其知识或推理能力的问题时的普遍失能。

这对以下 AI 行业的共识形成冲击：

参数规模迷信正在被打破：GLM-5.2 以不到 GPT-5.5 一半的参数量达到接近的基准分，在幻觉这一真实场景上反而大幅领先，说明继续堆参数不一定带来更可信的输出。
开源模型的竞争力被重新评估：GLM-5.2 是 MIT 许可的开源模型，可以提供接近甚至部分超越闭源旗舰的可靠性，这可能会促使更多企业和开发者重新考虑私有化部署方案。
“高推理预算”不等于“高可靠性”：DeepSeek V4 Pro 消耗大量算力、投入超过 3 分钟推理，结果仍是编造——这说明推理链条的加长不一定导向正确结果，反而可能助长错误路径的精致包装。

对用户/开发者/创作者的影响

对 AI 应用开发者的直接影响：如果你正在基于 GPT-5.5 或 DeepSeek V4 Pro 构建关键业务逻辑（如代码审核、文档生成、智能客服），上述的幻觉率意味着需要更强的输出校验层。GLM-5.2 的结果则提示：一个好的筛选标准不应只看基准分，而要看模型在“未知问题”上如何表现。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

对企业采购决策：在评估大模型时，“通用能力分数”和“幻觉率”可能会成为两个互相独立、甚至有时冲突的指标。目前公开信息显示，部分行业（法律、医疗、金融）可能更值得为低幻觉模型支付溢价，而非一味追求最大参数模型。

对普通用户：遇到复杂或模棱两可的问题时，可能不如以前信任那些参数量巨大的模型——它们“看起来很确信”但错误率更高。应该学会主动给模型设计“我可以不知道”的提示，或者直接尝试更轻量但校准更好的模型。

值得关注的后续

GLM-5.2 是否会推动模型选择标准更新？ 如果 MIT 许可的低幻觉模型能在更多真实场景中证明自己，可能会催生更强调“认知边界校准”的评估体系，并影响 next-generation 模型的训练目标（如主动引入“说不知道”惩罚项）。
GPT-5.5 和 DeepSeek V4 Pro 是否会因此调整推理策略？ 高幻觉率对 OpenAI 和 DeepSeek 的声誉是明显打击。两者可能在未来版本中加入更激进的“摇头机制”，但这需要在能力上限与可信度之间做取舍。
监管视角是否会介入“幻觉率”作为合规指标？ Claude Fable 5 因为一个越狱风险被政府禁止，而幻觉率很高的模型在关键领域（如代码生成、自动化决策）同样可能带来实质性风险。监管机构可能将幻觉率视为新的安全度量。

来源：Hacker News · 24h最热

GPT-5.5 产生的幻觉是 MIT 许可的 GLM-5.2 的 3 倍

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

bug: K and J don’t work when traversing Observations

bug: Slack Integration Breaks if Slack API returns a 429

[BUG]: Desktop on Windows-ARM (Snapdragon) ships x64 Prisma query engine → “could not locate the Query Engine”, all DB ops fail

发表回复取消回复