OpenAI 正式发布 GPT-5.5 Instant，全面提升模型性能

GPT-5.5 Instant 发布：告别“幻觉”与“废话”，OpenAI 一次补齐短板

当地时间5月6日，OpenAI 正式发布 GPT-5.5 Instant 模型，并将其设为 ChatGPT 的默认版本，全面取代此前的 GPT-5.3 Instant。 这一更新看似只是“即时版”的迭代，但性能提升幅度颇大。对于每天承载数十亿次用户访问的主力模型而言，这次升级专注于解决用户长期抱怨的两个核心痛点：准确性不足和回答过于啰嗦。

砍掉52.5%的“幻觉”，数学成绩飙升

大模型“一本正经地胡说八道”是用户最头疼的问题，GPT-5.5 Instant 试图正面解决这一顽疾。官方测试数据显示，在医学、法律、金融等高门槛领域，新模型的“幻觉率”大幅降低了 52.5%。特别是在处理用户此前标记的逻辑错误时，其纠正率提升了近 40%。

在学术能力上，该模型也交出了亮眼成绩单。它在 AIME2025 数学测试中拿下了 81.2 分，远超前代的 65.4 分。在 GPQA 博士级科学测试、多模态推理和科学图表理解等维度，新模型同样实现了显著提升。OpenAI 展示的一个代数案例显示，新模型不再机械地判定结论对错，而是能精准指出用户解题步骤中的具体计算错误，这体现了从“答案正确”向“过程理解”的转变。

砍掉三分之一的废话，更像“人话”

除了智力层面的升级，GPT-5.5 Instant 的“性格”也变了。过去，ChatGPT 生成的回答往往格式堆砌、大量使用表情符号，被用户吐槽“不说人话”。此次更新后，新模型的回答长度和行数减少了约 30%，语感更贴近真实的朋友对话，而非冰冷的产品手册。

对于付费用户，新模型还强化了长期记忆与跨平台数据整合能力。它可以根据历史对话和关联的 Gmail 邮件提供更个性化的建议。例如，推荐餐厅时不会再泛泛罗列热门地点，而是基于你过往的口味偏好和常去位置进行精准匹配。这意味着，OpenAI 正在从通用对话引擎，转向提供“感知个体差异”的服务。

一次务实的“查漏补缺”

相较于此前震撼业界的大版本迭代，GPT-5.5 Instant 更像是一次精准的“查漏补缺”。它没有堆砌全新的、尚不成熟的能力，而是集中资源将“准确性”和“简洁性”这两个影响用户体验的基础指标打磨到极致。这背后反映出大模型竞争已进入深水区：在基础能力没有代际颠覆的当下，谁能更好地解决日常使用中的微观痛点，谁就能巩固用户粘性。

有趣的是，为庆祝发布，OpenAI 计划在5月5日下午5:55举办一场特殊派对——从时间点到活动流程，几乎全部由 GPT-5.5 自己策划。这或许是对其“更像人类”的一次幽默注脚。